啪啪免费,亚洲国产欧美另类专区,精品五月婷婷在线

當(dāng)前位置：博客首頁(yè) >> Python >> 閱讀正文

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分？

作者: 鄭曉分類(lèi): Python 發(fā)布于: 2014-11-19 22:30 瀏覽：7,939 評(píng)論(3)

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分？

比如寫(xiě)一個(gè)python爬蟲(chóng)去抓百度搜索結(jié)果列表中的網(wǎng)頁(yè)數(shù)據(jù)，然后從這些網(wǎng)頁(yè)中提取出正文部分（比如新聞資訊的文章部分），是否可以實(shí)現(xiàn)？能實(shí)現(xiàn)的話(huà)應(yīng)該如何去做？

百度新聞中，每條信息都會(huì)顯示有多少條重復(fù)數(shù)據(jù)，這個(gè)應(yīng)該是百度抓取的每個(gè)頁(yè)面的正文部分吧。所以這個(gè)功能是可能實(shí)現(xiàn)的。

抓回一個(gè)頁(yè)面的數(shù)據(jù)，如何匹配出正文部分，鄭曉在下班路上想了個(gè)思路是：

1. 提取出body標(biāo)簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標(biāo)簽(包括標(biāo)簽內(nèi)不含中文的)–>獲取結(jié)果。

2. 直接匹配出非鏈接的、符合在div、p、h標(biāo)簽中的中文部分？？？

還是會(huì)有不少其它多余信息啊，比如底部信息等。。如何搞？不知道大家有木有什么思路或建議？

? ? ? ?

本文采用知識(shí)共享署名-非商業(yè)性使用 3.0 中國(guó)大陸許可協(xié)議進(jìn)行許可，轉(zhuǎn)載時(shí)請(qǐng)注明出處及相應(yīng)鏈接。

本文永久鏈接: http://m.yjfs.org.cn/python-spider-shibie-wenzhang.html

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分？：目前有3 條留言

我就是個(gè)過(guò)客：發(fā)表于 2015年11月19日 15:40[回復(fù)]

正文部分解決了嗎？
看看，我現(xiàn)在頁(yè)面都down下來(lái)了，但是正文解析還是不是十分的準(zhǔn)確。
語(yǔ)義識(shí)別應(yīng)該也算是人工智能的一部分。

春熙路：發(fā)表于 2014年11月28日 19:49[回復(fù)]

過(guò)來(lái)看看、python好學(xué)不？

鄭曉：發(fā)表于 2014年11月29日 16:37[回復(fù)]

還算比較簡(jiǎn)單的一門(mén)語(yǔ)言，非常優(yōu)美

發(fā)表評(píng)論

最近熱門(mén)

最新評(píng)論

村大哥[1年前]
這留言版還能無(wú)線(xiàn)續(xù)集嗎？強(qiáng)大b(￣▽
村大哥[1年前]
我這邊先添為敬了O(∩_∩)O
村大哥[1年前]
大佬您好，我這邊是個(gè)人站初創(chuàng)，主要分
哈哈后[1年前]
/* 隨機(jī)步法 */ #inc
Blue[2年前]
評(píng)論留言功能，如何避免灌水評(píng)論，可以
老王[2年前]
有用～謝謝！

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分？

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分？：目前有3 條留言

發(fā)表評(píng)論

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分？