當(dāng)前位置: 博客首頁(yè) >> Python >> 閱讀正文

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分?

作者: 鄭曉 分類(lèi): Python 發(fā)布于: 2014-11-19 22:30 瀏覽:7,939 評(píng)論(3)


爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分?

比如寫(xiě)一個(gè)python爬蟲(chóng)去抓百度搜索結(jié)果列表中的網(wǎng)頁(yè)數(shù)據(jù), 然后從這些網(wǎng)頁(yè)中提取出正文部分(比如新聞資訊的文章部分),是否可以實(shí)現(xiàn)?能實(shí)現(xiàn)的話(huà)應(yīng)該如何去做?

百度新聞中,每條信息都會(huì)顯示有多少條重復(fù)數(shù)據(jù),這個(gè)應(yīng)該是百度抓取的每個(gè)頁(yè)面的正文部分吧。所以這個(gè)功能是可能實(shí)現(xiàn)的。

抓回一個(gè)頁(yè)面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個(gè)思路是:

1. 提取出body標(biāo)簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標(biāo)簽(包括標(biāo)簽內(nèi)不含中文的)–>獲取結(jié)果。

2. 直接匹配出非鏈接的、 符合在div、p、h標(biāo)簽中的中文部分???

還是會(huì)有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?

? ? ? ?

本文采用知識(shí)共享署名-非商業(yè)性使用 3.0 中國(guó)大陸許可協(xié)議進(jìn)行許可,轉(zhuǎn)載時(shí)請(qǐng)注明出處及相應(yīng)鏈接。

本文永久鏈接: http://m.yjfs.org.cn/python-spider-shibie-wenzhang.html

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分?:目前有3 條留言

用戶(hù)評(píng)論頭像 我就是個(gè)過(guò)客發(fā)表于 2015年11月19日 15:40[回復(fù)]

正文部分解決了嗎?
看看,我現(xiàn)在頁(yè)面都down下來(lái)了,但是正文解析還是不是十分的準(zhǔn)確。
語(yǔ)義識(shí)別應(yīng)該也算是人工智能的一部分。

用戶(hù)評(píng)論頭像 春熙路發(fā)表于 2014年11月28日 19:49[回復(fù)]

過(guò)來(lái)看看、python好學(xué)不?

    用戶(hù)評(píng)論頭像 鄭曉發(fā)表于 2014年11月29日 16:37[回復(fù)]

    還算比較簡(jiǎn)單的一門(mén)語(yǔ)言,非常優(yōu)美 :mrgreen:

發(fā)表評(píng)論

change vcode