爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分?
作者: 鄭曉 分類(lèi): Python 發(fā)布于: 2014-11-19 22:30 瀏覽:7,939 評(píng)論(3)
爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分?
比如寫(xiě)一個(gè)python爬蟲(chóng)去抓百度搜索結(jié)果列表中的網(wǎng)頁(yè)數(shù)據(jù), 然后從這些網(wǎng)頁(yè)中提取出正文部分(比如新聞資訊的文章部分),是否可以實(shí)現(xiàn)?能實(shí)現(xiàn)的話(huà)應(yīng)該如何去做?
百度新聞中,每條信息都會(huì)顯示有多少條重復(fù)數(shù)據(jù),這個(gè)應(yīng)該是百度抓取的每個(gè)頁(yè)面的正文部分吧。所以這個(gè)功能是可能實(shí)現(xiàn)的。
抓回一個(gè)頁(yè)面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個(gè)思路是:
1. 提取出body標(biāo)簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標(biāo)簽(包括標(biāo)簽內(nèi)不含中文的)–>獲取結(jié)果。
2. 直接匹配出非鏈接的、 符合在div、p、h標(biāo)簽中的中文部分???
還是會(huì)有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?
本文采用知識(shí)共享署名-非商業(yè)性使用 3.0 中國(guó)大陸許可協(xié)議進(jìn)行許可,轉(zhuǎn)載時(shí)請(qǐng)注明出處及相應(yīng)鏈接。
本文永久鏈接: http://m.yjfs.org.cn/python-spider-shibie-wenzhang.html
正文部分解決了嗎?
看看,我現(xiàn)在頁(yè)面都down下來(lái)了,但是正文解析還是不是十分的準(zhǔn)確。
語(yǔ)義識(shí)別應(yīng)該也算是人工智能的一部分。