Problems are not stop signs; they are guidelines.
問(wèn)題的出現(xiàn)不是讓你止步,而是給你指路。———— Robert Schuller
爬蟲如何識(shí)別網(wǎng)頁(yè)的正文部分? 比如寫一個(gè)python爬蟲去抓百度搜索結(jié)果列表中的網(wǎng)頁(yè)數(shù)據(jù), 然后從這些網(wǎng)頁(yè)中提取出正文部分(比如新聞資訊的文章部分),是否可以實(shí)現(xiàn)?能實(shí)現(xiàn)的話應(yīng)該如何去做? 百度新聞中,每條信息都會(huì)顯示有多少條重復(fù)數(shù)據(jù),這個(gè)應(yīng)該是百度抓取的每個(gè)頁(yè)面的正文部分吧。所以這個(gè)功能是可能實(shí)現(xiàn)的。 抓回一個(gè)頁(yè)面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個(gè)思路是: 1...
寫的一個(gè)爬蟲練習(xí),目的是抓取目標(biāo)站點(diǎn)下所有鏈接, 并記錄下問(wèn)題鏈接url(包括問(wèn)題url,入口鏈接,http狀態(tài)碼)??梢宰孕性O(shè)置線程數(shù)量,程序開啟一個(gè)子線程來(lái)維護(hù)當(dāng)前線程數(shù)量。之前還好點(diǎn)兒,現(xiàn)在是越改bug越多,問(wèn)題越多。 目前發(fā)現(xiàn)的問(wèn)題有: 1.線程的管理上,之前用傳統(tǒng)的方法,三個(gè)for循環(huán)來(lái)創(chuàng)建固定數(shù)量線程,不過(guò)發(fā)現(xiàn)如果某線程拋出異常后,線程終止,總線程數(shù)就會(huì)減少。所以自己改成了...