每日一句 ( 2025115 )  

Problems are not stop signs; they are guidelines.

問(wèn)題的出現(xiàn)不是讓你止步,而是給你指路。———— Robert Schuller

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分?

爬蟲(chóng)如何識(shí)別網(wǎng)頁(yè)的正文部分? 比如寫(xiě)一個(gè)python爬蟲(chóng)去抓百度搜索結(jié)果列表中的網(wǎng)頁(yè)數(shù)據(jù), 然后從這些網(wǎng)頁(yè)中提取出正文部分(比如新聞資訊的文章部分),是否可以實(shí)現(xiàn)?能實(shí)現(xiàn)的話應(yīng)該如何去做? 百度新聞中,每條信息都會(huì)顯示有多少條重復(fù)數(shù)據(jù),這個(gè)應(yīng)該是百度抓取的每個(gè)頁(yè)面的正文部分吧。所以這個(gè)功能是可能實(shí)現(xiàn)的。 抓回一個(gè)頁(yè)面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個(gè)思路是: 1...

python實(shí)現(xiàn)的騰訊微博管家-定時(shí)發(fā)布進(jìn)度

這兩天抽空完成了定時(shí)發(fā)布功能的設(shè)置部分,比如添加定時(shí),刪除定時(shí),顯示當(dāng)前已定時(shí)任務(wù)。 定時(shí)功能由主菜單選擇進(jìn)入 增加一條定時(shí)任務(wù)命令格式: add 日期時(shí)間 發(fā)布內(nèi)容 如 add 2014-11-05/08:00:00 這是一條微博! 顯示當(dāng)前任務(wù)列表命令為show,列出當(dāng)前任務(wù)的索引編號(hào)、定時(shí)時(shí)間、發(fā)布內(nèi)容。 刪除某條任務(wù),命令格式: del 索引編號(hào) 如 del 1 基本實(shí)現(xiàn)代碼: #定時(shí)發(fā)布任務(wù)設(shè)置 p ...

python實(shí)現(xiàn)的騰訊微博管家

這兩天研究了下python的騰訊微博sdk,突然就想到是否可以用python寫(xiě)個(gè)微博管家小腳本,可以實(shí)現(xiàn)通過(guò)python來(lái)發(fā)布微博。然后感覺(jué)可行,而且應(yīng)該可以把功能做的更多。所以就開(kāi)始倒騰了。 目前基本的代碼是寫(xiě)完了,還需要一些時(shí)間去完美,實(shí)現(xiàn)一些交互控制。 現(xiàn)在先寫(xiě)個(gè)功能大綱,記錄一下。 目前已實(shí)現(xiàn)的功能: 1.定時(shí)發(fā)送微博:通過(guò)CLI中輸入要定時(shí)發(fā)布的日期與時(shí)間,輸入要發(fā)布的文字,然后程序...

python函數(shù)式實(shí)現(xiàn)的多線程爬蟲(chóng)練習(xí)

寫(xiě)的一個(gè)爬蟲(chóng)練習(xí),目的是抓取目標(biāo)站點(diǎn)下所有鏈接, 并記錄下問(wèn)題鏈接url(包括問(wèn)題url,入口鏈接,http狀態(tài)碼)??梢宰孕性O(shè)置線程數(shù)量,程序開(kāi)啟一個(gè)子線程來(lái)維護(hù)當(dāng)前線程數(shù)量。之前還好點(diǎn)兒,現(xiàn)在是越改bug越多,問(wèn)題越多。 目前發(fā)現(xiàn)的問(wèn)題有: 1.線程的管理上,之前用傳統(tǒng)的方法,三個(gè)for循環(huán)來(lái)創(chuàng)建固定數(shù)量線程,不過(guò)發(fā)現(xiàn)如果某線程拋出異常后,線程終止,總線程數(shù)就會(huì)減少。所以自己改成了...

python多線程與urllib2一例

發(fā)現(xiàn)有人居然在試探下載我博客的源碼包,查了那家伙的IP,發(fā)現(xiàn)有一個(gè)網(wǎng)站,所以簡(jiǎn)單寫(xiě)了個(gè)python腳本,利用python的threading與urllib2庫(kù)進(jìn)行瘋狂請(qǐng)求,不知道這算不算是攻擊的一種,反正在運(yùn)行時(shí)它的站倒是挻慢的。。哈哈。。。 #coding: gbk import urllib2 import os import threading import time def ddos(): while True: #我還是把人家地址給匿了吧。。。 req = urllib2.urlopen('ht...

python練習(xí)題:pythonchallenge第0題解題答案

Python Challenge是一個(gè)網(wǎng)頁(yè)闖關(guān)游戲,通過(guò)一些提示找出下一關(guān)的網(wǎng)頁(yè)地址。與眾不同的是,它是專門為程序員設(shè)計(jì)的,因?yàn)榇蠖鄶?shù)關(guān)卡都要編程來(lái)算哦??! 從今天開(kāi)始研究pythonchallenge.com上的題。下面是我對(duì)其第0題的解題思路。 問(wèn)題地址:http://www.pythonchallenge.com/pc/def/0.html 頁(yè)面上只有一張圖片,打眼一看是238,于是直接訪問(wèn)238.html,會(huì)提示“No… the 38 is a little bit abo...

qpython – 安卓上的python編輯利器!

在手機(jī)上敲代碼純屬娛樂(lè),輸入速度比較蛋疼,不過(guò)裝上玩玩也好。所以一直想找個(gè)可以在android安卓手機(jī)上編輯和運(yùn)行python的軟件。之前就嘗試安裝過(guò)qpython,不過(guò)是基于python2.7的。我是學(xué)習(xí)的python3,所以就一直沒(méi)用。今天在三星app商店里找到了基于python3.2版本的qpython3,所以在這里拿出來(lái)分享給各位安卓控們。 以下是兩個(gè)軟件的部分截圖,功能很全。 在手機(jī)上玩python的利器,Qpy...