2016年12月1日 星期四

Python parser 初體驗

這次因為修了資料科學的關係,要爬網頁資料,因此有了第一次的大型爬蟲體驗。
這次要爬的網頁是 Goodreads Most popular 100 reviewers
使用的套件是 requests + beautifulsoup
環境是 python 2.7.12

首先只能說第一次寫爬蟲沒有什麼經驗,有很多會發生錯誤的情況沒有考慮到。以後應該要記得,每作一次find或find_all就要check一下是不是真得有這個東西存在,才不會一直走冤枉路。

另外就是這次有爬user的資料,但是在個人頁面的部分資料不太統一,這部份要特別小心處理。甚至有些人的名字會取的很奇怪,可能包含特殊服號如' " ' 或表情符號之類的,也要特別小心

最後就是要注意設定 delay time!!! 不要設太短,第一次沒經驗只設了3秒,結果跑一下就當掉了。之後設成10秒,結果跑的時間變得很長。可能一開始的時候還是要測試一下吧

沒有留言:

張貼留言