資工學習筆記: Python parser 初體驗

這次因為修了資料科學的關係，要爬網頁資料，因此有了第一次的大型爬蟲體驗。
這次要爬的網頁是 Goodreads Most popular 100 reviewers
使用的套件是 requests + beautifulsoup
環境是 python 2.7.12

首先只能說第一次寫爬蟲沒有什麼經驗，有很多會發生錯誤的情況沒有考慮到。以後應該要記得，每作一次find或find_all就要check一下是不是真得有這個東西存在，才不會一直走冤枉路。

另外就是這次有爬user的資料，但是在個人頁面的部分資料不太統一，這部份要特別小心處理。甚至有些人的名字會取的很奇怪，可能包含特殊服號如' " ' 或表情符號之類的，也要特別小心。

最後就是要注意設定 delay time!!! 不要設太短，第一次沒經驗只設了3秒，結果跑一下就當掉了。之後設成10秒，結果跑的時間變得很長。可能一開始的時候還是要測試一下吧

資工學習筆記

2016年12月1日星期四

Python parser 初體驗

沒有留言:

張貼留言

2016年12月1日 星期四

Python parser 初體驗

沒有留言:

張貼留言

2016年12月1日星期四