WeiboUserScrapy類爬蟲爬取爬蟲的示例分析

WeiboUserScrapy類爬蟲爬取爬蟲的示例分析，相信很多沒有經(jīng)驗(yàn)的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個(gè)問題。

超過十多年行業(yè)經(jīng)驗(yàn)，技術(shù)領(lǐng)先，服務(wù)至上的經(jīng)營模式，全靠網(wǎng)絡(luò)和口碑獲得客戶，為自己降低成本，也就是為客戶降低成本。到目前業(yè)務(wù)范圍包括了：成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)，成都網(wǎng)站推廣，成都網(wǎng)站優(yōu)化，整體網(wǎng)絡(luò)托管，小程序制作，微信開發(fā)，成都app軟件開發(fā)，同時(shí)也可以讓客戶的網(wǎng)站和網(wǎng)絡(luò)營銷和我們一樣獲得訂單和生意！

我停止對有GUI功能集中版本的維護(hù)了，集中精力維護(hù)無GUI版本功能獨(dú)立版本的開發(fā)和維護(hù)，并且保證每個(gè)功能都是最小可用產(chǎn)品且互不干擾。但是功能獨(dú)立版本一直有個(gè)歷史遺留問題：沒有將集中版本中爬取每個(gè)用戶的所有微博的功能獨(dú)立出來

整體的剝離過程來算比較輕松，因?yàn)楣δ芗邪姹久總€(gè)功能都有一個(gè)相對獨(dú)立的類，這個(gè)用戶微博爬蟲就是一個(gè) WeiboUserScrapy 類，只不過在集中版本中為了和其他功能模塊進(jìn)行通信和協(xié)調(diào)，引進(jìn)了 PyQT5 的信號量，以及一些公共配置變量，獨(dú)立時(shí)將這些東西去掉即可。

拿到代碼后，你需要做的兩件事依次是：

更換代碼中的 Cookie
把 user_id 改成你想要爬取的用戶 id（是純數(shù)字）

然后運(yùn)行代碼即可，不一會兒你就能在項(xiàng)目的根目錄下的 user 文件夾看到諸如 {user_id}_{nickname}_{weibo_num}博_{followers}粉_{following}關(guān)注.csv' 格式的文件，爬取的微博都保存在這里。

想到老鐵們可能有這樣的問題：某個(gè)博主有 4w 條微博，爬了 2w 條突然斷網(wǎng)了或者 Cookie 過期了，難道要重新爬？

作為良心博主，當(dāng)然要加一個(gè)斷點(diǎn)續(xù)爬的功能，其實(shí)實(shí)現(xiàn)起來也不難，每次寫 csv 的時(shí)候同時(shí)將翻頁參數(shù) page 保存并更新到一個(gè)配置文件中即可，核心代碼如下：


user_page_config = 'user_page.json'
if not os.path.exists('user_page.json'):
    page = 1
    with open(user_page_config,'w', encoding='utf-8-sig') as f:
        f.write(json.dumps({f'{self.user_id}':page}, indent=2))
else:
    with open(user_page_config,'r', encoding='utf-8-sig') as f:
        page = json.loads(f.read())[f'{self.user_id}']

random_pages = random.randint(1, 5)
for page in range(page, page_num + 1):
    self.get_one_page(page)  # 獲取第page頁的全部微博

    with open(user_page_config,'r', encoding='utf-8-sig') as f:
        old_data = json.loads(f.read())
        old_data[f'{self.user_id}'] = page

    with open(user_page_config,'w', encoding='utf-8-sig') as f:
        f.write(json.dumps(old_data, indent=2))

這樣，就能右鍵運(yùn)行代碼，開開心心做其他事去，不用每時(shí)每刻盯著代碼。

看完上述內(nèi)容，你們掌握WeiboUserScrapy類爬蟲爬取爬蟲的示例分析的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

本文名稱：WeiboUserScrapy類爬蟲爬取爬蟲的示例分析
當(dāng)前URL：http://www.chinadenli.net/article14/jcojge.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站內(nèi)鏈、靜態(tài)網(wǎng)站、響應(yīng)式網(wǎng)站、建站公司、網(wǎng)站營銷、商城網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

WeiboUserScrapy類爬蟲爬取爬蟲的示例分析