Python3爬蟲中pyspider框架的簡(jiǎn)介-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商，新人活動(dòng)買多久送多久，劃算不套路！

創(chuàng)新互聯(lián)公司是一家專注于成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)和四川電信機(jī)房托管的網(wǎng)絡(luò)公司，有著豐富的建站經(jīng)驗(yàn)和案例。

這篇文章將為大家詳細(xì)講解有關(guān)Python3爬蟲中pyspider框架的簡(jiǎn)介，小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考，希望大家閱讀完這篇文章后可以有所收獲。

pyspider 框架介紹

pyspider 是由國(guó)人 binux 編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)，其 GitHub 地址為 https://github.com/binux/pyspider，官方文檔地址為 http://docs.pyspider.org/。

pyspider 帶有強(qiáng)大的 WebUI、腳本編輯器、任務(wù)監(jiān)控器、項(xiàng)目管理器以及結(jié)果處理器，它支持多種數(shù)據(jù)庫(kù)后端、多種消息隊(duì)列、JavaScript 渲染頁(yè)面的爬取，使用起來(lái)非常方便。

1. pyspider 基本功能

我們總結(jié)了一下，PySpider 的功能有如下幾點(diǎn)。

提供方便易用的 WebUI 系統(tǒng)，可以可視化地編寫和調(diào)試爬蟲。

提供爬取進(jìn)度監(jiān)控、爬取結(jié)果查看、爬蟲項(xiàng)目管理等功能。

支持多種后端數(shù)據(jù)庫(kù)，如 MySQL、MongoDB、Redis、SQLite、Elasticsearch、PostgreSQL。

支持多種消息隊(duì)列，如 RabbitMQ、Beanstalk、Redis、Kombu。

提供優(yōu)先級(jí)控制、失敗重試、定時(shí)抓取等功能。

對(duì)接了 PhantomJS，可以抓取 JavaScript 渲染的頁(yè)面。

支持單機(jī)和分布式部署，支持 Docker 部署。

如果想要快速方便地實(shí)現(xiàn)一個(gè)頁(yè)面的抓取，使用 pyspider 不失為一個(gè)好的選擇。

2. 與 Scrapy 的比較

后面會(huì)介紹另外一個(gè)爬蟲框架 Scrapy，我們學(xué)習(xí)完 Scrapy 之后會(huì)更容易理解此部分內(nèi)容。我們先了解一下 pyspider 與 Scrapy 的區(qū)別。

pyspider 提供了 WebUI，爬蟲的編寫、調(diào)試都是在 WebUI 中進(jìn)行的，而 Scrapy 原生是不具備這個(gè)功能的，采用的是代碼和命令行操作，但可以通過(guò)對(duì)接 Portia 實(shí)現(xiàn)可視化配置。

pyspider 調(diào)試非常方便，WebUI 操作便捷直觀，在 Scrapy 中則是使用 parse 命令進(jìn)行調(diào)試，論方便程度不及 pyspider。

pyspider 支持 PhantomJS 來(lái)進(jìn)行 JavaScript 渲染頁(yè)面的采集，在 Scrapy 中可以對(duì)接 ScrapySplash 組件，需要額外配置。

PySpide r 中內(nèi)置了 PyQuery 作為選擇器，在 Scrapy 中對(duì)接了 XPath、CSS 選擇器和正則匹配。

pyspider 的可擴(kuò)展程度不足，可配制化程度不高，在 Scrapy 中可以通過(guò)對(duì)接 Middleware、Pipeline、Extension 等組件實(shí)現(xiàn)非常強(qiáng)大的功能，模塊之間的耦合程度低，可擴(kuò)展程度極高。

如果要快速實(shí)現(xiàn)一個(gè)頁(yè)面的抓取，推薦使用 pyspider，開(kāi)發(fā)更加便捷，如快速抓取某個(gè)普通新聞網(wǎng)站的新聞內(nèi)容。如果要應(yīng)對(duì)反爬程度很強(qiáng)、超大規(guī)模的抓取，推薦使用 Scrapy，如抓取封 IP、封賬號(hào)、高頻驗(yàn)證的網(wǎng)站的大規(guī)模數(shù)據(jù)采集。

3. pyspider 的架構(gòu)

pyspider 的架構(gòu)主要分為 Scheduler（調(diào)度器）、Fetcher（抓取器）、Processer（處理器）三個(gè)部分，整個(gè)爬取過(guò)程受到 Monitor（監(jiān)控器）的監(jiān)控，抓取的結(jié)果被 Result Worker（結(jié)果處理器）處理，如圖 12-1 所示。

Python3爬蟲中pyspider框架的簡(jiǎn)介

圖 12-1 pyspider 架構(gòu)圖

Scheduler 發(fā)起任務(wù)調(diào)度，F(xiàn)etcher 負(fù)責(zé)抓取網(wǎng)頁(yè)內(nèi)容，Processer 負(fù)責(zé)解析網(wǎng)頁(yè)內(nèi)容，然后將新生成的 Request 發(fā)給 Scheduler 進(jìn)行調(diào)度，將生成的提取結(jié)果輸出保存。

pyspider 的任務(wù)執(zhí)行流程的邏輯很清晰，具體過(guò)程如下所示。

每個(gè) pyspider 的項(xiàng)目對(duì)應(yīng)一個(gè) Python 腳本，該腳本中定義了一個(gè) Handler 類，它有一個(gè) on_start() 方法。爬取首先調(diào)用 on_start() 方法生成最初的抓取任務(wù)，然后發(fā)送給 Scheduler 進(jìn)行調(diào)度。

Scheduler 將抓取任務(wù)分發(fā)給 Fetcher 進(jìn)行抓取，F(xiàn)etcher 執(zhí)行并得到響應(yīng)，隨后將響應(yīng)發(fā)送給 Processer。

Processer 處理響應(yīng)并提取出新的 URL 生成新的抓取任務(wù)，然后通過(guò)消息隊(duì)列的方式通知 Schduler 當(dāng)前抓取任務(wù)執(zhí)行情況，并將新生成的抓取任務(wù)發(fā)送給 Scheduler。如果生成了新的提取結(jié)果，則將其發(fā)送到結(jié)果隊(duì)列等待 Result Worker 處理。

Scheduler 接收到新的抓取任務(wù)，然后查詢數(shù)據(jù)庫(kù)，判斷其如果是新的抓取任務(wù)或者是需要重試的任務(wù)就繼續(xù)進(jìn)行調(diào)度，然后將其發(fā)送回 Fetcher 進(jìn)行抓取。

不斷重復(fù)以上工作，直到所有的任務(wù)都執(zhí)行完畢，抓取結(jié)束。

抓取結(jié)束后，程序會(huì)回調(diào) on_finished() 方法，這里可以定義后處理過(guò)程。

關(guān)于Python3爬蟲中pyspider框架的簡(jiǎn)介就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

本文名稱：Python3爬蟲中pyspider框架的簡(jiǎn)介-創(chuàng)新互聯(lián)
URL鏈接：http://www.chinadenli.net/article8/gspop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站建設(shè)、品牌網(wǎng)站建設(shè)、網(wǎng)站改版、虛擬主機(jī)、響應(yīng)式網(wǎng)站、營(yíng)銷型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Python3爬蟲中pyspider框架的簡(jiǎn)介-創(chuàng)新互聯(lián)