欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Python3爬蟲中pyspider框架的簡(jiǎn)介-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買多久送多久,劃算不套路!

創(chuàng)新互聯(lián)公司是一家專注于成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)和四川電信機(jī)房托管的網(wǎng)絡(luò)公司,有著豐富的建站經(jīng)驗(yàn)和案例。

這篇文章將為大家詳細(xì)講解有關(guān)Python3爬蟲中pyspider框架的簡(jiǎn)介,小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

pyspider 框架介紹

pyspider 是由國(guó)人 binux 編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng),其 GitHub 地址為 https://github.com/binux/pyspider,官方文檔地址為 http://docs.pyspider.org/。

pyspider 帶有強(qiáng)大的 WebUI、腳本編輯器、任務(wù)監(jiān)控器、項(xiàng)目管理器以及結(jié)果處理器,它支持多種數(shù)據(jù)庫(kù)后端、多種消息隊(duì)列、JavaScript 渲染頁(yè)面的爬取,使用起來(lái)非常方便。

1. pyspider 基本功能

我們總結(jié)了一下,PySpider 的功能有如下幾點(diǎn)。

提供方便易用的 WebUI 系統(tǒng),可以可視化地編寫和調(diào)試爬蟲。

提供爬取進(jìn)度監(jiān)控、爬取結(jié)果查看、爬蟲項(xiàng)目管理等功能。

支持多種后端數(shù)據(jù)庫(kù),如 MySQL、MongoDB、Redis、SQLite、Elasticsearch、PostgreSQL。

支持多種消息隊(duì)列,如 RabbitMQ、Beanstalk、Redis、Kombu。

提供優(yōu)先級(jí)控制、失敗重試、定時(shí)抓取等功能。

對(duì)接了 PhantomJS,可以抓取 JavaScript 渲染的頁(yè)面。

支持單機(jī)和分布式部署,支持 Docker 部署。

如果想要快速方便地實(shí)現(xiàn)一個(gè)頁(yè)面的抓取,使用 pyspider 不失為一個(gè)好的選擇。

2. 與 Scrapy 的比較

后面會(huì)介紹另外一個(gè)爬蟲框架 Scrapy,我們學(xué)習(xí)完 Scrapy 之后會(huì)更容易理解此部分內(nèi)容。我們先了解一下 pyspider 與 Scrapy 的區(qū)別。

pyspider 提供了 WebUI,爬蟲的編寫、調(diào)試都是在 WebUI 中進(jìn)行的,而 Scrapy 原生是不具備這個(gè)功能的,采用的是代碼和命令行操作,但可以通過(guò)對(duì)接 Portia 實(shí)現(xiàn)可視化配置。

pyspider 調(diào)試非常方便,WebUI 操作便捷直觀,在 Scrapy 中則是使用 parse 命令進(jìn)行調(diào)試,論方便程度不及 pyspider。

pyspider 支持 PhantomJS 來(lái)進(jìn)行 JavaScript 渲染頁(yè)面的采集,在 Scrapy 中可以對(duì)接 ScrapySplash 組件,需要額外配置。

PySpide r 中內(nèi)置了 PyQuery 作為選擇器,在 Scrapy 中對(duì)接了 XPath、CSS 選擇器和正則匹配。

pyspider 的可擴(kuò)展程度不足,可配制化程度不高,在 Scrapy 中可以通過(guò)對(duì)接 Middleware、Pipeline、Extension 等組件實(shí)現(xiàn)非常強(qiáng)大的功能,模塊之間的耦合程度低,可擴(kuò)展程度極高。

如果要快速實(shí)現(xiàn)一個(gè)頁(yè)面的抓取,推薦使用 pyspider,開(kāi)發(fā)更加便捷,如快速抓取某個(gè)普通新聞網(wǎng)站的新聞內(nèi)容。如果要應(yīng)對(duì)反爬程度很強(qiáng)、超大規(guī)模的抓取,推薦使用 Scrapy,如抓取封 IP、封賬號(hào)、高頻驗(yàn)證的網(wǎng)站的大規(guī)模數(shù)據(jù)采集。

3. pyspider 的架構(gòu)

pyspider 的架構(gòu)主要分為 Scheduler(調(diào)度器)、Fetcher(抓取器)、Processer(處理器)三個(gè)部分,整個(gè)爬取過(guò)程受到 Monitor(監(jiān)控器)的監(jiān)控,抓取的結(jié)果被 Result Worker(結(jié)果處理器)處理,如圖 12-1 所示。

Python3爬蟲中pyspider框架的簡(jiǎn)介

圖 12-1 pyspider 架構(gòu)圖

Scheduler 發(fā)起任務(wù)調(diào)度,F(xiàn)etcher 負(fù)責(zé)抓取網(wǎng)頁(yè)內(nèi)容,Processer 負(fù)責(zé)解析網(wǎng)頁(yè)內(nèi)容,然后將新生成的 Request 發(fā)給 Scheduler 進(jìn)行調(diào)度,將生成的提取結(jié)果輸出保存。

pyspider 的任務(wù)執(zhí)行流程的邏輯很清晰,具體過(guò)程如下所示。

每個(gè) pyspider 的項(xiàng)目對(duì)應(yīng)一個(gè) Python 腳本,該腳本中定義了一個(gè) Handler 類,它有一個(gè) on_start() 方法。爬取首先調(diào)用 on_start() 方法生成最初的抓取任務(wù),然后發(fā)送給 Scheduler 進(jìn)行調(diào)度。

Scheduler 將抓取任務(wù)分發(fā)給 Fetcher 進(jìn)行抓取,F(xiàn)etcher 執(zhí)行并得到響應(yīng),隨后將響應(yīng)發(fā)送給 Processer。

Processer 處理響應(yīng)并提取出新的 URL 生成新的抓取任務(wù),然后通過(guò)消息隊(duì)列的方式通知 Schduler 當(dāng)前抓取任務(wù)執(zhí)行情況,并將新生成的抓取任務(wù)發(fā)送給 Scheduler。如果生成了新的提取結(jié)果,則將其發(fā)送到結(jié)果隊(duì)列等待 Result Worker 處理。

Scheduler 接收到新的抓取任務(wù),然后查詢數(shù)據(jù)庫(kù),判斷其如果是新的抓取任務(wù)或者是需要重試的任務(wù)就繼續(xù)進(jìn)行調(diào)度,然后將其發(fā)送回 Fetcher 進(jìn)行抓取。

不斷重復(fù)以上工作,直到所有的任務(wù)都執(zhí)行完畢,抓取結(jié)束。

抓取結(jié)束后,程序會(huì)回調(diào) on_finished() 方法,這里可以定義后處理過(guò)程。

關(guān)于Python3爬蟲中pyspider框架的簡(jiǎn)介就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。

本文名稱:Python3爬蟲中pyspider框架的簡(jiǎn)介-創(chuàng)新互聯(lián)
URL鏈接:http://www.chinadenli.net/article8/gspop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)品牌網(wǎng)站建設(shè)網(wǎng)站改版虛擬主機(jī)響應(yīng)式網(wǎng)站營(yíng)銷型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)