這篇文章主要講解了“怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲(chóng)”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲(chóng)”吧!

成都創(chuàng)新互聯(lián)公司專業(yè)為企業(yè)提供蘭州網(wǎng)站建設(shè)、蘭州做網(wǎng)站、蘭州網(wǎng)站設(shè)計(jì)、蘭州網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)與制作、蘭州企業(yè)網(wǎng)站模板建站服務(wù),十載蘭州做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。
我們來(lái)看下Scrapy怎么做到這些功能的。首先準(zhǔn)備Scrapy環(huán)境,你需要安裝Python(本文使用v2.7)和pip,然后用pip來(lái)安裝lxml和scrapy。個(gè)人強(qiáng)烈建議使用virtualenv來(lái)安裝環(huán)境,這樣不同的項(xiàng)目之間不會(huì)沖突。詳細(xì)步驟這里就不贅述了。對(duì)于Mac用戶要注意,當(dāng)使用pip安裝lxml時(shí),會(huì)出現(xiàn)類似于的下面錯(cuò)誤:
Error: #include “xml/xmlversion.h” not found
解決這個(gè)問(wèn)題,你需要先安裝Xcode的command line tools,具體的方法是在命令行執(zhí)行下面的命令即可。
$ xcode-select --install |
環(huán)境安裝好之后,我們來(lái)用Scrapy實(shí)現(xiàn)一個(gè)簡(jiǎn)單的爬蟲(chóng),抓取本博客網(wǎng)站的文章標(biāo)題,地址和摘要。
1
1 2 3 4 5 6 7 8 |
|
修改”items.py”文件,在”MyCrawlerItem”類中加上如下代碼:
Python
# -*- coding: utf-8 -*- import scrapy class MyCrawlerItem(scrapy.Item): title = scrapy.Field() # 文章標(biāo)題 url = scrapy.Field() # 文章地址 summary = scrapy.Field() # 文章摘要 pass |
對(duì)于XPath不熟悉的朋友,可以通過(guò)Chrome的debug工具獲取元素的XPath。
1 |
|
這里我們采用MongoDB,你需要先安裝Python的MongoDB庫(kù)”pymongo”。編輯”my_crawler”目錄下的”pipelines.py”文件,在”MyCrawlerPipeline”類中加上如下代碼:
Python
# -*- coding: utf-8 -*- import pymongo from scrapy.conf import settings from scrapy.exceptions import DropItem class MyCrawlerPipeline(object): def __init__(self): # 設(shè)置MongoDB連接 connection = pymongo.Connection( settings['MONGO_SERVER'], settings['MONGO_PORT'] ) db = connection[settings['MONGO_DB']] self.collection = db[settings['MONGO_COLLECTION']] # 處理每個(gè)被抓取的MyCrawlerItem項(xiàng) def process_item(self, item, spider): valid = True for data in item: if not data: # 過(guò)濾掉存在空字段的項(xiàng) valid = False raise DropItem("Missing {0}!".format(data)) if valid: # 也可以用self.collection.insert(dict(item)),使用upsert可以防止重復(fù)項(xiàng) self.collection.update({'url': item['url']}, dict(item), upsert=True) return item |
再打開(kāi)”my_crawler”目錄下的”settings.py”文件,在文件末尾加上pipeline的設(shè)置:
Python
ITEM_PIPELINES = { 'my_crawler.pipelines.MyCrawlerPipeline': 300, # 設(shè)置Pipeline,可以多個(gè),值為執(zhí)行優(yōu)先級(jí) } # MongoDB連接信息 MONGO_SERVER = 'localhost' MONGO_PORT = 27017 MONGO_DB = 'bjhee' MONGO_COLLECTION = 'articles' DOWNLOAD_DELAY=2 # 如果網(wǎng)絡(luò)慢,可以適當(dāng)加些延遲,單位是秒 |
<td class="crayon-code" ">
$ scrapy crawl my_crawler
別忘了啟動(dòng)MongoDB并創(chuàng)建”bjhee”數(shù)據(jù)庫(kù)哦。現(xiàn)在你可以在MongoDB里查詢到記錄了。
總結(jié)下,使用Scrapy來(lái)構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲(chóng),你需要做的就是:廈門叉車租賃公司
“items.py”中定義爬取字段
在”spiders”目錄下創(chuàng)建你的爬蟲(chóng),編寫解析函數(shù)和規(guī)則
“pipelines.py”中對(duì)爬取后的結(jié)果做處理
“settings.py”設(shè)置必要的參數(shù)
感謝各位的閱讀,以上就是“怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲(chóng)”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲(chóng)這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!
當(dāng)前文章:怎么用Scrapy構(gòu)建一個(gè)網(wǎng)絡(luò)爬蟲(chóng)
文章路徑:http://www.chinadenli.net/article34/gpcdse.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、微信公眾號(hào)、網(wǎng)站制作、網(wǎng)站導(dǎo)航、軟件開(kāi)發(fā)、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)