如何在scrapy請求異常之后再設置代理IP,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

成都創(chuàng)新互聯(lián)公司服務項目包括杞縣網(wǎng)站建設、杞縣網(wǎng)站制作、杞縣網(wǎng)頁制作以及杞縣網(wǎng)絡營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關系等,向廣大中小型企業(yè)、政府機構等提供互聯(lián)網(wǎng)行業(yè)的解決方案,杞縣網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務的客戶以成都為中心已經(jīng)輻射到杞縣省份的部分城市,未來相信會繼續(xù)擴大服務區(qū)域并繼續(xù)獲得客戶的支持與信任!
我們都知道 scrapy 可以設置代理 IP,但是不知道大家有沒有遇到這樣一個場景:
常規(guī)的代理 IP 設置,會對每個請求都生效,也就是說每個請求都會去使用代理
但是有些請求根本不需要代理,我希望當我的請求出現(xiàn)錯誤或超時的時候再去設置代理 IP
這樣既節(jié)省了資源,又縮短了請求的時間,畢竟有些代理質量真的一言難盡
那么怎么才能讓它請求超時的時候,再使用代理 IP 進行重新請求呢?
很容易就想到下載中間件,DowmloaderMiddleware
一個介于 request, response 中間的鉤子,用于修改 request 和處理 response
首先我們需要捕獲超時等異常的請求,在下載中間件中添加如下代碼:
from twisted.internet.error import TCPTimedOutError, TimeoutError
def process_exception(self, request, exception, spider):
if isinstance(exception, TimeoutError):
self.process_request_back(request, spider) # 連接超時才啟用代理ip機制
return request
elif isinstance(exception, TCPTimedOutError):
self.process_request_back(request, spider)
return request
以上代碼的作用就是捕獲異常請求,同時調(diào)用設置代理 IP 的函數(shù),并返回該請求
下面的設置 IP 的代碼
def process_request_back(self, request, spider):
request.meta["proxy"] = xun.proxy
request.headers["Proxy-Authorization"] = xun.headers
注意不能使用 process_request() 方法, 如果代理添加在該方法下,就是常規(guī)的代理 IP 方法
同時對于 scrapy 出現(xiàn) TimeoutError,TCPTimedOutError 等異常的時候,還可以通過以下幾種方案來解決:
主要通過設置文件來更改
CONCURRENT_REQUESTS = 5
DOWNLOAD_TIMEOUT = 300
RETRY_TIMES = 5
關于如何在scrapy請求異常之后再設置代理IP問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關知識。
新聞名稱:如何在scrapy請求異常之后再設置代理IP
轉載源于:http://www.chinadenli.net/article4/piepoe.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供標簽優(yōu)化、外貿(mào)建站、手機網(wǎng)站建設、網(wǎng)站改版、品牌網(wǎng)站制作、定制開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)