小編給大家分享一下退出python多線程爬蟲的方法有哪些,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶,將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:國(guó)際域名空間、雅安服務(wù)器托管、營(yíng)銷軟件、網(wǎng)站建設(shè)、椒江網(wǎng)站維護(hù)、網(wǎng)站推廣。
解決方案 · 壹
一個(gè)比較nice的方式就是每個(gè)線程都帶一個(gè)退出請(qǐng)求標(biāo)志,在線程里面間隔一定的時(shí)間來(lái)檢查一次,看是不是該自己離開了!
import threading class StoppableThread(threading.Thread): """Thread class with a stop() method. The thread itself has to check regularly for the stopped() condition.""" def __init__(self): super(StoppableThread, self).__init__() self._stop_event = threading.Event() def stop(self): self._stop_event.set() def stopped(self): return self._stop_event.is_set()
在這部分代碼所示,當(dāng)你想要退出線程的時(shí)候你應(yīng)當(dāng)顯示調(diào)用stop()函數(shù),并且使用join()函數(shù)來(lái)等待線程合適地退出。線程應(yīng)當(dāng)周期性地檢測(cè)停止標(biāo)志。
然而,還有一些使用場(chǎng)景中你真的需要kill掉一個(gè)線程:比如,當(dāng)你封裝了一個(gè)外部庫(kù),但是這個(gè)外部庫(kù)在長(zhǎng)時(shí)間調(diào)用,因此你想中斷這個(gè)過(guò)程。
解決方案 · 貳
接下來(lái)的方案是允許在python線程里面raise一個(gè)Exception(當(dāng)然是有一些限制的)。
def _async_raise(tid, exctype):
'''Raises an exception in the threads with id tid'''
if not inspect.isclass(exctype):
raise TypeError("Only types can be raised (not instances)")
res = ctypes.pythonapi.PyThreadState_SetAsyncExc(tid,
ctypes.py_object(exctype))
if res == 0:
raise ValueError("invalid thread id")
elif res != 1:
# "if it returns a number greater than one, you're in trouble,
# and you should call it again with exc=NULL to revert the effect"
ctypes.pythonapi.PyThreadState_SetAsyncExc(tid, 0)
raise SystemError("PyThreadState_SetAsyncExc failed")
class ThreadWithExc(threading.Thread):
'''A thread class that supports raising exception in the thread from
another thread.
'''
def _get_my_tid(self):
"""determines this (self's) thread id
CAREFUL : this function is executed in the context of the caller
thread, to get the identity of the thread represented by this
instance.
"""
if not self.isAlive():
raise threading.ThreadError("the thread is not active")
# do we have it cached?
if hasattr(self, "_thread_id"):
return self._thread_id
# no, look for it in the _active dict
for tid, tobj in threading._active.items():
if tobj is self:
self._thread_id = tid
return tid
# TODO: in python 2.6, there's a simpler way to do : self.ident
raise AssertionError("could not determine the thread's id")
def raiseExc(self, exctype):
"""Raises the given exception type in the context of this thread.
If the thread is busy in a system call (time.sleep(),
socket.accept(), ...), the exception is simply ignored.
If you are sure that your exception should terminate the thread,
one way to ensure that it works is:
t = ThreadWithExc( ... )
...
t.raiseExc( SomeException )
while t.isAlive():
time.sleep( 0.1 )
t.raiseExc( SomeException )
If the exception is to be caught by the thread, you need a way to
check that your thread has caught it.
CAREFUL : this function is executed in the context of the
caller thread, to raise an excpetion in the context of the
thread represented by this instance.
"""
_async_raise( self._get_my_tid(), exctype )正如注釋里面描述,這不是啥“靈丹妙藥”,因?yàn)椋偃缇€程在python解釋器之外busy,這樣子的話終端異常就抓不到啦~
這個(gè)代碼的合理使用方式是:讓線程抓住一個(gè)特定的異常然后執(zhí)行清理操作。這樣的話你就能終端一個(gè)任務(wù)并能合適地進(jìn)行清除。
解決方案 · 叁
假如我們要做個(gè)啥事情,類似于中斷的方式,那么我們就可以用thread.join方式。
join的原理就是依次檢驗(yàn)線程池中的線程是否結(jié)束,沒有結(jié)束就阻塞直到線程結(jié)束,如果結(jié)束則跳轉(zhuǎn)執(zhí)行下一個(gè)線程的join函數(shù)。
先看看這個(gè):
1. 阻塞主進(jìn)程,專注于執(zhí)行多線程中的程序。
2. 多線程多join的情況下,依次執(zhí)行各線程的join方法,前頭一個(gè)結(jié)束了才能執(zhí)行后面一個(gè)。
3. 無(wú)參數(shù),則等待到該線程結(jié)束,才開始執(zhí)行下一個(gè)線程的join。
4. 參數(shù)timeout為線程的阻塞時(shí)間,如 timeout=2 就是罩著這個(gè)線程2s 以后,就不管他了,繼續(xù)執(zhí)行下面的代碼。
# coding: utf-8
# 多線程join
import threading, time
def doWaiting1():
print 'start waiting1: ' + time.strftime('%H:%M:%S') + "\n"
time.sleep(3)
print 'stop waiting1: ' + time.strftime('%H:%M:%S') + "\n"
def doWaiting2():
print 'start waiting2: ' + time.strftime('%H:%M:%S') + "\n"
time.sleep(8)
print 'stop waiting2: ', time.strftime('%H:%M:%S') + "\n"
tsk = []
thread1 = threading.Thread(target = doWaiting1)
thread1.start()
tsk.append(thread1)
thread2 = threading.Thread(target = doWaiting2)
thread2.start()
tsk.append(thread2)
print 'start join: ' + time.strftime('%H:%M:%S') + "\n"
for tt in tsk:
tt.join()
print 'end join: ' + time.strftime('%H:%M:%S') + "\n"默認(rèn)join方式,也就是不帶參,阻塞模式,只有子線程運(yùn)行完才運(yùn)行其他的。
1、 兩個(gè)線程在同一時(shí)間開啟,join 函數(shù)執(zhí)行。
2、waiting1 線程執(zhí)行(等待)了3s 以后,結(jié)束。
3、waiting2 線程執(zhí)行(等待)了8s 以后,運(yùn)行結(jié)束。
4、join 函數(shù)(返回到了主進(jìn)程)執(zhí)行結(jié)束。
這里是默認(rèn)的join方式,是在線程已經(jīng)開始跑了之后,然后再join的,注意這點(diǎn),join之后主線程就必須等子線程結(jié)束才會(huì)返回主線。
join的參數(shù),也就是timeout參數(shù),改為2,即join(2),那么結(jié)果就是如下了:
兩個(gè)線程在同一時(shí)間開啟,join 函數(shù)執(zhí)行。
wating1 線程在執(zhí)行(等待)了三秒以后,完成。
join 退出(兩個(gè)2s,一共4s,36-32=4,無(wú)誤)。
waiting2 線程由于沒有在 join 規(guī)定的等待時(shí)間內(nèi)(4s)完成,所以自己在后面執(zhí)行完成。
看完了這篇文章,相信你對(duì)退出python多線程爬蟲的方法有哪些有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
網(wǎng)頁(yè)題目:退出python多線程爬蟲的方法有哪些
網(wǎng)頁(yè)URL:http://www.chinadenli.net/article14/igpsge.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供域名注冊(cè)、網(wǎng)站導(dǎo)航、網(wǎng)頁(yè)設(shè)計(jì)公司、網(wǎng)站制作、微信小程序、手機(jī)網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)