早在2016年,我用我的 阿里云ECS上運行了一個長期性質(zhì)的爬蟲程序,內(nèi)容是采集風云二號氣象衛(wèi)星照片,現(xiàn)在假期終于有時間回來查看結(jié)果,簡單統(tǒng)計如下(附圖):
圖片總數(shù):45869 個文件
最早文件:201609131345.jpg
最晚文件:201910091415.jpg
1,數(shù)據(jù)源:
當時意外獲得一個長期有效的數(shù)據(jù)來源,其URL參數(shù),為時間格式,也就是說有著明顯的規(guī)律。適合爬蟲運行
2,爬蟲運行:
這個爬蟲的運行條件其實有2個:1定時下載;2不停機運行;
既然是氣象數(shù)據(jù),當然得定時抓取,所以我寫了一個windows服務,置于后臺連續(xù)運行。雖然中間由于服務器其他問題導致中斷過幾次,不過架不住時間長久,因此還是成功連續(xù)采集了很多數(shù)據(jù)。
還有個要求就是不能關機,程序需要連續(xù)運行。我的最終方案就是使用 云服務器ECS部署運行。避免使用個人PC長期開機來運行。
3,處理存儲:
首先,這個程序既然要長期運行,那么非常避諱的一點就是所有結(jié)果都集中在一個本地文件夾里,因此我選用了阿里云對象存儲OSS,同時由于我需要不關機,所以我最終是 云服務器ECS+ 對象存儲OSS,ECS和OSS使用了同地域的,因此內(nèi)網(wǎng)打通傳輸很快。這樣我就只在本地做一個臨時存儲,轉(zhuǎn)存OSS后不再占用本地硬盤,這樣一來我才可以放心啟動后“免維護”運行這好幾年。
4,爬蟲關停
爬蟲的關停并非我本意,是我假期期間查看日志才知道數(shù)據(jù)源已經(jīng)失效了。因此本爬蟲壽終正寢。雖然我可以去尋找一下新的有效數(shù)據(jù)源,但是由于老數(shù)據(jù)我都沒用好,那么新的數(shù)據(jù)就暫時先不去尋找了。
我選用了阿里云推薦的OSS客戶端工具,由于我提前規(guī)劃好了ECS和OSS同地域,因此可以直接內(nèi)網(wǎng)下載到我的ECS,速度還是很快的,工具顯示大于60MB/s。工具部分截圖如圖:
為了避免OSS公網(wǎng)下載流量的費用支出(其實是窮:直接下載6G大小文件,忙時價格為1塊5毛錢),我將OSS數(shù)據(jù)內(nèi)網(wǎng)下載后,走ECS的出帶寬下載回我PC本地。本地查看:
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=590 文章的更新編輯依此鏈接為準。歡迎關注源站原創(chuàng)文章!
分享名稱:爬蟲分享風云2號衛(wèi)星氣象照片-創(chuàng)新互聯(lián)
文章位置:http://www.chinadenli.net/article4/hchoe.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供營銷型網(wǎng)站建設、品牌網(wǎng)站制作、靜態(tài)網(wǎng)站、企業(yè)網(wǎng)站制作、移動網(wǎng)站建設、企業(yè)建站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)