欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

如何使用node.js爬取知乎圖片-創(chuàng)新互聯(lián)

這篇文章主要介紹了如何使用node.js爬取知乎圖片,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

我們提供的服務(wù)有:成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、微信公眾號(hào)開(kāi)發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、大新ssl等。為成百上千家企事業(yè)單位解決了網(wǎng)站和推廣的問(wèn)題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的大新網(wǎng)站制作公司

原理

初入爬蟲(chóng)的坑,沒(méi)有太多深?yuàn)W的理論知識(shí),要獲取知乎上帖子中的一張圖片,我把它歸結(jié)為以下幾步。

  • 準(zhǔn)備一個(gè)url

  • 獲取這個(gè)url的html內(nèi)容,并分析其中的dom結(jié)構(gòu),遍歷找到這些漂亮的妹紙圖片url

  • 獲取圖片內(nèi)容

  • 將圖片內(nèi)容寫入本地文件

開(kāi)始動(dòng)手

大概知道原理之后我們就可以開(kāi)干了

準(zhǔn)備一個(gè)url

這個(gè)最簡(jiǎn)單了,去知乎隨便一搜就是一大把,我們以

發(fā)一張你認(rèn)為很漂亮的美女照片?

為例子,先來(lái)分析一下這個(gè)頁(yè)面的dom結(jié)構(gòu),其實(shí)很簡(jiǎn)單,知乎的一個(gè)頁(yè)面中會(huì)包含很多種類型的圖片,有頭像,用戶評(píng)價(jià)上傳的圖片啥的。基本上在noscript種都可以找到對(duì)應(yīng)的圖片地址。

如何使用node.js爬取知乎圖片

獲取這個(gè)url的html內(nèi)容,并且拿到當(dāng)前頁(yè)面noscript中的img鏈接

這一步我們需要會(huì)點(diǎn)簡(jiǎn)單的nodejs的知識(shí),以及用到一個(gè)庫(kù)叫cheerio,這個(gè)庫(kù)具體是用來(lái)做什么的,詳細(xì)請(qǐng)移步cheerio。

簡(jiǎn)單來(lái)說(shuō)就是可以在命令行中使用jQuery來(lái)搜索遍歷獲取相應(yīng)的元素。

那么怎樣才能獲取這個(gè)帖子的html呢

使用nodejs的https模塊

var https = require('https')
getAllHtml (url, callback) {
 let sHtml = '',
 _this = this;
 https.get(url, (res) => {
 res.on('data', (data) => {
 sHtml += data;
 });
 res.on('end', () => {
 callback.bind(_this, sHtml)();
 })
 }).on('error', (err) => {
 console.log(err);
 });
}

通過(guò)以上操作拿到網(wǎng)站的html之后,便是遍歷出我們需要的圖片地址來(lái)了

filterHtml (sHtml, filePath) {
 let $ = cheerio.load(sHtml), // 將上一步拿到的網(wǎng)站html傳入cheerio.load,便得到類似于包裝過(guò)的jQuery對(duì)象,可以像jQuey的選擇器一樣來(lái)選擇元素
 $Imgs = $('noscript img'),
 imgData = [],
 _this = this;
 $Imgs.each((i, e) => {
 let imgUrl = $(e).attr('src'); //取出對(duì)應(yīng)的url
 imgData.push(imgUrl);
 // 將url傳入開(kāi)始下載
 _this.downloadImg(imgUrl, _this.filePath, 
 function (err) {
 console.log(imgUrl + 'has be down');
 });
 });
 console.log(imgData);
}

有了圖片的url,如何下載到本地呢?

我們需要使用request這個(gè)庫(kù),簡(jiǎn)單的調(diào)用一下api再結(jié)合node原生寫文件的api。

downloadImg (imgUrl, filePath, callback) {
 let fileName = this.parseFileName(imgUrl);
 request(imgUrl).pipe(fs.createWriteStream('./' + filePath + '/'+fileName)).on('close', callback && callback);
 }

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“如何使用node.js爬取知乎圖片”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián)建站,關(guān)注創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)建站www.chinadenli.net,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

名稱欄目:如何使用node.js爬取知乎圖片-創(chuàng)新互聯(lián)
文章地址:http://www.chinadenli.net/article26/dicocg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站導(dǎo)航網(wǎng)站維護(hù)外貿(mào)網(wǎng)站建設(shè)網(wǎng)站制作云服務(wù)器全網(wǎng)營(yíng)銷推廣

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營(yíng)