如何正確的使用puppeteer庫,針對這個問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
成都創(chuàng)新互聯(lián)公司專注于達(dá)州企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站設(shè)計,商城網(wǎng)站定制開發(fā)。達(dá)州網(wǎng)站建設(shè)公司,為達(dá)州等地區(qū)提供建站服務(wù)。全流程按需設(shè)計,專業(yè)設(shè)計,全程項目跟蹤,成都創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)
1.初始化項目
注: 這里我們會使用到 es6/7 的新特性,所以用 typescript 來編譯代碼
npm install puppeteer typescript @types/puppeteer
tsconfig.json 配置如下:
{
"compileOnSave": true,
"compilerOptions": {
"target": "es5",
"lib": [
"es6", "dom"
],
"types": [
"node"
],
"outDir": "./dist/",
"sourceMap": true,
"module": "commonjs",
"watch": true,
"moduleResolution": "node",
"isolatedModules": false,
"experimentalDecorators": true,
"declaration": true,
"suppressImplicitAnyIndexErrors": true
},
"include": [
"./examples/**/*",
]
}puppeteer 模塊提供一個方法啟動一個 Chromium 實(shí)例。
import * as puppeteer from 'puppeteer'
(async () => {
await puppeteer.launch()
})()上述代碼通過 puppeteer 的 launch 方法生成一個 browser 實(shí)例,launch 方法可以接收一些配置項。較為常用的有:
headless [boolean]: 是否以 headless 模式啟動瀏覽器
slowMo [number]: 減緩 puppeteer 的操作。這樣就很方便的可以看到正在發(fā)生的事情
args[Array[string]]: 要傳給瀏覽器實(shí)例的額外參數(shù)
2.生成頁面截圖
這里我們以 https://example.com/ 為例
(async () => {
const browser = await puppeteer.launch(); //生成browser實(shí)例
const page = await browser.newPage(); //解析一個新的頁面。頁面是在默認(rèn)瀏覽器上下文創(chuàng)建的
await page.goto("https://example.com/"); //跳轉(zhuǎn)到 https://example.com/
await page.screenshot({ //生成圖片
path: 'example.png'
})
})()在這里需要注意的是,截圖默認(rèn)截取的是打開網(wǎng)頁可視區(qū)的內(nèi)容,如果要獲取完整的可滾動頁面的屏幕截圖,需要添加 fullPage: true
執(zhí)行 node dist/screenshot.js ,即可在根目錄下生成 example.png
puppeteer 默認(rèn)將頁面大小設(shè)置為 800*600,可以通過 page.setViewport() 來改變頁面大小。
不僅如此,puppeteer 還可以模擬手機(jī)
import * as puppeteer from "puppeteer";
import * as devices from "puppeteer/DeviceDescriptors";
const iPhone = devices["iPhone 6"];
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.emulate(iPhone);
await page.goto("https://baidu.com/");
await browser.close();
})();3.生成 pdf
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://example.com/");
await page.pdf({
displayHeaderFooter: true,
path: 'example.pdf',
format: 'A4',
headerTemplate: '<b >Hello world<b/>',
footerTemplate: '<b >Some text</b>',
margin: {
top: "100px",
bottom: "200px",
right: "30px",
left: "30px",
}
});
await browser.close();
})()執(zhí)行 node dist/pdf.js 即可。
4.自動化表單提交, 輸入
在這里我們模擬一下京東的登錄, 為了能更好的看到整個過程, 我們使用 headless: false 來關(guān)閉 headless 模式,看一下整個的登錄流程
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto("https://github.com/login");
await page.waitFor(1000) //延遲1秒輸入
await page.type("#login_field", "1137060420@qq.com"); //立即輸入
await page.type("#password", "bian1992518", {
delay: 100
}) //模擬用戶輸入
await page.click("input[type=submit]"); //點(diǎn)擊登錄按鈕
})()5.站點(diǎn)時間線追蹤
可以很方便的使用 tracking.start 和 tracking.stop 創(chuàng)建一個可以在 chrome devtools 打開的跟蹤文件
(async () => {
const broswer = await puppeteer.launch();
const page = await broswer.newPage();
await page.tracing.start({
path: "trace.json"
});
await page.goto("https://example.com/");
await page.tracing.stop();
broswer.close();
})();執(zhí)行 node dist/trace.js 會生成一個 trace.json 文件, 然后我們打開 chrome devtools -> Performance, 然后把該文件直接拖進(jìn)去即可。該功能便于我們對網(wǎng)站進(jìn)行性能分析, 進(jìn)而優(yōu)化性能
6.爬蟲和 SSR
現(xiàn)在大多數(shù)開發(fā)用 react、vue、angular 來構(gòu)建 SPA 網(wǎng)站, SPA 固有很多的優(yōu)點(diǎn), 比方開發(fā)速度快、模塊化、組件化、性能優(yōu)等。但其缺點(diǎn)還是很明顯的, 首先就是首屏渲染問題, 其次不利于 SEO, 對爬蟲不友好。
以 https://preview.pro.ant.design/#/dashboard/analysis 為例, 我們點(diǎn)擊右鍵, 查看源代碼, 發(fā)現(xiàn)其 body 里面只有 <div id="root"></div> ,假如想把門店銷售額排名情況給爬下來,存到數(shù)據(jù)庫進(jìn)行數(shù)據(jù)分析(如下圖)
此時我們以傳統(tǒng)爬蟲的方式去爬的話是拿不到網(wǎng)頁內(nèi)容的。
如 python
# -*- coding : UTF-8 -*-
from bs4 import BeautifulSoup
import urllib2
def spider():
html = urllib2.urlopen('https://preview.pro.ant.design/#')
html = html.read()
soup = BeautifulSoup(html, 'lxml')
print(soup.prettify())
if __name__ == '__main__':
spider()執(zhí)行 python py/index.py , 得到的結(jié)果如下圖:
body 里面并沒有頁面相關(guān)的 dom,因此我們想通過 python 去爬取 SPA 頁面的內(nèi)容是不可行的。
nodejs
import axios from "axios";
(async () => {
const res = await axios.get("https://preview.pro.ant.design/#");
console.log(res.data);
})();執(zhí)行 node dist/node-spider.js , 得到和上面例子一樣的結(jié)果。

puppeteer
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://preview.pro.ant.design/#");
console.log(await page.content());
})();執(zhí)行 node dist/spider.js , 得到如下:
此時我們可以驚奇的發(fā)現(xiàn)可以抓到頁面所有的 dom 節(jié)點(diǎn)了。此時我們可以把它保存下來做 SSR,也可以爬取我們想要的內(nèi)容了。
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://preview.pro.ant.design/#");
const RANK = ".rankingList___11Ilg li";
await page.waitForSelector(RANK);
const res = await page.evaluate(() => {
const getText = (v, selector) => {
return v.querySelector(selector) && v.querySelector(selector).innerText;
};
const salesRank = Array.from(
document.querySelectorAll(".rankingList___11Ilg li")
);
const data = [];
salesRank.map(v => {
const obj = {
rank: getText(v, "span:nth-child(1)"),
address: getText(v, "span:nth-child(2)"),
sales: getText(v, "span:nth-child(3)")
};
data.push(obj);
});
return {
data
};
});
console.log(res);
await browser.close();
})();執(zhí)行 node dist/spider.js , 得到如下:

此時,我們已經(jīng)利用 puppeteer 把我們所需要的數(shù)據(jù)給爬下來了。
到此,我們就把 puppeteer 基本的功能點(diǎn)給實(shí)現(xiàn)了一遍,本文示例代碼可在 github 上獲取。
關(guān)于如何正確的使用puppeteer庫問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識。
本文題目:如何正確的使用puppeteer庫
標(biāo)題網(wǎng)址:http://www.chinadenli.net/article36/pesosg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)頁設(shè)計公司、微信小程序、標(biāo)簽優(yōu)化、全網(wǎng)營銷推廣、商城網(wǎng)站、自適應(yīng)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)