在進行爬蟲開發(fā)中,需要的頁面信息進行解析處理,獲取到需要的關(guān)鍵數(shù)據(jù)。可以利用xpath進行對頁面的xml文件進行解析處理,獲取到需要的關(guān)鍵數(shù)據(jù)。
XPath使用:
XPath 可用來在 XML 文檔中對元素和屬性進行遍歷.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是補全缺失的html標簽
html_data = result.xpath('/html/body/div/ul/li/a/text()') 獲取某個標簽的數(shù)據(jù),返回的是對象,可以通過遍歷得到具體的數(shù)據(jù)
html_data = html.xpath('/html/body/div/ul/li/a/@href') 獲取某個標簽的屬性 獲取屬性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 獲取a表現(xiàn)屬性為link2.html的內(nèi)容
html_data = html.xpath('//li/a/text()') 使用相對路徑獲取a標簽的內(nèi)容
html_data = html.xpath('//li/a//@href') 使用相對路徑獲取a標簽的屬性值

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
                分享文章:Python爬蟲開發(fā)之xpath使用-創(chuàng)新互聯(lián)
                
                轉(zhuǎn)載源于:http://www.chinadenli.net/article22/dcsccc.html
            
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供ChatGPT、網(wǎng)站排名、網(wǎng)站設(shè)計、小程序開發(fā)、手機網(wǎng)站建設(shè)、服務(wù)器托管
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
