Python爬蟲開發(fā)之xpath使用

在進行爬蟲開發(fā)中，需要的頁面信息進行解析處理，獲取到需要的關(guān)鍵數(shù)據(jù)。可以利用xpath進行對頁面的xml文件進行解析處理，獲取到需要的關(guān)鍵數(shù)據(jù)。
XPath使用:
XPath 可用來在 XML 文檔中對元素和屬性進行遍歷.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是補全缺失的html標簽
html_data = result.xpath('/html/body/div/ul/li/a/text()') 獲取某個標簽的數(shù)據(jù)，返回的是對象，可以通過遍歷得到具體的數(shù)據(jù)
html_data = html.xpath('/html/body/div/ul/li/a/@href') 獲取某個標簽的屬性獲取屬性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 獲取a表現(xiàn)屬性為link2.html的內(nèi)容
html_data = html.xpath('//li/a/text()') 使用相對路徑獲取a標簽的內(nèi)容
html_data = html.xpath('//li/a//@href') 使用相對路徑獲取a標簽的屬性值

成都創(chuàng)新互聯(lián)一直通過網(wǎng)站建設(shè)和網(wǎng)站營銷幫助企業(yè)獲得更多客戶資源。以"深度挖掘，量身打造，注重實效"的一站式服務(wù)，以成都網(wǎng)站設(shè)計、網(wǎng)站制作、移動互聯(lián)產(chǎn)品、成都全網(wǎng)營銷服務(wù)為核心業(yè)務(wù)。十多年網(wǎng)站制作的經(jīng)驗，使用新網(wǎng)站建設(shè)技術(shù)，全新開發(fā)出的標準網(wǎng)站，不但價格便宜而且實用、靈活，特別適合中小公司網(wǎng)站制作。網(wǎng)站管理系統(tǒng)簡單易用，維護方便，您可以完全操作網(wǎng)站資料，是中小公司快速網(wǎng)站建設(shè)的選擇。

本文名稱：Python爬蟲開發(fā)之xpath使用
鏈接地址：http://www.chinadenli.net/article6/iiecog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供關(guān)鍵詞優(yōu)化、用戶體驗、營銷型網(wǎng)站建設(shè)、網(wǎng)站收錄、Google、域名注冊

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Python爬蟲開發(fā)之xpath使用