Python 操作PDF庫介紹之PDFMiner

為南沙等地區(qū)用戶提供了全套網(wǎng)頁設計制作服務,及南沙網(wǎng)站建設行業(yè)解決方案。主營業(yè)務為成都網(wǎng)站制作、網(wǎng)站設計、南沙網(wǎng)站設計,以傳統(tǒng)方式定制建設網(wǎng)站,并提供域名空間備案等一條龍服務,秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求,就會得到認可,從而選擇與我們長期合作。這樣,我們也可以走得更遠!
PDFMiner是一種從PDF文檔中提取信息的工具。與其他PDF相關(guān)工具不同,它完全專注于獲取和分析文本數(shù)據(jù)。
PDFMiner允許人們獲取頁面中文本的確切位置,以及字體或線條等其他信息。
它包括一個PDF轉(zhuǎn)換器,可以將PDF文件轉(zhuǎn)換為其他文本格式(如HTML)。它具有可擴展的PDF解析器,可用于除文本分析之外的其他目的。
github:
1、首先要下載一個處理pdf的組件pdfminer,百度搜索去官網(wǎng)下載
2、下載完成解壓以后,打開cmd進入用命令安裝。python setup.py install 進行安裝
3、我們來測試一下是否安裝成功了,引入這個模塊,運行一下代碼,沒有報錯就說明安裝成功了
4、官網(wǎng)有文檔也有代碼示例
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
fp = open('mypdf.pdf', 'rb')
#創(chuàng)建一個PDF文檔解析器對象
parser = PDFParser(fp)
#創(chuàng)建一個PDF文檔對象存儲文檔結(jié)構(gòu)
#提供密碼初始化,沒有就不用傳該參數(shù)
document = PDFDocument(parser, password)
#檢查文件是否允許文本提取
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
#創(chuàng)建一個PDF資源管理器對象來存儲共享資源
rsrcmgr = PDFResourceManager()
#創(chuàng)建一個pdf設備對象
device = PDFDevice(rsrcmgr)
#創(chuàng)建一個PDF解析器對象
interpreter = PDFPageInterpreter(rsrcmgr, device)
#處理文檔當中的每個頁面
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
5、我新建一個pdf,新輸入一些內(nèi)容
6、運行一下代碼即可
是
pdf基于Python爬蟲技術(shù)的虛假數(shù)據(jù)溯源與過濾.pdf一、首先理解下面幾個函數(shù)設置變量length()函數(shù)char_length()replace()函數(shù)max()函數(shù)
python是一款應用非常廣泛的腳本程序語言,谷歌公司的網(wǎng)頁就是用python編寫。python在生物信息、統(tǒng)計、網(wǎng)頁制作、計算等多個領域都體現(xiàn)出了強大的功能。python和其他腳本語言如java、R、Perl 一樣,都可以直接在命令行里運行腳本程序。工具/原料
python;CMD命令行;windows操作系統(tǒng)
方法/步驟
1、首先下載安裝python,建議安裝2.7版本以上,3.0版本以下,由于3.0版本以上不向下兼容,體驗較差。
2、打開文本編輯器,推薦editplus,notepad等,將文件保存成 .py格式,editplus和notepad支持識別python語法。
腳本第一行一定要寫上 #!usr/bin/python
表示該腳本文件是可執(zhí)行python腳本
如果python目錄不在usr/bin目錄下,則替換成當前python執(zhí)行程序的目錄。
3、編寫完腳本之后注意調(diào)試、可以直接用editplus調(diào)試。調(diào)試方法可自行百度。腳本寫完之后,打開CMD命令行,前提是python 已經(jīng)被加入到環(huán)境變量中,如果沒有加入到環(huán)境變量,請百度
4、在CMD命令行中,輸入 “python” + “空格”,即 ”python “;將已經(jīng)寫好的腳本文件拖拽到當前光標位置,然后敲回車運行即可。
網(wǎng)頁名稱:python的pdf函數(shù) python pdf函數(shù)
轉(zhuǎn)載注明:http://www.chinadenli.net/article4/hijhie.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供搜索引擎優(yōu)化、外貿(mào)建站、網(wǎng)站設計公司、品牌網(wǎng)站建設、虛擬主機、做網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)