怎么在Python3.6中利用pdfminer對pdf文件進(jìn)行解析-創(chuàng)新互聯(lián)

怎么在Python 3.6 中利用pdfminer對pdf文件進(jìn)行解析？相信很多沒有經(jīng)驗(yàn)的人對此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個(gè)問題。

創(chuàng)新互聯(lián)專注于溫宿企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站設(shè)計(jì),成都做商城網(wǎng)站。溫宿網(wǎng)站建設(shè)公司,為溫宿等地區(qū)提供建站服務(wù)。全流程按需求定制制作，專業(yè)設(shè)計(jì)，全程項(xiàng)目跟蹤，創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)

一、安裝pdfminer模塊

安裝anaconda后，直接可以通過pip安裝

pip install pdfminer3k

怎么在Python 3.6 中利用pdfminer對pdf文件進(jìn)行解析

如上圖所示安裝成功。

二、在IDE中進(jìn)行編碼

#!/usr/bin/env python
# encoding: utf-8

"""
@author: wugang
@software: PyCharm
@file: prase_pdf.py
@time: 2017/3/3 0003 11:16
"""
import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''
 解析pdf 文本，保存到txt文件中
'''
path = r'../../data/pdf/阿里巴巴Java開發(fā)規(guī)范手冊.pdf'
def parse():
  fp = open(path, 'rb') # 以二進(jìn)制讀模式打開
  #用文件對象來創(chuàng)建一個(gè)pdf文檔分析器
  praser = PDFParser(fp)
  # 創(chuàng)建一個(gè)PDF文檔
  doc = PDFDocument()
  # 連接分析器 與文檔對象
  praser.set_document(doc)
  doc.set_parser(praser)

  # 提供初始化密碼
  # 如果沒有密碼 就創(chuàng)建一個(gè)空的字符串
  doc.initialize()

  # 檢測文檔是否提供txt轉(zhuǎn)換，不提供就忽略
  if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed
  else:
    # 創(chuàng)建PDf 資源管理器 來管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創(chuàng)建一個(gè)PDF設(shè)備對象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 創(chuàng)建一個(gè)PDF解釋器對象
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    # 循環(huán)遍歷列表，每次處理一個(gè)page的內(nèi)容
    for page in doc.get_pages(): # doc.get_pages() 獲取page列表
      interpreter.process_page(page)
      # 接受該頁面的LTPage對象
      layout = device.get_result()
      # 這里layout是一個(gè)LTPage對象 里面存放著 這個(gè)page解析出的各種對象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文本就獲得對象的text屬性，
      for x in layout:
        if (isinstance(x, LTTextBoxHorizontal)):
          with open(r'../../data/pdf/1.txt', 'a') as f:
            results = x.get_text()
            print(results)
            f.write(results + '\n')

if __name__ == '__main__':
  parse()

看完上述內(nèi)容，你們掌握怎么在Python 3.6 中利用pdfminer對pdf文件進(jìn)行解析的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

新聞標(biāo)題：怎么在Python3.6中利用pdfminer對pdf文件進(jìn)行解析-創(chuàng)新互聯(lián)
網(wǎng)站URL：http://www.chinadenli.net/article32/dhsosc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站制作、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)公司、全網(wǎng)營銷推廣、微信小程序、小程序開發(fā)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

怎么在Python3.6中利用pdfminer對pdf文件進(jìn)行解析-創(chuàng)新互聯(lián)