當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PDF轉CSV用法及代碼示例


Python 是一種高級的、general-purpose 且非常流行的編程語言。 Python 編程語言(最新的 Python 3)與軟件行業的所有 cutting-edge 技術一起用於 Web 開發、機器學習應用程序。 Python 編程語言非常適合初學者,也適合使用 C++ 和 Java 等其他編程語言的有經驗的程序員。

在本文中,我們將學習如何使用 Python 將 PDF 文件轉換為 CSV 文件。在這裏,我們將討論各種轉換方法。對於所有方法,我們都使用輸入 PDF 文件。

方法一:

這裏將使用 pdftables_api 模塊將 PDF 文件轉換為任何其他格式。 pdftables_api 模塊用於讀取 PDF 中的表格。它還允許我們將 PDF 文件轉換為另一種格式。

安裝:



Open Command Prompt and type "pip install git+https://github.com/pdftables/python-pdftables-api.git"
  • 它將安裝 pdftables_api 模塊
  • 安裝後,您需要一個 API KEY。
  • 轉到 PDFTables.com 並注冊,然後訪問 API 頁麵以查看您的 API KEY。

方法:

  • 驗證 API key 。
  • 對於將 PDF 文件轉換為 CSV 文件,我們將使用 csv() 方法。

用法:

pdftables_api.Client('API KEY').csv(pdf_path, csv_path)

下麵是實現:

使用的 PDF 文件:

PDF文件

Python3


# Import Module
import pdftables_api
  
# API KEY VERIFICATION
conversion = pdftables_api.Client('API KEY')
  
# PDf to CSV 
# (Hello.pdf, Hello)
conversion.csv(pdf_file_path, output_file_path)

輸出:

CSV 文件

方法二:

這裏將使用 tabula-py 模塊將 PDF 文件轉換為任何其他格式。 tabula-py 是 tabula-java 的簡單 Python 包裝器,可以讀取 PDF 中的表格。您可以從 PDF 中讀取表格並將其轉換為 pandas DataFrame。 tabula-py 還使您能夠將 PDF 文件轉換為 CSV、TSV 或 JSON 文件。



安裝:

pip install tabula-py

在開始之前,首先我們需要安裝 java 並將 java 安裝文件夾添加到 PATH 變量中。

  • 安裝java 點擊這裏
  • 將java安裝文件夾(C:\Program Files (x86)\Java\jre1.8.0_251\bin)添加到環境路徑變量中

方法:

  • 使用 read_pdf() 方法讀取 PDF 文件。
  • 然後我們將使用 to_csv() 方法將 PDF 文件轉換為 CSV 文件。

用法:

read_pdf(PDF File Path, pages = Number of pages, **agrs)

下麵是實現:

使用的 PDF 文件:

PDF文件

Python3


# Import Module 
import tabula
  
# Read PDF File
# this contain a list
df = tabula.read_pdf(PDF File Path, pages = 1)[0]
  
# Convert into Excel File
df.to_csv('Excel File Path')

輸出:

CSV 文件




相關用法


注:本文由純淨天空篩選整理自abhigoya大神的英文原創作品 Convert PDF to CSV using Python。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。