Python 是一種高級的、general-purpose 且非常流行的編程語言。 Python 編程語言(最新的 Python 3)與軟件行業的所有 cutting-edge 技術一起用於 Web 開發、機器學習應用程序。 Python 編程語言非常適合初學者,也適合使用 C++ 和 Java 等其他編程語言的有經驗的程序員。
在本文中,我們將學習如何使用 Python 將 PDF 文件轉換為 CSV 文件。在這裏,我們將討論各種轉換方法。對於所有方法,我們都使用輸入 PDF 文件。
方法一:
這裏將使用 pdftables_api 模塊將 PDF 文件轉換為任何其他格式。 pdftables_api 模塊用於讀取 PDF 中的表格。它還允許我們將 PDF 文件轉換為另一種格式。
安裝:
Open Command Prompt and type "pip install git+https://github.com/pdftables/python-pdftables-api.git"
- 它將安裝 pdftables_api 模塊
- 安裝後,您需要一個 API KEY。
- 轉到 PDFTables.com 並注冊,然後訪問 API 頁麵以查看您的 API KEY。
方法:
- 驗證 API key 。
- 對於將 PDF 文件轉換為 CSV 文件,我們將使用 csv() 方法。
用法:
pdftables_api.Client('API KEY').csv(pdf_path, csv_path)
下麵是實現:
使用的 PDF 文件:
PDF文件
Python3
# Import Module
import pdftables_api
# API KEY VERIFICATION
conversion = pdftables_api.Client('API KEY')
# PDf to CSV
# (Hello.pdf, Hello)
conversion.csv(pdf_file_path, output_file_path)
輸出:
CSV 文件
方法二:
這裏將使用 tabula-py 模塊將 PDF 文件轉換為任何其他格式。 tabula-py 是 tabula-java 的簡單 Python 包裝器,可以讀取 PDF 中的表格。您可以從 PDF 中讀取表格並將其轉換為 pandas DataFrame。 tabula-py 還使您能夠將 PDF 文件轉換為 CSV、TSV 或 JSON 文件。
安裝:
pip install tabula-py
在開始之前,首先我們需要安裝 java 並將 java 安裝文件夾添加到 PATH 變量中。
- 安裝java 點擊這裏
- 將java安裝文件夾(C:\Program Files (x86)\Java\jre1.8.0_251\bin)添加到環境路徑變量中
方法:
- 使用 read_pdf() 方法讀取 PDF 文件。
- 然後我們將使用 to_csv() 方法將 PDF 文件轉換為 CSV 文件。
用法:
read_pdf(PDF File Path, pages = Number of pages, **agrs)
下麵是實現:
使用的 PDF 文件:
PDF文件
Python3
# Import Module
import tabula
# Read PDF File
# this contain a list
df = tabula.read_pdf(PDF File Path, pages = 1)[0]
# Convert into Excel File
df.to_csv('Excel File Path')
輸出:
CSV 文件
相關用法
- Python CSV File轉PDF File用法及代碼示例
- Python Excel轉PDF用法及代碼示例
- Python PDF轉Image用法及代碼示例
- Python Html轉PDF用法及代碼示例
- Python Image轉PDF用法及代碼示例
- Python CSV轉JSON用法及代碼示例
- Python JSON轉CSV用法及代碼示例
- Python CSV轉HTML Table用法及代碼示例
注:本文由純淨天空篩選整理自abhigoya大神的英文原創作品 Convert PDF to CSV using Python。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。