Python 是一种高级的、general-purpose 且非常流行的编程语言。 Python 编程语言(最新的 Python 3)与软件行业的所有 cutting-edge 技术一起用于 Web 开发、机器学习应用程序。 Python 编程语言非常适合初学者,也适合使用 C++ 和 Java 等其他编程语言的有经验的程序员。
在本文中,我们将学习如何使用 Python 将 PDF 文件转换为 CSV 文件。在这里,我们将讨论各种转换方法。对于所有方法,我们都使用输入 PDF 文件。
方法一:
这里将使用 pdftables_api 模块将 PDF 文件转换为任何其他格式。 pdftables_api 模块用于读取 PDF 中的表格。它还允许我们将 PDF 文件转换为另一种格式。
安装:
Open Command Prompt and type "pip install git+https://github.com/pdftables/python-pdftables-api.git"
- 它将安装 pdftables_api 模块
- 安装后,您需要一个 API KEY。
- 转到 PDFTables.com 并注册,然后访问 API 页面以查看您的 API KEY。
方法:
- 验证 API key 。
- 对于将 PDF 文件转换为 CSV 文件,我们将使用 csv() 方法。
用法:
pdftables_api.Client('API KEY').csv(pdf_path, csv_path)
下面是实现:
使用的 PDF 文件:
PDF文件
Python3
# Import Module
import pdftables_api
# API KEY VERIFICATION
conversion = pdftables_api.Client('API KEY')
# PDf to CSV
# (Hello.pdf, Hello)
conversion.csv(pdf_file_path, output_file_path)
输出:
CSV 文件
方法二:
这里将使用 tabula-py 模块将 PDF 文件转换为任何其他格式。 tabula-py 是 tabula-java 的简单 Python 包装器,可以读取 PDF 中的表格。您可以从 PDF 中读取表格并将其转换为 pandas DataFrame。 tabula-py 还使您能够将 PDF 文件转换为 CSV、TSV 或 JSON 文件。
安装:
pip install tabula-py
在开始之前,首先我们需要安装 java 并将 java 安装文件夹添加到 PATH 变量中。
- 安装java 点击这里
- 将java安装文件夹(C:\Program Files (x86)\Java\jre1.8.0_251\bin)添加到环境路径变量中
方法:
- 使用 read_pdf() 方法读取 PDF 文件。
- 然后我们将使用 to_csv() 方法将 PDF 文件转换为 CSV 文件。
用法:
read_pdf(PDF File Path, pages = Number of pages, **agrs)
下面是实现:
使用的 PDF 文件:
PDF文件
Python3
# Import Module
import tabula
# Read PDF File
# this contain a list
df = tabula.read_pdf(PDF File Path, pages = 1)[0]
# Convert into Excel File
df.to_csv('Excel File Path')
输出:
CSV 文件
相关用法
- Python Excel转PDF用法及代码示例
- Python PDF转Image用法及代码示例
- Python Image转PDF用法及代码示例
- Python CSV转JSON用法及代码示例
- Python JSON转CSV用法及代码示例
注:本文由纯净天空筛选整理自abhigoya大神的英文原创作品 Convert PDF to CSV using Python。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。