在Python中使用PDF:阅读和拆分_fpdf库分割pdf文件

本文是一个小系列的开头,将介绍这些有用的Python库。 在第一部分中,我们将重点介绍现有PDF的操作。 您将学习如何阅读和提取内容(文本和图像),旋转单个页面以及将文档拆分为单独的页面。 第二部分将介绍如何根据叠加层添加水印。 第三部分将专注于编写/创建PDF,还将包括删除和重新组合单个页面到新文档。

工具和库

Python相关的PDF工具,模块和库的可用解决方案范围有点令人困惑,需要花一点时间来弄清楚什么是什么,以及哪些项目是持续维护的。 根据我们的研究,这些是目前最新的方案:

PyPDF2:这是一个Python库,用于提取文档信息和内容,逐页拆分文档,合并文档,裁剪页面和添加水印。 PyPDF2支持未加密和加密的文档。

PDFMiner:完全用Python编写,适用于Python 2.4。对于Python 3,请使用克隆包PDFMiner.six。这两个包都允许您解析,分析和转换PDF文档。包括对PDF 1.7以及CJK语言(中文,日文和韩文)以及各种字体类型(Type1,TrueType,Type3和CID)的支持。

PDFQuery:它将自己描述为“一个快速且友好的PDF抓取库”,它作为PDFMiner,lxml和pyquery的包装器实现。它的设计目标是“用尽可能少的代码可靠地从PDF集合中提取数据。”

tabula-py:它是tabula-java的简单Python包装器,可以从PDF中读取表并将它们转换为Pandas DataFrames。它还允许您将PDF文件转换为CSV / TSV / JSON文件。

pdflib for Python:Poppler库的扩展,为它提供Python绑定。它允许您解析,分析和转换PDF文档。不要与其同名的商业吊坠相混淆。

PyFPDF:用于在Python下生成PDF文档的库。从FPDF PHP库移植,一个众所周知的PDFlib扩展替换,包含许多示例,脚本和衍生产品。

PDFTables:一种商业服务,提供从PDF文档中提取的表格。提供API以便PDFTable可以用作SAAS。

PyX - 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值