pypdf2 - IT屋-程序员软件开发技术分享社区

使用PyPDF2检测Google Docs生成的PDF文件中的非嵌入字体

我希望有人能帮我编写一个Python函数来检测文件中没有嵌入到文件中的任何字体。我尝试使用here链接的脚本，它可以检测文档字体，但不能检测嵌入的字体。为方便起见，我粘贴了以下脚本： from PyPDF2 import PdfFileReader import sys fontkeys = set(['/FontFile', '/FontFile2', '/FontFile3']) d ..

发布时间：2022-07-19 14:21:28 python pdf fonts google-docs pypdf2 Python

在Spyder中，runfile的含义是什么

尝试在WinPython/Spyder中使用PyPDF2时无法解释错误消息错误消息：在[3]中：runfile(‘C:/Users/User/Downloads/WPy64-3720/pdf2text.py’，wdir=‘C:/Users/User/Downloads/WPy64-3720’) 编码： import PyPDF2 path="C:\UsersUserDo ..

发布时间：2022-07-11 22:36:39 spyder pypdf2 pypdf 其他开发

提取特定的PDF页面并使用Python保存

我有一些源代码，并试图编码提取一些页面和创建pdf文件。我有一个列表，如下所示 information = [(filename1,startpage1,endpage1), (filename2, startpage2, endpage2), ...,(filename19,startpage19,endpage19)]. 这是我的代码。 import PyPDF2 f ..

发布时间：2022-03-30 21:09:43 python pdf extract pypdf2 Python

我需要将多边形注释转换为 pdf 并修改其形状.我现在可以通过将 pdf 和空白 pdf 与仅多边形合并来做到这一点，然后我可以更新顶点和矩形. 然而，打开新pdf时多边形形状仍然看起来是旧的，即使在形状上点击几下后它会刷新.我需要修复这个问题，发现这可能是由注释对象中的数据流引起的，它似乎仍然包含旧的多边形形状.但是在保存新的 pdf 之前，我无法弄清楚如何覆盖它.我使用类似下面的代码来更 ..

发布时间：2021-11-10 23:00:22 stream annotations pypdf2 其他开发

PyPDF2:它可以更新数据流吗?

我需要将多边形注释转换为 pdf 并修改其形状.我现在可以通过将 pdf 和空白 pdf 与仅多边形合并来做到这一点，然后我可以更新顶点和矩形. 然而，打开新pdf时多边形形状仍然看起来是旧的，即使在形状上点击几下后它会刷新.我需要修复这个问题，发现这可能是由注释对象中的数据流引起的，它似乎仍然包含旧的多边形形状.但是在保存新的 pdf 之前，我无法弄清楚如何覆盖它.我使用类似下面的代码来更 ..

发布时间：2021-11-10 22:59:19 stream annotations pypdf2 其他开发

如何在 Python 中将提取的文本从 PDF 转换为 JSON 或 XML 格式?

我正在使用 PyPDF2 从 PDF 文件中提取数据，然后转换为文本格式? 文件的PDF格式是这样的: 姓名:约翰地址:123street , 美国电话:123456性别:男姓名:吉姆地址:456street , 美国电话:456899性别:男在 Python 中我使用这个代码: 导入 PyPDF2pdf_file = open('C:\\Users\\Desktop\\Sample ..

发布时间：2021-10-01 19:44:29 python json xml pypdf2 Python

如何打破 tkinter 中的循环?

这是我的代码. from PyPDF2 import PdfFileReader将 tkinter 作为 tk 导入从 tkinter 导入 ttk从 tkinter 导入文件对话框根 = tk.Tk()标签列表 = []def get_info(path):使用 open(path, 'rb') 作为 f:pdf = PdfFileReader(f)信息 = pdf.getDocumentIn ..

发布时间：2021-09-08 20:01:11 python-3.x tkinter pypdf2 其他开发

如何在python中在PDF文件中写入表结构数据?

+----+-----------------------------+|身份证 |姓名 |+====+================================+|47 |一些 textjogjwojgopwgpowmok |+----+------------------------------+|47 |一些文字jogjwojgopwgpowmokg|+----+----------- ..

发布时间：2021-07-07 20:37:21 python-2.7 python-3.x reportlab pypdf2 pdfrw 其他开发

PyPDF2 写入对某些 PDF 文件不起作用(Python 3.5.1)

首先我使用的是 Python 3.5.1(32 位版本)我编写了以下程序，使用 PyPDF2 和 reportlab 在我的 pdf 文件的所有页面上添加页码: #import 模块从操作系统导入列表目录从 PyPDF2 导入 PdfFileWriter、PdfFileReader导入 io从 reportlab.pdfgen 导入画布从 reportlab.lib.pagesizes 导入 A ..

发布时间：2021-07-07 20:37:07 python python-3.x pdf reportlab pypdf2 Python

如何在 python 3 中使用 PDFminer.six?

我想使用 pdfminer.six 这是一个工具，它可以与 Python3 一起用于从 PDF 文档中提取信息.问题是根本没有好的文档，也没有关于如何使用该工具的源代码示例. 我已经尝试过 StackOverflow 中的一些代码，但没有奏效.下面是我的代码. from pdfminer.converter import TextConverter从 pdfminer.layout 导入 ..

发布时间：2021-06-28 19:15:55 python-3.x pypdf2 pdfminer 其他开发

如何在 Python 3.7 中从 pdf 中提取文本

我正在尝试使用 Python 从 PDF 文件中提取文本.我的主要目标是我正在尝试创建一个程序来读取银行对账单并提取其文本以更新 excel 文件以轻松记录每月支出.现在我只专注于从 pdf 文件中提取文本，但我不知道该怎么做. 目前将 PDF 文件中的文本提取为字符串的最佳和最简单的方法是什么?今天最好使用哪个库，我该怎么做? 我曾尝试使用 PyPDF2，但每次我尝试使用 extra ..

发布时间：2021-06-28 19:05:36 python pdf python-3.7 pypdf2 pdf-extraction Python

有没有办法关闭 PdfFileReader 打开的文件?

我打开了很多 PDF，我想在解析后删除这些 PDF，但文件在程序运行完成之前保持打开状态.如何关闭使用 PyPDF2 打开的 PDF? 代码: def getPDFContent(path):内容 = ""# 将PDF加载到pyPDF中pdf = PyPDF2.PdfFileReader(file(path, "rb"))#检查页数，防止越界错误最大值 = 0如果 pdf.numPages ..

发布时间：2021-06-26 19:50:56 python python-2.7 pypdf2 Python

给两个 pdf 加水印 - 第一页的每一页和第二页的每一页

我有两个相同长度的 pdf 文件，比如说 pdf1.pdf 和 pdf2.pdf.我正在尝试使用 pdf2.pdf 为 pdf1.pdf 的每一页添加水印(即，pdf1.pdf 的第 1 页与 pdf2.pdf 的第 1 页，pdf1.pdf 的第 2 页与 pdf2.pdf 的第 2 页......). 但是，我真的很纠结如何循环它们(我是编程新手). 例如，我试过这个: 导入 P ..

发布时间：2021-06-26 19:40:25 python python-2.7 pdf watermark pypdf2 Python

Python/PyPDF4:如何在创建的 PDF 中指定/PageLabels?

我正在使用 PyPDF4 创建一个离线可读版本《自然》杂志. 我使用 PyPDF4 PdfFileReader 阅读单个文章 PDF 并使用 PdfFileWriter 创建单个合并输出. 我想解决的问题是有些问题的页码不是从1开始的，例如issue 7805 从第 563 页开始. 如何在文档目录中指定所需的/PageLabels? 用于 pdf_files 中的 pdf ..

发布时间：2021-06-15 18:41:38 python-3.x pdf-generation pypdf2 其他开发

PyPDF2:为什么 PdfFileWriter 会忘记我对文档所做的更改?

我正在尝试修改 PDF 文件中的文本.文本可以在 Tj 或 BDC 类型的对象中.我找到了正确的对象，如果我在更改它们后直接读取它们，它们会显示更新的值. 但是如果我将整个页面传递给 PdfFileWriter，更改就会丢失.我可能正在更新副本而不是真实对象.我检查了 id() 并且它是不同的.有人知道如何解决这个问题吗? from PyPDF2 import PdfFileReader, ..

发布时间：2021-06-15 18:38:04 python python-3.x pdf pdf-generation pypdf2 Python

Python + PyPdf:裁剪页面区域并将其粘贴到另一个页面

假设您有一个包含各种复杂元素的 pdf 页面.目标是裁剪页面的一个区域(仅提取一个元素)，然后将其粘贴到另一个 pdf 页面中. 这是我的代码的简化版本: 导入 PyPDF2导入 PyPdfdef extract_tree(in_file, out_file):使用 open(in_file, 'rb') 作为 infp:# 读取包含树的文档(在它的第一页)阅读器 = pyPdf.PdfF ..

发布时间：2021-06-02 20:18:42 python merge pdf-generation pypdf2 pypdf Python

在字典键(或csv)中附加基于pdf文件的multilpe值会导致页面过多

我正在尝试根据所属县创建pdf文件.如果每个县有多个pdf文件，那么我需要根据县密钥将文件附加到单个文件中.我似乎无法根据键来添加地图.生成的最终贴图似乎是随机的，并且通常会添加太多文件.我敢肯定我没有正确地将它们分组.我已经读过，键中的多个值可能会导致多次显示.有人可以帮我提示一下如何分别一次访问每个键的每个值吗?显然，我不了解某些关键内容. 我的代码: 导入csv，os进口壁垒从PyP ..

发布时间：2021-04-27 19:58:53 python csv pypdf2 Python

我怎么知道我的文件是使用PyPDF2附加在我的PDF中的?

我正在尝试使用PyPDF2将.exe文件附加到PDF中. 我运行了代码.它可以完美运行，但是我的PDF文件仍然是相同大小. 我不知道我的文件是否已附加. 这就是我想要做的: 从PyPDF2中的导入PdfFileWriter，PdfFileReader输出= PdfFileWriter()input1 = PdfFileReader(打开("doc1.pdf"，"rb"))#检查 ..

发布时间：2021-04-12 19:23:49 python pdf attachment pypdf2 Python

如何使用AWS Lambda通过python将pdf文件转换为.txt

我需要使用python 3.7中的AWS lambda自动将许多pdf转换为文本文件我已经在自己的计算机上使用poppler/pdftotext，tika和PyPDF2成功转换了pdf文件.但是，tika超时或需要在主机上运行Java实例，但我不确定该如何设置.pdftotext需要poppler，并且所有在lambda上运行该解决方案的解决方案似乎都已过时，或者我只是对二进制文件不够熟悉 ..

发布时间：2021-04-03 19:33:54 python amazon-s3 aws-lambda pypdf2 pdftotext Python

如何使用带有etoken（笔驱动器）的Python对PDF文档进行数字签名？

如何使用Python对PDF文档进行数字签名？我有一个令牌（在笔式驱动器中）。此外，我还使用openpyxl创建了一个excel文件，并将其转换为PDF。现在有一个要求，我需要在该PDF文档中添加数字签名。有什么方法可以在python中实现吗？解决方案使用为此任务设计的python模块，它对PDF-s进行数字签名。您应该拥有的所有内容都是带有证书的p12 / pfx ..

发布时间：2020-10-22 01:02:23 python digital-signature pypdf2 Python

pypdf2相关内容