python-docx相关内容

Python docx-Modify运行以针对特定单词

我正在开发一段用python语言编写的代码,该代码在docx文件中搜索某些变量,例如,找到单词“car”并用定义的颜色突出显示它。 我正在使用docx模块来标识和突出显示文本,并且我可以在运行级别(run.font.Highlight)上应用更改,但是由于MS Word将文本存储在一个跟踪所有更改的XML文件中,所以我要查找的单词可以拆分到不同的运行中,也可以作为一个长句子的一部分。 由于我的最 ..
发布时间:2022-06-15 11:14:07 Python

如何使用Python Docx更新MS Word中的字段

我正在开发一个Python程序,需要在MS Word中添加标题文本到图形和表格(带编号)。然而,添加字段后,该字段不会出现在我的Word文档中,直到我更新了该字段(它在我的文档中只是一个空白,直到我更新了该字段,然后它会跳到例如‘2’)。 这是我添加该字段的代码: def add_caption_number(self, field_code): """ Add a capti ..
发布时间:2022-06-15 10:38:47 Python

在python中将pdf转换为docx格式

请告诉我如何将pdf转换为docx。我尝试使用pdfminer转换为html来提取文本,但看起来仍然不够好。 pdf2docx 推荐答案 安装pdf2docx包点击here 安装 克隆或下载pdf2docx pip install pdf2docx or # download the package and install your environment ..
发布时间:2022-06-15 10:23:00 其他开发

Python-docx复制表

我使用以下代码来保存表、修改表,然后复制该表。我从Here获取了copy_table_after()。 def copy_table_after(table, paragraph): tbl, p = table._tbl, paragraph._p new_tbl = deepcopy(tbl) p.addnext(new_tbl) def replaceText ..
发布时间:2022-06-15 10:14:20 Python

如何从一个Docx文件逐页写入单独的Docx文件?

我有一个由数百页组成的MS Word文档。 除了人名在每个页面上都是唯一的之外,每个页面都是相同的。(一页代表一个用户)。 我想获取此Word文档,并自动执行该过程以单独保存每个页面,这样我最终将得到数百个Word文档,每个人一个文档,而不是一个由每个人组成的文档,然后我可以将这些文档分发给不同的人。 我一直在使用这里的python-docx模块:https://python-d ..
发布时间:2022-04-16 17:24:43 Python

了解docx文件中的书签

我正在尝试从Docx文件中提取书签,我编写了一段代码来提取一些Docx文件中的书签,但它在一些docx文件中找不到任何书签。我使用的是python-docx 我基本上是在查找w:bookmarkStart标记并转到其父标记并检索段落中的所有运行。但有些文档既没有w:bookmarkStart,也没有超级链接标签,但DOCX查看器能够识别书签。 以下是段落的XML内容,它是docx查看器中的书签 ..
发布时间:2022-04-16 17:02:22 Python

如何使用python docx获取word文档中文本的实际样式

我正在使用 python docx 库来读取 MS word 文件 (.docx).当我阅读段落时,我使用字体函数来获取所有样式属性.但有时它会为字体大小属性提供 None .有没有办法获得段落包含的实际字体大小.下面给出了我用来解析段落的示例代码 from docx 导入文档d = 文档(文档路径)对于 d.paragraphs 中的段落:用于在paragraph.runs 中运行:打印 (r ..
发布时间:2021-12-31 11:41:51 Python

在 Python-Docx 中从单元格中删除段落

我正在尝试创建一个带有两行标题的表格,该表格对所有样式使用简单的模板格式.两行标题是必需的,因为我在两个主要类别下有相同的标题.似乎在 Word 中处理此问题的唯一方法是将一个两行表嵌套到主内容表的标题行中,从而使文档格式化和流过页面之间的重复标题. 在 Python-DocX 中,总是使用单个空段落元素创建表格单元格.对于我的用例,我需要能够完全删除这个空段落元素,而不是简单地用空字符串清 ..
发布时间:2021-12-31 11:35:35 Python

从word doc中提取标题文本

我正在尝试从 MS Word 文档(.docx 文件)中的标题(任何级别)中提取 text.目前我正在尝试使用 python-docx 来解决,但不幸的是我看了之后还是不知道是否可行(可能是我弄错了). 我试图在网上寻找解决方案,但没有找到与我的任务相关的任何内容.如果有人能在这里指导我,那就太好了. 解决方案 基本挑战是识别标题段落.就读者而言,没有什么能阻止作者将“常规"段落格式 ..
发布时间:2021-12-31 11:34:11 Python

docx 中的文本替换并使用 python-docx 保存更改的文件

我正在尝试使用 python-docx 模块 来替换文件中的单词并保存新文件,但要注意新文件的格式必须与旧文件完全相同,但替换了单词.我该怎么做? docx 模块有一个 savedocx,它接受 7 个输入: 文档 核心道具 应用程序 内容类型 网络设置 文字关系 输出 如何使原始文件中的所有内容都保持不变,除了被替换的单词? 解决方案 看起来,Python ..
发布时间:2021-12-31 11:29:55 Python

python-docx:将表解析为 Panda Dataframe

我正在使用 python-docx 库来提取 ms word 文档.我可以使用相同的库从 word 文档中获取所有表格.但是,我想将表解析为熊猫数据框,是否有任何内置功能可用于将表解析为数据框,或者我必须手动执行此操作?另外,是否有可能知道表格所在的标题名称?谢谢 from docx 导入文档从 docx.shared 导入英寸document = Document('test.docx')标签 ..
发布时间:2021-12-31 11:27:35 Python

如何在python-docx中提取带有跟踪更改的文本

我想从在“修订"模式下编辑的 Word 文档中提取文本.我想提取插入的文本并忽略删除的文本. 运行下面的代码,我看到在“跟踪更改"模式下插入的段落返回一个空的 Paragraph.text 导入文档doc = docx.Document('C:\\test track changes.docx')对于 doc.paragraphs 中的 para:打印(段)打印(段落文本) 有没有办法在 ..
发布时间:2021-12-31 11:21:06 其他开发

使用python读取和写入.docx文件

我有一个文件夹,其中包含多个名称为 [Code2001.docx, Code2002.docx... Code2154.docx] 的 .docx 文件. 我正在尝试编写一个脚本: 打开每个 .docx 文件 在文档中追加一行;“这是检查" 将 .docx 文件保存到另一个名为“Code2001_checked"的文件夹中 搜索后,我只设法通过循环获取文件名: 导入操作系统 ..
发布时间:2021-12-31 10:58:40 Python

如何使用 python-docx 将复选框表单插入 .docx 文件?

我一直在使用 python 来实现自定义解析器,并使用解析后的数据来格式化要在内部分发的 Word 文档.到目前为止,所有格式设置都很简单明了,但我完全不知道如何将复选框插入到单个表格单元格中. 我尝试在 python-docx 中使用 python 对象函数(使用 get_or_add_tcPr() 等),这会导致 MS Word 在我尝试打开文件时抛出以下错误,“无法打开文件 xxxx, ..
发布时间:2021-12-23 08:38:59 Python

在文档 (.docx) 的特定位置添加图像?

我使用 Python-docx 生成 Microsoft Word 文档.用户在为例如:“大家早上好,这是我的 %(profile_img)s 你喜欢它吗?"的时候想要这样.在 HTML 字段中,我创建了一个 Word 文档,并从数据库中恢复了用户的图片,并将关键字 %(profile_img)s 替换为用户的图片不在文档末尾强>.使用 Python-docx,我们使用此指令添加图片: docu ..
发布时间:2021-12-07 10:51:44 Python

编辑文档 Python-docx 标题中的内容

我正在尝试查找和替换文档标题中的文本框中的文本.但是搜索了一段时间后,似乎无法通过 python-docx 访问标题或“浮动"文本框中的内容(我阅读了 issue 这里) 所以,这意味着我们必须直接在文档的xml格式上查找和替换.你知道这样做吗? 解决方案 我找到了解决这个问题的方法.例如,我有一个 template.docx 文件,我想更改 标题中的文本框 中的文本,如上所述.下面 ..
发布时间:2021-10-01 19:45:01 其他开发