python-docx相关内容

从.docx文件解析表

我想使用Python和 python-docx 从.docx文件中解析一个表 转换为一些有用的数据结构. 在我的情况下,.docx文件仅包含一个表.我已经上传了它,因此您可以看看.这是屏幕截图: 解决方案 您可以使用下面的代码片段将文档解析为列表,其中每一行都是将表头值映射到列值的字典. from docx.api import Document # Load the fi ..
发布时间:2020-05-25 01:01:18 Python

如何使用docx中的python-docx识别分页符

我有几个.docx文件,其中包含许多相似的文本块:docx文件,其中包含300多个新闻稿,每个新闻稿为1-2页,需要将其分成单独的文本文件.区分文章之间差异的唯一一致方法是,两篇文章之间始终只有分页符. 但是,在将包含的Word文档转换为文本时,我不知道如何查找分页符,并且使用我当前的脚本进行转换后,分页符信息会丢失 我想知道在将.docx文件转换为.txt时如何保留HARD分页符.对 ..
发布时间:2020-05-25 00:34:05 Python

如何让python-docx使用复杂脚本?

我有一个工作正常的docx生成器,该生成器对欧洲语言适用,并且我正尝试添加复杂的脚本支持.我发现了一些可以尝试的食谱问题: python-具有CTL(复杂文本布局)语言的docx add_style 我设法使其正常工作,以便以正确的字体和大小显示复杂的脚本文本,但是我无法使双向(从右到左)文本起作用.明显的"x.font.rtl = True"不起作用,另一篇文章中给出的拼写也不起作用("l ..
发布时间:2020-05-21 18:44:47 Python

在Word文档中查找新页面

如何使用python-docx识别新页或某些表示页码的标识符?到目前为止,我没有看过所有文档,也尝试过查找WD_BREAK.PAGE属性,但尚不支持此功能.感谢所有帮助. 解决方案 简短的答案是,您无法从.docx文件中可靠地确定软分页符.您可以 识别硬分页符,并且可以能够检测到Word上一次“流"文档时分页的位置. Word文档是一个“流"文档,这意味着Word的布局引擎将文档的文 ..
发布时间:2020-05-13 01:49:47 其他开发

可以使用python-docx在Word文档中插入页面吗?

我只是通读了python-docx上的文档. 他们多次提到在文档末尾创建了添加的内容,但是我没有发现任何改变此功能的方法. 有人知道如何将新页面添加到现有文档中,但是将其设为第1页吗? 谢谢! 解决方案 简短的答案是该库尚不支持该功能,尽管这些功能在待办事项列表中很高,因此将是下一个要实现的功能. /p> 要同时完成此操作,您需要使用“解决方法"功能降至XML级别.如果 ..
发布时间:2020-05-13 01:46:24 Python

如何使用python-docx在MS Word中添加页面间链接?

我正在创建一个文件,其中包含第1页第4页上的文本数据以及第5页以上的所有图像. 有一个表,其中页码为列.我想通过单击该页面编号所引用的图像页面来为该列中的每个页面编号添加链接. 我正在使用python-docx创建此文档. 在google上绊脚石时,我得到了使用python-docx创建超链接的解决方案.单击带有超链接的文本会将我带到它所引用的URL. 超链接的代码如下: ..
发布时间:2020-05-13 01:38:30 Python

使用python读写.docx文件

我有一个文件夹,其中包含几个名为[Code2001.docx, Code2002.docx... Code2154.docx]的 .docx 文件. 我正在尝试编写一个脚本,该脚本将: 打开每个.docx文件 在文档上添加一行; “已选中" 将.docx文件保存到另一个名为"Code2001_checked"的文件夹中 搜索后,我仅设法通过循环获取文件名: import ..
发布时间:2020-05-13 01:29:49 Python

使用python-docx在表格中指定边框外观

我正在阅读 python-docx 的教程和文档一个>. 但是,我找不到关于如何指定和操纵在Microsoft Word文档中创建的表格的边框外观的任何引用. 当我使用以下代码时: from docx import Document from docx.shared import Inches document = Document() ################### ..
发布时间:2020-05-13 01:27:21 Python

Python docx库文本对齐

我正在使用python docx库来操作word文档.但是我找不到该库的文档页面中的一条线与中心对齐.我也找不到Google. from docx import Document document = Document() p = document.add_paragraph('A plain paragraph having some ') p.add_ru ..
发布时间:2020-05-13 01:25:37 Python

在Python-Docx中从单元格中删除段落

我正在尝试创建一个具有两行标题的表,该表的所有样式均使用简单的模板格式.两行标题是必需的,因为在两个主要类别下我具有相同的标题.看来,在Word中处理此问题的唯一方法是使文档在整个页面中重复头格式和进行格式化,这是将两行表嵌套到主内容表的头行中. 在Python-DocX中,始终使用单个空的段落元素创建表单元格.对于我的用例,我需要能够完全删除此空的段落元素,而不仅仅是用空字符串清除它.否则 ..
发布时间:2020-05-13 01:24:33 Python

从Word文档中提取标题的文本

我试图从MS Word文档(.docx文件)的标题(任何级别)中提取text.目前,我正在尝试使用 python-docx 解决问题,但是不幸的是,我读完后仍然无法弄清楚它是否可行(也许我弄错了). 我尝试在线寻找解决方案,但没有发现与我的任务有关的任何内容.如果有人可以在这里指导我,那就太好了. 解决方案 基本挑战是确定标题段落.对于读者而言,没有什么能阻止作者将“常规"段落格式化 ..
发布时间:2020-05-13 01:24:25 Python

在docx中进行文本替换,并使用python-docx保存更改后的文件

我正在尝试使用 python-docx模块来替换文件中的单词并保存新文件,并告诫新文件的格式必须与旧文件的格式完全相同,但要替换单词.我应该怎么做? docx模块具有一个saveocx,它需要7个输入: 文档 coreprops appprops contenttypes 网站设置 单词关系 输出 如何将原始文件中的所有内容保持不变,除了被替换的单词? 解决方案 ..
发布时间:2020-05-13 01:20:04 Python