lxml相关内容

如何替换lxml中的元素?

我有一个文本(CRM用户输入的数据)Web服务,该文本返回“可怕的格式".我在使用数据之前使用python进行了过滤,但是在删除换行符(br)时,我也删除了文本.代码如下: description = ''' text............... ..
发布时间:2020-05-04 08:39:13 Python

lxml.html通过搜索关键字来提取字符串

我有一部分html,如下所示 The Keyword:The text 我想获取字符串“关键字:文本". 我知道我可以使用Chrome inspect或FF firebug获取以上html的xpath,然后选择(xpath).extract(),然后剥离html标 ..
发布时间:2020-05-04 08:39:07 Python

通过按属性值匹配元素来合并两个XML文件

我有两个要合并的XML文件.我看了以前的其他问题,但我觉得我无法通过阅读解决这些问题.我认为使我的情况与众不同的是,我必须按属性值查找元素,然后合并到相反的文件中. 我有两个文件.一个是英语翻译目录,第二个是日语翻译目录.请参阅下面的内容. 在下面的代码中,您将看到XML具有三个要合并子元素的元素-MessageCatalogueEntry,MessageCatalogueFormEn ..
发布时间:2020-05-04 08:38:59 Python

我可以让lxml忽略root标记之前和之后的非XML内容吗?

我正在尝试使用lxml处理在XML内容之前和之后都可能有一些非XML垃圾的文件,想象有人捕获了终端缓冲区,并且我有这样的东西: user@host: cat /tmp/log.xml ... .. ... user@host: 如果我递给etree.parse文件名,它会阻塞开头的内容.我可以删除第一行, ..
发布时间:2020-05-04 08:38:54 Python

用于列表解析的HTML表-< TBODY> xml和lxml的活动扳手

我阅读了将HTML表解析为Python列表的答案?,并尝试使用这些思想来阅读/处理我的从网站下载的本地html (文件包含一个表,并以 标签开头).由于存在两个html标签,我遇到了问题. 使用标签时,解析不会拾取标头,并且导致xml和lxml完全失败. 我尝试使用谷歌搜索解决方案,但答案很可能是嵌入在xml和/或l ..
发布时间:2020-05-04 08:38:50 Python

lxml:强制将换行符转换为实体

是否可以将文本元素内的换行符输出为 实体? 当前,换行符按原样插入到输出中: from lxml import etree from lxml.builder import E etree.tostring(E.a('one\ntwo'), pretty_print=True) b'one\ntwo\n' 所需的输出: b'one two ..
发布时间:2020-05-04 08:38:48 Python

XPath通过超链接获取文本(Python)

我是使用XPath的新手(而且我一般是Python的相对初学者).我正试图通过它从Wikipedia页面的第一段中删除文本. 以Python页面为例( https://en.wikipedia.org/wiki /Python_(programming_language)) 如果我将其放入变量 page = requests.get("https://en.wikipedia.o ..
发布时间:2020-05-04 08:38:44 前端开发

与ElementTree相似,如何使用lxml遍历XML文档标签

当前,我正在编辑XML文档,在这里我必须编辑一些标签及其属性.到目前为止,我正在使用ElementTree库,但是在命名空间保留方面遇到了问题,因此我试图重写脚本以使用lxml.但是ElementTree对于我遍历文档标签的情况非常合乎逻辑.下面以示例为例,我将提供代码,该代码将删除XML中的Ext标记,并将Resolution标记文本更改为其他值. ElementTree: name ..
发布时间:2020-05-04 08:38:39 Python

将LXML与Html,Requests和ETree一起使用,它可以提供链接,但不会让我搜索特定文本的链接

我正在尝试从下面提供的链接中提取特定数据.当我运行代码时,它会按预期提供所有的href链接,但是当我尝试对同一字符串进行进一步测试(但使用contains语法)时,它返回为空. 我已经阅读了文档以及DevHints,在我所看到的所有地方,都推荐使用“包含"语法来捕获我所寻找的内容,而我所知道的只是将要包含的语法,而不是在哪里或 我正试图制造一种刮板,以帮助最近被解雇的许多人找到新工作, ..
发布时间:2020-05-04 08:38:35 Python

元素中img src的xpath

我将如何修改以下代码,以便找出在description元素(包含html)中找到的所有图像的来源?目前,它只是从元素内部获取全文,我不确定如何修改它以获取任何img标签的来源. >>> from lxml import etree >>> tree = etree.parse('temp.xml') >>> for guide in tree.xpath('guide'): ... ..
发布时间:2020-05-04 08:38:33 Python

打开并读取:文件夹python中的多个xml文件

我已经在一个文件夹中存储了大约150多个XML文件.我想从该文件夹中打开并读取那些XML文件(大约150多个XML文件);之后,我进行下一个分析.我需要在以下代码中进行哪些更改才能从该文件夹中打开/读取多个XML文件? from bs4 import BeautifulSoup import lxml import pandas as pd infile = open("F:\\itpr ..
发布时间:2020-05-04 08:38:26 Python