lxml相关内容

在AWS Lambda上使用LXML

我正在尝试使用lxml导入在AWS lambda中运行程序。但是,我每次在lambda控制台中都会收到以下错误: Unable to import module 'scraper': /var/task/lxml/etree.so: undefined symbol: PyFPE_jbuf 我已将部署包中的lxml文件上载到Lambda,就像我对所有其他工作函数所做的那样,但是lxml将 ..
发布时间:2022-07-04 12:26:08 其他开发

使用lxml查找包含类的html元素

我到处都找了,找到的最多的就是doc.xPath(‘//Element[@class=“classname”]’),但无论我怎么尝试都不管用。 我正在使用的代码 import lxml.html def check(): data = urlopen('url').read(); return str(data); doc = lxml.html.document_ ..
发布时间:2022-07-04 12:14:29 其他开发

如何让lxml的iterparse忽略无效的XML字符?

我有一个包含无效字符的XML。 LXML的XMLParser会对这些无效字符抛出异常,但当我使用Recover=True选项创建XMLParser时,它会忽略错误字符并正常工作。 我的问题是如何为lxml的iterparse函数设置类似标志? 复制: 损坏的XML(/tmp/z.xml): ..
发布时间:2022-04-01 14:25:48 Python

是否为lxml键入提示?

Python新手,具有静态类型语言背景。我想要https://lxml.de的类型提示,只是为了便于开发(mypy标记问题和建议方法会很好!) 据我所知,这是一个python2.0模块,没有类型。目前,我已经使用https://mypy.readthedocs.io/en/stable/stubgen.html创建存根类型定义并填充“any”--我正在使用的更多信息类型,但真的太老套了。是否 ..
发布时间:2022-04-01 14:24:26 其他开发

Lxml element.lear()和访问子元素

我使用lxml.iterparse来解析一个相当大的XML文件。在某个点上会引发内存不足异常。我知道有类似的问题,当您不再使用它时,通常应该使用element.lear()清除构建的树。 我的代码如下(缩短): for event,element in context : if element.tag == xmlns + 'initialized': ..
发布时间:2022-04-01 14:19:44 Python

在带有LXML的Python中使用XPath

我有一个用来解析XML并将某些感兴趣的元素导出到CSV文件中的Python脚本。现在,我尝试更改脚本以允许根据条件过滤XML文件,等价的XPath查询将为: DCEventsConfirmation[contains(TransactionId,"GTEREVIEW")] 当我尝试使用lxml执行此操作时,我的代码是: xml_file = lxml.etree.parse(xml ..
发布时间:2022-04-01 14:17:32 Python

Python-通过lxml添加顶级注释

我使用的是python2.6和lxml,我想将顶层注释添加到XML中,如下所示 我在Google上搜索了这个addpretive()方法来完成此操作,以下是我的代码: root = ET.Element("DCSubtitle" ..
发布时间:2022-04-01 14:13:44 Python

如何在PYTHON中找到元素树中的元素数量?

我是元素树的新手,这里我正在尝试查找元素树中的元素数。 from lxml import etree root = etree.parse(open("file.xml",'r')) 有没有办法找到根目录中元素的总计数? 推荐答案 找到所有目标元素(有一些方法可以做到这一点),然后使用内置函数len()来获取计数。例如,如果您打算仅计算根的直接子元素: from lx ..
发布时间:2022-04-01 14:09:26 Python

builtins.TypeError:必须是 str,而不是 bytes

我已将我的脚本从 Python 2.7 转换为 3.2,但我遇到了一个错误. # -*- 编码:utf-8 -*-进口时间从日期时间导入日期从 lxml 导入 etree从集合导入 OrderedDict# 创建根元素page = etree.Element('结果')# 创建一个新的文档树doc = etree.ElementTree(page)# 添加子元素pageElement = etr ..
发布时间:2022-01-31 20:04:44 Python

使用 lxml 按属性查找元素

我需要解析一个 xml 文件来提取一些数据.我只需要一些具有某些属性的元素,这里是一个文档示例: 一些文字一些文字一些文字 在这里,我只想获取类型为“新闻 ..
发布时间:2022-01-20 17:22:10 Python

有没有一种优雅的方法可以在 python 中使用 lxml 来计算 xml 文件中的标签元素?

我可以将 xml 文件的内容读取为字符串并使用字符串操作来实现这一点,但我想有一种更优雅的方法可以做到这一点.由于我在文档中没有找到线索,所以我在这里: 给定一个 xml(见下文)文件,您如何计算 xml 标签,例如 count of author-tags 在下面的示例中,最优雅的方式? 我们假设每个作者只出现一次. 蒂姆伊娃马丁等等 ..
发布时间:2022-01-18 21:52:09 Python

使用 python 的 lxml 去除内联标签

我必须处理 xml 文档中的两种内联标签.第一种类型的标签包含我想要保留的文本.我可以用 lxml 处理这个 etree.tostring(element, method="text", encoding='utf-8') 第二种类型的标签包含我不想保留的文本.我怎样才能摆脱这些标签和他们的文字?如果可能,我宁愿不使用正则表达式. 谢谢 解决方案 我认为 strip_tags 和 ..
发布时间:2022-01-18 21:09:36 Python