lxml相关内容

为什么 lxml.etree.iterparse() 占用了我所有的内存?

这最终消耗了我所有的可用内存,然后进程被终止.我尝试将标签从 schedule 更改为“较小"标签,但这并没有什么区别. 我做错了什么/如何使用 iterparse() 处理这个大文件? import lxml.etree对于 lxml.etree.iterparse('really-big-file.xml', tag='schedule') 中的计划:打印“为什么这会消耗我所有的内存? ..
发布时间:2021-12-21 10:09:56 Python

使用 lxml 和请求抓取 HTML 会出现 unicode 错误

我正在尝试使用 此处 提供的 HTML 抓取工具.它适用于他们提供的示例.但是,当我尝试将它与我的 网页,我收到此错误 - 不支持带有编码声明的 Unicode 字符串.请在没有声明的情况下使用字节输入或 XML 片段.我试过谷歌搜索,但找不到解决方案.我真的很感激任何帮助.我想知道是否有办法使用 Python 将其复制为 HTML. 编辑: from lxml import html进口 ..
发布时间:2021-12-17 14:00:52 前端开发

BeautifulSoup:'lxml' 和 'html.parser' 和 'html5lib' 解析器有什么区别?

使用 Beautiful Soup 时,“lxml"和“html.parser"有什么区别?和“html5lib"? 您什么时候会使用一种而不是另一种以及每种的好处?当我使用它们时,它们似乎可以互换,但这里的人纠正我,我应该使用不同的.我想加强我的理解;我已经在这里阅读了几篇关于此的帖子,但他们根本没有详细讨论其用途. 示例: soup = BeautifulSoup(respons ..
发布时间:2021-12-17 13:38:12 前端开发

获取 lxml 中标签内的所有文本

我想编写一个代码片段,它可以在 lxml 中获取 标签内的所有文本,在下面的所有三个实例中,包括代码标签.我试过 tostring(getchildren()) 但这会错过标签之间的文本.我在 API 中搜索相关函数的运气并不好.你能帮我吗? 标签内的文本#should return " Text inside tag ..
发布时间:2021-12-12 23:23:31 Python

如何在 Ubuntu 上安装 lxml

我在 Ubuntu 11 上使用 easy_install 安装 lxml 时遇到困难. 当我输入 $easy_install lxml 我得到: 搜索lxml阅读 http://pypi.python.org/simple/lxml/阅读 http://codespeak.net/lxml最佳匹配:lxml 2.3下载 http://lxml.de/files/lxml-2.3.tgz处 ..
发布时间:2021-12-12 11:55:27 Python

无法在 Mac OS X 10.9 上安装 Lxml

我想安装 Lxml 以便我可以安装 Scrapy. 当我今天更新我的 Mac 时,它不会让我重新安装 lxml,我收到以下错误: 在 src/lxml/lxml.etree.c:314 包含的文件中:/private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: 致命错误: 'libxml/xmlversion.h ..
发布时间:2021-12-05 20:05:42 Python

使用lxml从python中的xml中删除命名空间和前缀

我有一个 xml 文件,我需要打开并对其进行一些更改,其中一项更改是删除命名空间和前缀,然后保存到另一个文件.这是xml: 我可以进行我需要的其他更改,但不知道如何删除命名空间和前缀.这是我需要的 reusklt xml: 这是我的脚本,它将打开并解析 xml 并保存它: metadata = '/Users/user1/Desktop/Python/metadata.xml'从 l ..
发布时间:2021-12-03 14:33:51 Python

如何重写此函数以实现 OrderedDict?

我有以下函数可以将 XML 文件解析为字典. 不幸的是,由于 Python 词典没有排序,我无法按照自己的意愿循环浏览节点. 如何更改它以输出一个有序字典,该字典反映了使用 for 循环时节点的原始顺序. def simplexml_load_file(file):进口藏品从 lxml 导入 etree树 = etree.parse(文件)root = tree.getroot()d ..
发布时间:2021-12-03 14:23:35 Python

builtins.TypeError:必须是 str,而不是字节

我已将脚本从 Python 2.7 转换为 3.2,但出现错误. # -*- 编码:utf-8 -*-导入时间从日期时间导入日期从 lxml 导入 etree从集合导入 OrderedDict# 创建根元素page = etree.Element('结果')# 创建一个新的文档树doc = etree.ElementTree(页面)# 添加子元素pageElement = etree.SubEl ..
发布时间:2021-12-02 17:23:35 Python

在 Windows 7 32 位上使用 Python 3.3 的 LXML 3.3

我在安装时遇到了重大问题.请提供详细的分步指南. 解决方案 这些说明适用于使用 Python3.3 的 Windows7 或 Windows8. 但是,它们应该适用于各种版本,因为 Python 的发行版和其他相应的先决条件发生了变化/发展: 安装Python3.3: 从下载页面下载 Python3.3 的最新版本(当前为 3.3.5)这里 Win32 MSI 安装程序的直 ..
发布时间:2021-11-26 14:28:30 Python

在 Windows 7 32 位上使用 Python 3.3 的 LXML 3.3

我在安装时遇到了重大问题.请提供详细的分步指南. 解决方案 这些说明适用于使用 Python3.3 的 Windows7 或 Windows8. 但是,它们应该适用于各种版本,因为 Python 的发行版和其他相应的先决条件发生了变化/发展: 安装Python3.3: 从下载页面下载 Python3.3 的最新版本(当前为 3.3.5)这里 Win32 MSI 安装程序的直 ..
发布时间:2021-11-24 23:12:11 Python