lxml 第4页 - IT屋-程序员软件开发技术分享社区

为什么 lxml.etree.iterparse() 占用了我所有的内存?

这最终消耗了我所有的可用内存，然后进程被终止.我尝试将标签从 schedule 更改为“较小"标签，但这并没有什么区别. 我做错了什么/如何使用 iterparse() 处理这个大文件? import lxml.etree对于 lxml.etree.iterparse('really-big-file.xml', tag='schedule') 中的计划:打印“为什么这会消耗我所有的内存? ..

发布时间：2021-12-21 10:09:56 python xml memory lxml iterparse Python

使用 lxml 和请求抓取 HTML 会出现 unicode 错误

我正在尝试使用此处提供的 HTML 抓取工具.它适用于他们提供的示例.但是，当我尝试将它与我的网页，我收到此错误 - 不支持带有编码声明的 Unicode 字符串.请在没有声明的情况下使用字节输入或 XML 片段.我试过谷歌搜索，但找不到解决方案.我真的很感激任何帮助.我想知道是否有办法使用 Python 将其复制为 HTML. 编辑: from lxml import html进口 ..

发布时间：2021-12-17 14:00:52 python html unicode web-scraping lxml 前端开发

HTML 编码和 lxml 解析

..

发布时间：2021-12-17 13:46:00 python unicode web-scraping beautifulsoup lxml Python

BeautifulSoup:'lxml' 和 'html.parser' 和 'html5lib' 解析器有什么区别?

使用 Beautiful Soup 时，“lxml"和“html.parser"有什么区别?和“html5lib"? 您什么时候会使用一种而不是另一种以及每种的好处?当我使用它们时，它们似乎可以互换，但这里的人纠正我，我应该使用不同的.我想加强我的理解；我已经在这里阅读了几篇关于此的帖子，但他们根本没有详细讨论其用途. 示例: soup = BeautifulSoup(respons ..

发布时间：2021-12-17 13:38:12 python html web-scraping beautifulsoup lxml 前端开发

美丽的汤和表格抓取 - lxml 与 html 解析器

我正在尝试使用 BeautifulSoup 从网页中提取表格的 HTML 代码. ... 我想知道为什么下面的代码适用于 "html.parser" 并且如果我更改 "html.parser"none/code> 用于 "lxml". #!/usr/bin/python从 bs4 导入 B ..

发布时间：2021-12-17 13:24:18 python web-scraping html-parsing beautifulsoup lxml Python

等价于使用 lxml.html 解析 HTML 时的 InnerHTML

标题一些文字 ..

发布时间：2021-12-13 00:04:25 python parsing lxml Python

获取 lxml 中标签内的所有文本

我想编写一个代码片段，它可以在 lxml 中获取标签内的所有文本，在下面的所有三个实例中，包括代码标签.我试过 tostring(getchildren()) 但这会错过标签之间的文本.我在 API 中搜索相关函数的运气并不好.你能帮我吗? 标签内的文本#should return " Text inside tag ..

发布时间：2021-12-12 23:23:31 python parsing lxml Python

如何在 Ubuntu 上安装 lxml

我在 Ubuntu 11 上使用 easy_install 安装 lxml 时遇到困难. 当我输入 $easy_install lxml 我得到: 搜索lxml阅读 http://pypi.python.org/simple/lxml/阅读 http://codespeak.net/lxml最佳匹配:lxml 2.3下载 http://lxml.de/files/lxml-2.3.tgz处 ..

发布时间：2021-12-12 11:55:27 python ubuntu lxml libxml2 easy-install Python

bs4.FeatureNotFound:找不到具有您请求的功能的树构建器:lxml.你需要安装解析器库吗?

...汤 = BeautifulSoup(html, "lxml")文件“/Library/Python/2.7/site-packages/bs4/__init__.py"，第 152 行，在 __init__% ",".join(features))bs4.FeatureNotFound:找不到具有您请求的功能的树构建器:lxml.你需要安装解析器库吗? 我终端上的上述输出.我使用的是 Ma ..

发布时间：2021-12-08 12:17:17 python python-2.7 beautifulsoup lxml Python

无法在 Mac OS X 10.9 上安装 Lxml

我想安装 Lxml 以便我可以安装 Scrapy. 当我今天更新我的 Mac 时，它不会让我重新安装 lxml，我收到以下错误: 在 src/lxml/lxml.etree.c:314 包含的文件中:/private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: 致命错误: 'libxml/xmlversion.h ..

发布时间：2021-12-05 20:05:42 python xcode macos scrapy lxml Python

如何在 lxml xpath 查询中使用空命名空间?

我有一个格式如下的 xml 文档: ...https://ip.ad.dr.ess:8 ..

发布时间：2021-12-03 14:57:21 python xml xpath lxml Python

使用lxml从python中的xml中删除命名空间和前缀

我有一个 xml 文件，我需要打开并对其进行一些更改，其中一项更改是删除命名空间和前缀，然后保存到另一个文件.这是xml: 我可以进行我需要的其他更改，但不知道如何删除命名空间和前缀.这是我需要的 reusklt xml: 这是我的脚本，它将打开并解析 xml 并保存它: metadata = '/Users/user1/Desktop/Python/metadata.xml'从 l ..

发布时间：2021-12-03 14:33:51 python xml namespaces lxml Python

使用 lxml 和 iterparse() 来解析一个大 (+- 1Gb) XML 文件

我必须解析具有如下结构的 1Gb XML 文件，并提取标签“作者"和“内容"中的文本: MM/DD/YY姓氏Lorem ipsum dolor sat amet, consectetur adipiscing elit.Maecenas dictum dictum vehicula.M ..

发布时间：2021-12-03 14:29:00 python xml parsing lxml iterparse Python

如何使用 XPath 选择以下同级/XML 标记

我有一个 HTML 文件(来自 Newegg)，它们的 HTML 组织如下.他们的规格表中的所有数据都是“desc"，而每个部分的标题都是“name".以下是来自 Newegg 页面的两个数据示例.> 品牌英特尔系列 ..

发布时间：2021-12-03 14:25:58 xml xpath lxml 其他开发

如何重写此函数以实现 OrderedDict?

我有以下函数可以将 XML 文件解析为字典. 不幸的是，由于 Python 词典没有排序，我无法按照自己的意愿循环浏览节点. 如何更改它以输出一个有序字典，该字典反映了使用 for 循环时节点的原始顺序. def simplexml_load_file(file):进口藏品从 lxml 导入 etree树 = etree.parse(文件)root = tree.getroot()d ..

发布时间：2021-12-03 14:23:35 python xml collections lxml Python

对大型 XML 文件使用 Python Iterparse

我需要用 Python 编写一个解析器，它可以在没有太多内存(只有 2 GB)的计算机上处理一些非常大的文件(> 2 GB).我想在 lxml 中使用 iterparse 来做到这一点. 我的文件格式为: 项目 1说明1项目 2说明2 到目前为止 ..

发布时间：2021-12-03 14:11:02 python xml lxml large-files elementtree Python

builtins.TypeError:必须是 str，而不是字节

我已将脚本从 Python 2.7 转换为 3.2，但出现错误. # -*- 编码:utf-8 -*-导入时间从日期时间导入日期从 lxml 导入 etree从集合导入 OrderedDict# 创建根元素page = etree.Element('结果')# 创建一个新的文档树doc = etree.ElementTree(页面)# 添加子元素pageElement = etree.SubEl ..

发布时间：2021-12-02 17:23:35 python python-3.x lxml Python

在 Windows 7 32 位上使用 Python 3.3 的 LXML 3.3

我在安装时遇到了重大问题.请提供详细的分步指南. 解决方案这些说明适用于使用 Python3.3 的 Windows7 或 Windows8. 但是，它们应该适用于各种版本，因为 Python 的发行版和其他相应的先决条件发生了变化/发展: 安装Python3.3: 从下载页面下载 Python3.3 的最新版本(当前为 3.3.5)这里 Win32 MSI 安装程序的直 ..

发布时间：2021-11-26 14:28:30 python windows-7 pip lxml 32-bit Python

在 Windows 7 32 位上使用 Python 3.3 的 LXML 3.3

我在安装时遇到了重大问题.请提供详细的分步指南. 解决方案这些说明适用于使用 Python3.3 的 Windows7 或 Windows8. 但是，它们应该适用于各种版本，因为 Python 的发行版和其他相应的先决条件发生了变化/发展: 安装Python3.3: 从下载页面下载 Python3.3 的最新版本(当前为 3.3.5)这里 Win32 MSI 安装程序的直 ..

发布时间：2021-11-24 23:12:11 python windows-7 pip lxml 32-bit Python

python lxml在另一个元素之后追加元素

这里有东西一些内容 ..

发布时间：2021-11-16 19:23:57 python html append lxml 前端开发

lxml相关内容