lxml相关内容

解析请求响应时我应该使用 .text 还是 .content ?

我偶尔会使用 res.content 或 res.text 来解析来自 请求.在我拥有的用例中,我使用哪个选项似乎并不重要. 使用 .content 或 .text 解析 HTML 的主要区别是什么?例如: 导入请求从 lxml 导入 htmlres = requests.get(...)节点 = html.fromstring(res.content) 在上述情况下,我应该使用res. ..
发布时间:2021-12-31 19:57:47 Python

lxml解析器吃掉所有内存

我正在用 python 编写一些蜘蛛程序,并使用 lxml 库来解析 html 和 gevent 库以实现异步.我发现经过一段时间的工作后,lxml 解析器开始占用高达 8GB 的​​内存(所有服务器内存).但是我只有 100 个异步线程,每个线程最多将文档解析为 300kb. 我已经测试并发现该问题始于 lxml.html.fromstring,但我无法重现此问题. 这行代码的问题: ..
发布时间:2021-12-31 00:01:50 Python

使用 pip 安装 libxml 时出错

这是我的错误: (mysite)zjm1126@zjm1126-G41MT-S2:~/zjm_test/mysite$ pip install lxml下载/解压 lxml为包 lxml 运行 setup.py egg_info构建 lxml 2.3 版.没有 Cython 的构建.错误:/bin/sh:xslt-config:未找到** 确保安装了 libxml2 和 libxslt 的开发包 ..
发布时间:2021-12-30 19:13:42 Python

使用 rowspan 和 colspan 解析表

我有一张表格需要解析,具体来说是一个学校时间表,每周有 4 个时间段和 5 个时间段.我试图解析它,但老实说还没有走多远,因为我坚持如何处理 rowspan 和 colspan 属性,因为它们本质上意味着缺乏我需要继续的数据. 作为我想要做的一个例子,这是一个表格: #1 #2 ..
发布时间:2021-12-28 11:17:27 Python

解析源代码(Python)方法:Beautiful Soup、lxml、html5lib 的区别?

我有一个很大的 HTML 源代码,我想解析 (~200,000) 行,而且我很确定整个过程中存在一些糟糕的格式.我一直在研究一些解析器,似乎 Beautiful Soup、lxml、html5lib 是最受欢迎的.从这个网站看,lxml是最常用的,也是最快的,而Beautiful Soup的速度较慢,但​​会导致更多的错误和变化. 我对 Beautiful Soup 文档有点困惑,http: ..
发布时间:2021-12-23 20:47:15 Python

BeautifulSoup 和 lxml.html - 更喜欢什么?

我正在做一个涉及解析 HTML 的项目. 搜索之后,我发现了两个可能的选项:BeautifulSoup 和 lxml.html 有什么理由更喜欢一个吗?前段时间我已经将 lxml 用于 XML,我觉得我会更适应它,但是 BeautifulSoup 似乎很常见. 我知道我应该使用适合我的那一种,但我一直在寻找两者的个人体验. 解决方案 imo 的简单答案是,如果您相信源代码 ..
发布时间:2021-12-23 19:54:10 Python

在 python 中解析 HTML - lxml 或 BeautifulSoup?哪些更适合用于哪些目的?

据我所知,Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup.我为我正在从事的项目选择了 BeautifulSoup,但我选择它并没有特别的原因,只是发现语法更易于学习和理解.但是我看到很多人似乎更喜欢 lxml,而且我听说 lxml 更快. 所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml,什么时候最好使用 BeautifulSoup?还 ..
发布时间:2021-12-23 19:44:37 Python

lxml 安装错误 ubuntu 14.04(内部编译器错误)

我在安装 lxml 时遇到问题.我已经尝试了本站和其他网站相关问题的解决方案,但无法解决问题.需要一些建议/解决方案. 我在执行 pip install lxml 后提供完整的日志, 下载/解压lxml下载 lxml-3.3.5.tar.gz (3.5MB):已下载 3.5MB为包 lxml 运行 setup.py(路径:/tmp/pip_build_root/lxml/setup.py) ..
发布时间:2021-12-23 18:04:43 Python

在 Windows 8.1 上安装 lxml、libxml2、libxslt

经过额外的探索,我找到了一个用pip和wheel安装lxml的解决方案.欢迎对方法提出更多意见. 我发现 Linux 发行版的现有 Python 文档非常好.对于 Windows... 没有那么多.我已经很好地配置了我的 Linux 系统,但我还需要一些帮助才能准备好 Windows 8.1 平板电脑. 我的项目需要 Python 3.4 的 lxml 模块.我找到了很多关于如何安装 ..
发布时间:2021-12-23 18:00:18 Python