lxml 第3页 - IT屋-程序员软件开发技术分享社区

如何在xpath python中转换一个变量

from lxml import html进口请求页码 = 'http://www.beleggen.nl/amx'页面 = requests.get(页面)树 = html.fromstring(page.text)aandeel = tree.xpath('//a[@title="Imtech"]/text()')打印 aandeel 这部分有效，但我想阅读具有不同标题的多行，是否可以将“I ..

发布时间：2021-12-31 20:03:28 python python-2.7 xpath lxml python-requests Python

解析请求响应时我应该使用 .text 还是 .content ?

我偶尔会使用 res.content 或 res.text 来解析来自请求.在我拥有的用例中，我使用哪个选项似乎并不重要. 使用 .content 或 .text 解析 HTML 的主要区别是什么?例如: 导入请求从 lxml 导入 htmlres = requests.get(...)节点 = html.fromstring(res.content) 在上述情况下，我应该使用res. ..

发布时间：2021-12-31 19:57:47 python python-requests lxml Python

解析 XML 文件得到 UnicodeEncodeError (ElementTree)/ValueError (lxml)

我向 CareerBuilder API 发送了一个 GET 请求: 导入请求url = "http://api.careerbuilder.com/v1/jobsearch"有效载荷 = {'DeveloperKey': 'MY_DEVLOPER_KEY','JobTitle':'生物学家'}r = requests.get(url, params=payload)xml = r.text ..

发布时间：2021-12-31 19:49:51 python xml python-requests lxml elementtree Python

lxml解析器吃掉所有内存

我正在用 python 编写一些蜘蛛程序，并使用 lxml 库来解析 html 和 gevent 库以实现异步.我发现经过一段时间的工作后，lxml 解析器开始占用高达 8GB 的内存(所有服务器内存).但是我只有 100 个异步线程，每个线程最多将文档解析为 300kb. 我已经测试并发现该问题始于 lxml.html.fromstring，但我无法重现此问题. 这行代码的问题: ..

发布时间：2021-12-31 00:01:50 python memory-leaks lxml Python

src/lxml/etree_defs.h:9:31: 致命错误: libxml/xmlversion.h: 没有那个文件或目录

我正在运行以下命令来安装该文件中的软件包“pip install -r requirements.txt --download-cache=~/tmp/pip-cache". requirement.txt 包含像这样的包 # 数据格式#------------PIL==1.1.7 #html5lib==0.90httplib2==0.7.4lxml==2.3.1# 文档# --- ..

发布时间：2021-12-30 19:35:20 python-2.7 lxml pip 其他开发

使用 pip 安装 libxml 时出错

这是我的错误: (mysite)zjm1126@zjm1126-G41MT-S2:~/zjm_test/mysite$ pip install lxml下载/解压 lxml为包 lxml 运行 setup.py egg_info构建 lxml 2.3 版.没有 Cython 的构建.错误:/bin/sh:xslt-config:未找到** 确保安装了 libxml2 和 libxslt 的开发包 ..

发布时间：2021-12-30 19:13:42 python lxml pip Python

使用 rowspan 和 colspan 解析表

我有一张表格需要解析，具体来说是一个学校时间表，每周有 4 个时间段和 5 个时间段.我试图解析它，但老实说还没有走多远，因为我坚持如何处理 rowspan 和 colspan 属性，因为它们本质上意味着缺乏我需要继续的数据. 作为我想要做的一个例子，这是一个表格: #1 #2 ..

发布时间：2021-12-28 11:17:27 python html-parsing lxml html-table Python

为 html 表提取 lxml xpath

我有一个类似于以下内容的 html 文档: 代码名称High低 ..

发布时间：2021-12-28 11:01:44 python html xpath html-table lxml 前端开发

非 ASCII 字符的语法错误

我正在尝试解析包含一些非 ASCII 字符的 xml，代码如下 from lxml import etree从 lxml 导入对象化content = u' 订购日期 : 05/08/2013 12:24:28'mail.replace('\xa0',' ')xml = etree.froms ..

发布时间：2021-12-27 15:25:39 python encoding xml-parsing lxml non-ascii-characters Python

解析源代码(Python)方法:Beautiful Soup、lxml、html5lib 的区别?

我有一个很大的 HTML 源代码，我想解析 (~200,000) 行，而且我很确定整个过程中存在一些糟糕的格式.我一直在研究一些解析器，似乎 Beautiful Soup、lxml、html5lib 是最受欢迎的.从这个网站看，lxml是最常用的，也是最快的，而Beautiful Soup的速度较慢，但会导致更多的错误和变化. 我对 Beautiful Soup 文档有点困惑，http: ..

发布时间：2021-12-23 20:47:15 python parsing beautifulsoup lxml Python

如何使用 BeautifulSoup 在 Python 中解析谷歌搜索结果

我正在尝试解析 google 搜索结果的第一页.具体来说，提供的标题和小摘要.这是我目前所拥有的: from urllib.request import urlretrieve导入 urllib.parse从 urllib.parse 导入 urlencode、urlparse、parse_qs导入浏览器从 bs4 导入 BeautifulSoup进口请求地址 = 'https://google ..

发布时间：2021-12-23 20:46:06 python python-3.x beautifulsoup lxml Python

使用 BeautifulSoup 或 LXML.HTML 进行网页抓取

我看过一些网络广播，在尝试执行此操作时需要帮助:我一直在使用 lxml.html.雅虎最近改变了网络结构. 目标页面； http://finance.yahoo.com/quote/IBM/options?date=1469750400&straddle=true 在 Chrome 中使用检查器:我在中看到数据 //*[@id="main-0-Quote-Proxy"]/s ..

发布时间：2021-12-23 20:44:50 python web-scraping beautifulsoup lxml yahoo Python

BeautifulSoup 可以保留 CDATA 部分吗?

我正在使用 BeautifulSoup 读取、修改和写入 XML 文件.我在删除 CDATA 部分时遇到了麻烦.这是一个简化的示例. 罪魁祸首 XML 文件: ?,./;'[]\-=]]> 这是 Python 脚本. from bs4 import BeautifulSoupxmlfile = op ..

发布时间：2021-12-23 20:07:42 python xml beautifulsoup lxml cdata Python

涉及带有属性的 HTML 标签的 Python 网页抓取

我正在尝试制作一个网络爬虫，它将解析出版物的网页并提取作者.网页的骨架结构如下: ####我想要这里的任何东西### ..

发布时间：2021-12-23 20:04:49 python beautifulsoup lxml screen-scraping Python

使用 Python 转义 XML 中未转义的字符

我需要对一个大约 5000 行长的无效 XML 文件中的特殊字符进行转义.这是我必须处理的 XML 示例: 姓名&姓氏name@name.org 这里的问题是字符“&"在名字里.您将如何使用 Python 库转义这样的特殊字符?我没有找到使用 BeautifulSoup 的方法. 解决方案如果您不关心 xml 中 ..

发布时间：2021-12-23 19:59:46 python xml beautifulsoup lxml special-characters Python

BeautifulSoup 和 lxml.html - 更喜欢什么?

我正在做一个涉及解析 HTML 的项目. 搜索之后，我发现了两个可能的选项:BeautifulSoup 和 lxml.html 有什么理由更喜欢一个吗?前段时间我已经将 lxml 用于 XML，我觉得我会更适应它，但是 BeautifulSoup 似乎很常见. 我知道我应该使用适合我的那一种，但我一直在寻找两者的个人体验. 解决方案 imo 的简单答案是，如果您相信源代码 ..

发布时间：2021-12-23 19:54:10 python beautifulsoup lxml Python

在 python 中解析 HTML - lxml 或 BeautifulSoup?哪些更适合用于哪些目的?

据我所知，Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup.我为我正在从事的项目选择了 BeautifulSoup，但我选择它并没有特别的原因，只是发现语法更易于学习和理解.但是我看到很多人似乎更喜欢 lxml，而且我听说 lxml 更快. 所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml，什么时候最好使用 BeautifulSoup?还 ..

发布时间：2021-12-23 19:44:37 python beautifulsoup html-parsing lxml Python

lxml 安装错误 ubuntu 14.04(内部编译器错误)

我在安装 lxml 时遇到问题.我已经尝试了本站和其他网站相关问题的解决方案，但无法解决问题.需要一些建议/解决方案. 我在执行 pip install lxml 后提供完整的日志，下载/解压lxml下载 lxml-3.3.5.tar.gz (3.5MB):已下载 3.5MB为包 lxml 运行 setup.py(路径:/tmp/pip_build_root/lxml/setup.py) ..

发布时间：2021-12-23 18:04:43 python installation pip lxml ubuntu-14.04 Python

在 Windows 8.1 上安装 lxml、libxml2、libxslt

经过额外的探索，我找到了一个用pip和wheel安装lxml的解决方案.欢迎对方法提出更多意见. 我发现 Linux 发行版的现有 Python 文档非常好.对于 Windows... 没有那么多.我已经很好地配置了我的 Linux 系统，但我还需要一些帮助才能准备好 Windows 8.1 平板电脑. 我的项目需要 Python 3.4 的 lxml 模块.我找到了很多关于如何安装 ..

发布时间：2021-12-23 18:00:18 python windows module installation lxml Python

通过 pip 安装 lxml 时出错:需要 Microsoft Visual C++ 14.0

我在 Windows 10 机器上，最近从 python 2.7 迁移到 3.5.尝试通过 pip 安装 lxml 时，它会停止并抛出此错误消息 - 构建“lxml.etree"扩展错误:需要 Microsoft Visual C++ 14.0.使用“Microsoft Visual C++ 构建工具"获取它:http://landinghub.visualstudio.com/visu ..

发布时间：2021-12-22 18:13:57 python visual-c++ pip lxml Python

lxml相关内容