lxml 第33页 - IT屋-程序员软件开发技术分享社区

如何通过匹配字符串在Python中提取父级html标记

我需要通过匹配html中的字符串来在html中提取父标签。（即）我有很多原始的html资源。每个来源都包含带有一些字符的文本值“VIN： * ”**。这个文本值（VIN： * ）在各个源文件中以各种格式放置，例如“ ”，“ ”等。然后，我需要提取所有值以及“VIN： * ”字符串。这意味着我需要得到它的父标签。例如， ..

发布时间：2018-06-21 16:35:13 python html regex pattern-matching lxml 前端开发

如何使用xpath& amp; amp;限于lxml？

我使用lxml的xpath函数来检索网页的某些部分。我试图获取标签的内容，其中包含自己的html标签。如果我使用 // td [@ valign =“top”] / p [1] / font [@ face =“ verdana“和@color =”＃ffffff“和@ size =”2“] （code> ..

发布时间：2018-06-21 13:30:24 python html lxml xpath 前端开发

如何使用lxml解析HTML表格与变量列表？

我试图用lxml解析一个HTML表格。虽然 rows = outhtml.xpath（'// tr / td / span [@ class =“boldred”] / text（）'）取得结果，我试图仅当我的配置文件中的变量开始时才提取列内容。例如，如果以'Street 1'开头，那么我想抓住标记的内容。这样，我可以有一个元组的元组（它处理None值），然 ..

发布时间：2018-06-20 16:11:57 html lxml python 前端开发

使用Python和lxml从HTML中删除类属性

问题如何使用python和lxml从html中删除类属性？ $ b h2> 我有： Lorem ipsum dolor sit amet，consectetur adipisicing elit 我想： Lorem ipsum dolor sit amet，consectetur ..

发布时间：2018-06-20 14:50:02 python html lxml 前端开发

快速有效的方法来解析破碎的HTML？

目前lxml是我的选择，我知道它提供了一个界面对于libxml2的恢复模式，但我对结果并不满意。对于一些特定的HTML页面，我发现BeautifulSoup可以找到更好的结果（例如： http://fortune.com/2015/11/10/vw-scandal-volkswagen-gift-cards/ ，这个包含标签，其中lxml / libxml2无法更正）。但是，问 ..

发布时间：2018-06-19 22:06:32 html beautifulsoup html-parsing lxml libxml2 前端开发

使用python解析HTML表格--HTMLparser或lxml

我有一个html页面，它包含一个表格&我想获取td中的所有值，tr在该表中。我尝试过使用beautifulsoup，但现在我想用python处理lxml或HML分析器。我附上了这个例子。我想以元组列表的形式获取值。 [ [（值为2050年1月，主题 - part1-sub part1-subject1的值），（2050 feb的值，主题 - part1- （s ..

发布时间：2018-06-19 21:24:57 python html parsing lxml 前端开发

将lxml设置为默认的BeautifulSoup分析器

我正在开发一个网络抓取项目，并且遇到了速度问题。为了解决它，我想用lxml代替html.parser作为BeautifulSoup的解析器。我已经能够做到这一点： soup = bs4.BeautifulSoup（html，'lxml'）但我不想重复键入'lxml'每次我打电话给BeautifulSoup。有没有一种方法可以设置哪个解析器在我的程序开始时使用一次？解析方案 ..

发布时间：2018-06-19 21:19:33 python html beautifulsoup html-parsing lxml 前端开发

如何在Python中分析格式不正确的HTML

我在使用lxml解析字符串之前使用uTidyLib a = tidy.parseString（html_code，options） dom = etree.fromstring（str（a））一个错误，似乎tidylib无法修复格式不正确的html。如何解析每个HTML文件而不会出现错误（仅解析可以解析的部分文件不被修复）？解决方案美丽的汤在无效/破坏的HTML ..

发布时间：2018-06-15 11:56:54 python html lxml 前端开发

lxml.html使用XPath和变量进行分析

我有这个HTML片段目录＃ ..

发布时间：2018-06-15 11:10:56 python html parsing web-scraping lxml 前端开发

用Lxml解析HTML

我需要帮助从lxml页面解析出一些文本。我尝试了美丽的和我正在解析的页面的HTML是如此的破碎，它不会工作。所以我已经转向lxml，但文档有点混乱，我希望有人能帮助我。这里是我试图解析的页面，我需要获取”附加信息“部分下的文本。请注意，我在这个网站上有很多页面需要解析，每个页面的html并不总是完全相同（可能包含一些额外的空“td”标签）。任何有关如何获得该文本的建议都将非常感激。 ..

发布时间：2018-06-15 10:20:47 python html parsing lxml 前端开发

如何匹配文本节点，然后使用XPath跟随父节点

我试图用XPath解析一些HTML。遵循下面的简化XML示例，我想匹配字符串'Text 1'，然后获取相关 content 节点的内容。文字1 我要的东西文字2 我 ..

发布时间：2018-06-15 10:19:59 python html xpath lxml 前端开发

使用python和lxml模块从html中删除所有javascript标签和样式标签

我使用 http://lxml.de/ 库解析html文档。到目前为止，我已经想出了如何从html文档中去除标签，但在该帖子中描述的方法会留下所有文本，剥离标签而不删除实际脚本。我还发现了lxml.html.clean.Cleaner的类引用 http： //lxml.de/api/lxml.html.clean.Cleaner-class.html ，但这清楚地表明了如何真正使用该类来清理文档。 ..

发布时间：2018-06-15 10:07:32 python html lxml 前端开发

在Python中解析HTML时获取位置信息

我试图找到一种方法来解析（可能格式错误的）Python中的HTML，并且如果满足一组条件，则将该文档的该部分与位置（行，列）一起输出。位置信息是什么让我在这里绊倒。并且要清楚，我不需要构建对象树。我只是想在原始文档中找到某些数据和它们的位置（想想拼写检查器，例如：在第x行第y列中的单词“foo”拼写错误）' 作为一个例子，我想要这样的东西（使用ElementTree的 Target API ..

发布时间：2018-06-14 20:16:17 python html parsing lxml html5lib 前端开发

使用lxml和请求进行HTML抓取会导致unicode错误

我尝试使用此处提供的HTML刮板。它为他们提供的例子工作正常。但是，当我尝试将其与网页，我收到这个错误 - 支持的。请不要声明使用字节输入或XML片段。我尝试了谷歌搜索，但找不到解决方案。我真的很感谢任何帮助。我想知道是否有方法使用Python将它复制为HTML。编辑： from lxml import html 导入请求 page = requests.get（'ht ..

发布时间：2018-06-14 19:14:46 python html unicode web-scraping lxml 前端开发

Python：如何将html打印到文件中

我使用 lxml.html 来生成一些HTML。我想漂亮地打印（缩进）我的最终结果到一个html文件。我是如何做到的？这是我尝试过的并且到现在为止（我对Python和lxml比较新）：将lxml.html作为lh 从lxml.html导入构建器导入为E sliderRoot = lh.Element（“div”，E. CLASS（“scroll”），style =“overf ..

发布时间：2018-06-13 17:34:22 python html lxml pretty-print 前端开发

为html表格提取lxml xpath

我有一个类似于以下的html文档：第>代码第名称 ..

发布时间：2018-06-13 15:53:33 python html xpath html-table lxml 前端开发

使用xmltree解析大型python xml

我有一个python脚本来分析巨大的xml文件（最大的一个是446 MB） try： parser = etree.XMLParser（encoding ='utf-8'） tree = etree.parse（os.path.join（srcDir，fileName），parser）$ b $ root root = tree.getroot（）除了Exception，e： pr ..

发布时间：2018-05-28 19:44:40 python xml grep lxml elementtree Python

在没有lxml的Google Appengine上使用python-amazon-product-api

可能重复：用于Python的Amazon API库？我想要使用python-amazon-product-api包装来访问Amazon API： http://pypi.python.org/pypi/python-amazon-product-api/ 不幸的是，它依赖于Google Appengine不支持的lxml。有谁知道解决方法？我只是想用API来做基 ..

发布时间：2018-05-03 19:38:20 python google-app-engine amazon lxml Python

openshift：无法为python应用程序安装lxml

我正在尝试Openshift，但我无法使用 lxml 部署python应用程序。以下是我的步骤，我只添加 lxml 要求。错误发生在我推送时。我能够ssh，所以我不认为这是连接问题。如果我不添加lxml要求，但添加了一些其他库，它可以工作。问题仅在于lxml。我认为这是因为它具有一些系统依赖性（我必须在ubuntu机器上运行此命令： sudo apt-get ins ..

发布时间：2018-04-27 21:14:28 python git openshift lxml Python

通过pip安装错误在virtualenv中安装lxml：命令'x86_64-linux-gnu-gcc'失败

/ usr / bin / ld在启动virtualenv并键入'pip install lxml'时，安装过程崩溃：无法找到-lz collect2：错误：ld返回1退出状态错误：命令'x86_64-linux-gnu-gcc'失败，退出状态1 解决方案您必须注意的错误是第一个“/ usr / bin / ld：找不到-lz“：这意味着你没有安装zlib-dev ..

发布时间：2018-04-21 10:30:59 python linux gcc virtualenv lxml 服务器开发

lxml相关内容