lxml相关内容

如何通过匹配字符串在Python中提取父级html标记

我需要通过匹配html中的字符串来在html中提取父标签。 (即) 我有很多原始的html资源。每个来源都包含带有一些字符的文本值“VIN: * ”**。这个文本值(VIN: * )在各个源文件中以各种格式放置,例如“ ”,“ ”等。 然后,我需要提取所有值以及“VIN: * ”字符串。这意味着我需要得到它的父标签。 例如, ..
发布时间:2018-06-21 16:35:13 前端开发

如何使用xpath& amp; amp;限于lxml?

我使用lxml的xpath函数来检索网页的某些部分。我试图获取 标签的内容,其中包含自己的html标签。如果我使用 // td [@ valign =“top”] / p [1] / font [@ face =“ verdana“和@color =”#ffffff“和@ size =”2“] (code> ..
发布时间:2018-06-21 13:30:24 前端开发

如何使用lxml解析HTML表格与变量列表?

我试图用lxml解析一个HTML表格。虽然 rows = outhtml.xpath('// tr / td / span [@ class =“boldred”] / text()')取得结果,我试图仅当我的配置文件中的变量开始时才提取列内容。例如,如果 以'Street 1'开头,那么我想抓住 标记的内容。这样,我可以有一个元组的元组(它处理None值),然 ..
发布时间:2018-06-20 16:11:57 前端开发

快速有效的方法来解析破碎的HTML?

目前lxml是我的选择,我知道它提供了一个界面对于libxml2的恢复模式,但我对结果并不满意。对于一些特定的HTML页面,我发现BeautifulSoup可以找到更好的结果(例如: http://fortune.com/2015/11/10/vw-scandal-volkswagen-gift-cards/ ,这个包含 标签,其中lxml / libxml2无法更正)。但是,问 ..
发布时间:2018-06-19 22:06:32 前端开发

使用python解析HTML表格--HTMLparser或lxml

我有一个html页面,它包含一个表格&我想获取td中的所有值,tr在该表中。 我尝试过使用beautifulsoup,但现在我想用python处理lxml或HML分析器。 我附上了这个例子。 我想以元组列表的形式获取值。 [ [(值为2050年1月,主题 - part1-sub part1-subject1的值),(2050 feb的值,主题 - part1- (s ..
发布时间:2018-06-19 21:24:57 前端开发

将lxml设置为默认的BeautifulSoup分析器

我正在开发一个网络抓取项目,并且遇到了速度问题。为了解决它,我想用lxml代替html.parser作为BeautifulSoup的解析器。我已经能够做到这一点: soup = bs4.BeautifulSoup(html,'lxml') 但我不想重复键入'lxml'每次我打电话给BeautifulSoup。有没有一种方法可以设置哪个解析器在我的程序开始时使用一次?解析方案 ..
发布时间:2018-06-19 21:19:33 前端开发

如何在Python中分析格式不正确的HTML

我在使用lxml解析字符串之前使用uTidyLib a = tidy.parseString(html_code,options) dom = etree.fromstring(str(a)) 一个错误,似乎tidylib无法修复格式不正确的html。 如何解析每个HTML文件而不会出现错误(仅解析可以解析的部分文件不被修复)? 解决方案 美丽的汤在无效/破坏的HTML ..
发布时间:2018-06-15 11:56:54 前端开发

用Lxml解析HTML

我需要帮助从lxml页面解析出一些文本。我尝试了美丽的和我正在解析的页面的HTML是如此的破碎,它不会工作。所以我已经转向lxml,但文档有点混乱,我希望有人能帮助我。 这里是我试图解析的页面,我需要获取”附加信息“部分下的文本。请注意,我在这个网站上有很多页面需要解析,每个页面的html并不总是完全相同(可能包含一些额外的空“td”标签)。任何有关如何获得该文本的建议都将非常感激。 ..
发布时间:2018-06-15 10:20:47 前端开发

使用python和lxml模块从html中删除所有javascript标签和样式标签

我使用 http://lxml.de/ 库解析html文档。到目前为止,我已经想出了如何从html文档中去除标签,但在该帖子中描述的方法会留下所有文本,剥离标签而不删除实际脚本。我还发现了lxml.html.clean.Cleaner的类引用 http: //lxml.de/api/lxml.html.clean.Cleaner-class.html ,但这清楚地表明了如何真正使用该类来清理文档。 ..
发布时间:2018-06-15 10:07:32 前端开发

在Python中解析HTML时获取位置信息

我试图找到一种方法来解析(可能格式错误的)Python中的HTML,并且如果满足一组条件,则将该文档的该部分与位置(行,列)一起输出。位置信息是什么让我在这里绊倒。并且要清楚,我不需要构建对象树。我只是想在原始文档中找到某些数据和它们的位置(想想拼写检查器,例如:在第x行第y列中的单词“foo”拼写错误)' 作为一个例子,我想要这样的东西(使用ElementTree的 Target API ..
发布时间:2018-06-14 20:16:17 前端开发

使用lxml和请求进行HTML抓取会导致unicode错误

我尝试使用此处提供的HTML刮板。它为他们提供的例子工作正常。但是,当我尝试将其与网页,我收到这个错误 - 支持的。请不要声明使用字节输入或XML片段。 我尝试了谷歌搜索,但找不到解决方案。我真的很感谢任何帮助。我想知道是否有方法使用Python将它复制为HTML。 编辑: from lxml import html 导入请求 page = requests.get('ht ..
发布时间:2018-06-14 19:14:46 前端开发

Python:如何将html打印到文件中

我使用 lxml.html 来生成一些HTML。我想漂亮地打印(缩进)我的最终结果到一个html文件。我是如何做到的? 这是我尝试过的并且到现在为止(我对Python和lxml比较新): 将lxml.html作为lh 从lxml.html导入构建器导入为E sliderRoot = lh.Element(“div”,E. CLASS(“scroll”),style =“overf ..
发布时间:2018-06-13 17:34:22 前端开发

使用xmltree解析大型python xml

我有一个python脚本来分析巨大的xml文件(最大的一个是446 MB) try: parser = etree.XMLParser(encoding ='utf-8') tree = etree.parse(os.path.join(srcDir,fileName),parser)$ b $ root root = tree.getroot() 除了Exception,e: pr ..
发布时间:2018-05-28 19:44:40 Python

openshift:无法为python应用程序安装lxml

我正在尝试Openshift,但我无法使用 lxml 部署python应用程序。 以下是我的步骤,我只添加 lxml 要求。错误发生在我推送时。 我能够ssh,所以我不认为这是连接问题。 如果我不添加lxml要求,但添加了一些其他库,它可以工作。 问题仅在于lxml。我认为这是因为它具有一些系统依赖性(我必须在ubuntu机器上运行此命令: sudo apt-get ins ..
发布时间:2018-04-27 21:14:28 Python

通过pip安装错误在virtualenv中安装lxml:命令'x86_64-linux-gnu-gcc'失败

/ usr / bin / ld在启动virtualenv并键入'pip install lxml'时,安装过程崩溃:无法找到-lz collect2:错误:ld返回1退出状态 错误:命令'x86_64-linux-gnu-gcc'失败,退出状态1 解决方案 您必须注意的错误是第一个“/ usr / bin / ld:找不到-lz“:这意味着你没有安装zlib-dev ..
发布时间:2018-04-21 10:30:59 服务器开发