lxml.html - IT屋-程序员软件开发技术分享社区

是否为lxml键入提示？

Python新手，具有静态类型语言背景。我想要https://lxml.de的类型提示，只是为了便于开发(mypy标记问题和建议方法会很好！) 据我所知，这是一个python2.0模块，没有类型。目前，我已经使用https://mypy.readthedocs.io/en/stable/stubgen.html创建存根类型定义并填充“any”--我正在使用的更多信息类型，但真的太老套了。是否 ..

发布时间：2022-04-01 14:24:26 python-3.x types lxml mypy lxml.html 其他开发

如何在lxml.html的树中插入HTML元素

webpage content ..

发布时间：2022-04-01 14:15:39 python lxml lxml.html Python

Python Xpath:lxml.etree.XPathEvalError:谓词无效

我正在尝试学习如何抓取网页，在教程中我使用下面的代码抛出了这个错误: lxml.etree.XPathEvalError:谓词无效我查询的网站是(不要评判我，它是在培训视频中使用的:/):https://itunes.apple.com/us/app/candy-crush-saga/id553834731 导致错误的 xpath 字符串在这里: links = tree.xpath ..

发布时间：2021-09-24 18:53:10 python xpath web-scraping python-requests lxml.html Python

LXML无法检索错误为“无法加载HTTP资源"的网页.

嗨，所以我尝试在浏览器中打开下面的链接，它可以工作，但在代码中不起作用.该链接实际上是新闻站点的组合，然后是从另一个文件url.txt调用的文章扩展名的组合.我在一个普通的网站(www.google.com)上尝试了该代码，并且效果很好. import sys import MySQLdb from mechanize import Browser from bs4 import Beaut ..

发布时间：2020-05-04 08:39:58 python lxml lxml.html Python

使Urllib2在页面之间移动

我正在尝试刮除 http://targetstudy.com/school/schools-in -chhattisgarh.html 我正在使用lxml.html，urllib2 我想以某种方式，通过单击下一页链接来关注所有页面并下载其源代码. 并使其停在最后一页. 下一页的href是['?recNo = 25'] 有人可以建议如何做吗，预先感谢. 这是我的代码， ..

发布时间：2020-05-04 08:39:56 python-2.7 urllib2 lxml lxml.html 其他开发

如何替换lxml中的元素?

我有一个文本(CRM用户输入的数据)Web服务，该文本返回“可怕的格式".我在使用数据之前使用python进行了过滤，但是在删除换行符(br)时，我也删除了文本.代码如下: description = ''' text............... ..

发布时间：2020-05-04 08:39:13 python lxml elementtree lxml.html Python

Python:将原始字符串转换为字节字符串，而无需添加转义符

我有一个字符串: 'BZh91AY&SYA\xaf\x82\r\x00\x00\x01\x01\x80\x02\xc0\x02\x00 \x00!\x9ah3M\x07 ..

发布时间：2020-05-04 08:33:19 python python-3.x lxml lxml.html bz2 Python

使用xpath搜寻新的ESPN网站[Python]

我正在尝试刮擦新的ESPN NBA计分板.这是一个简单的脚本，该脚本应返回15年4月5日所有游戏的开始时间: import requests import lxml.html from lxml.cssselect import CSSSelector doc = lxml.html.fromstring(requests.get('http://scores.espn.go.com/n ..

发布时间：2020-05-04 08:27:50 python xpath web-scraping lxml lxml.html Python

解析lxml中的html主体片段

title ..

发布时间：2020-05-04 08:25:20 python html lxml lxml.html pyquery 前端开发

lxml.html.读取文件时出错；无法加载外部实体

我正在尝试使用lxml.html进行解析，从YouTube获取电影预告片的网址: from lxml import html import lxml.html from lxml.etree import XPath def get_youtube_trailer(selected_movie): # Create the url for the YouTube query in orde ..

发布时间：2020-05-04 08:24:43 parsing lxml lxml.html 其他开发

我如何保存< br>作为带有lxml.html text_content()或等效名称的换行符?

从lxml元素中提取文本内容时，我想将标记保留为\n. 示例代码: fragment = ' This is a text node. This is another text node. And a child element.Another child, with two text nodes ..

发布时间：2020-05-04 08:21:50 python lxml lxml.html Python

为什么lxml.html有时吞下/删除空白而不是保留空白?

给出以下代码，可以合理地期望将输入lxml的几乎完全相同的HTML字符串吐出来. from lxml import html HTML_TEST_STRING = r""" abc def ghi jkl mno pqr """ par ..

发布时间：2020-04-30 10:51:47 lxml libxml2 lxml.html 其他开发

在BeautifulSoup中扩展CSS选择器

问题： BeautifulSoup 提供了非常有限的支持 CSS选择器。例如，唯一支持的伪类是 nth-of-type ，它只能接受数值 - 甚至可以扩展 BeautifulSoup CSS选择器或允许其在内部使用 lxml.cssselect 作为底层CSS选择机制？让我们来看一个示例问题/用例。只找到以下HTML中的偶数行： ¥b ..

发布时间：2017-02-22 23:04:02 python css-selectors beautifulsoup html-parsing lxml.html Python

lxml.html相关内容