lxml相关内容

如何重写这个函数来实现OrderedDict?

我有以下函数,将XML文件解析为字典。 不幸的是,由于Python字典没有排序,我无法 我如何改变它,所以它输出一个有序的字典,反映的节点的原始顺序循环与'for'。 def simplexml_load_file(file): import collections from lxml import etree tree = etree.parse(file) ..
发布时间:2016-12-15 17:46:41 Python

字符编码在python中用'u2019'替换'

我已经尝试了很多方法来编码这个到最终结果“BACK RUSHIN”“,最重要的字符是正确的撇号'。 我想要一种方法来获得这个结果使用一些内置的函数Python有没有区分正常字符串和一个unicode字符串。 这是我用来检索字符串的代码: str(unicode(etree.tostring ('path')[0],method ='text',encoding ='utf-8'),er ..
发布时间:2016-11-19 14:27:17 Python

gcc lxml安装CentOS上的内部错误

我在 CentOS-6 上安装 lxml 时遇到了一些麻烦。我尝试过一些类似问题的解决方案,例如 pip install lxml错误或 Setup.py:在CentOS上使用Python2.6安装lxml ,但这些都不起作用。如何正确安装?发出后 , pip install lxml 日志是这样, 下载/解压lxml 对于包lxml运行setup.py eg ..
发布时间:2016-11-14 11:18:53 Python

传递LXML输出​​BeautifulSoup

我的下线code正常工作,但我无法通过LXML从urllib的传递网页BeautifulSoup。我使用的urllib为基本身份验证,然后限于lxml解析(它给出了我们需要刮特定页面的好成绩),然后以BeautifulSoup。 #!在/ usr /斌/蟒蛇 进口urllib.request里 进口了urllib.error 从IO StringIO的进口 从BS4进口BeautifulSoup ..
发布时间:2016-08-05 19:17:22 Python

如何从分裂树的HTML标签

这是我的HTML树 <李班=“TAF”>< H3>< A HREF =“26eOffer code%3DGSONESTP ----------- “ID =”PA1“> 花旗银行< B>信用卡< / B> - 节省超过5%的燃油| Citibank.co.in< / A> < / H3和GT;获得印度石油 ..
发布时间:2016-08-05 19:11:14 Python

请帮助使用BeautifulSoup解析这个HTML表并限于lxml的Python的方式

我已经搜索了很多关于BeautifulSoup有的建议LXML作为未来BeautifulSoup,而这是有道理的,我有一个艰难的时间如下表从网页上表的整个列表解析。 我与根据页面上的行数目不同,它是检查的时间感兴趣的三列。一个BeautifulSoup和lxml的解决方案非常AP preciated。这样我可以要求管理员在安装开发LXML。机器。 所需的输出: 网​​站上次访问上次加载 ht ..
发布时间:2016-08-05 19:06:14 Python

在App Engine上的Python LXML?

我可以使用在谷歌应用程序引擎蟒蛇LXML? (或者我必须使用美丽的汤?) 我已经用美丽的汤开始,但它似乎慢。我刚开始与来自其他网站的“屏幕抓取”数据的想法发挥到建立某种形式的“混搭”。 解决方案 修改:如果你的 AppEngine上,在 LXML 库 href=\"http://$c$c.google.com/appengine/docs/python/python27/newin27. ..
发布时间:2016-08-05 19:04:09 Python

对于多线程下载速度更快

我怎么能同时下载多个链接?我的下面工作,但只下载一次一个脚本,它是极其缓慢的。我无法弄清楚如何把多线程在我的脚本。 Python脚本: 从BeautifulSoup进口BeautifulSoup 进口lxml.html为html 进口里urlparse 进口操作系统,SYS 进口的urllib2 进口重打印(“下载和解析圣经......”) 根= html.parse(开放('links.ht ..
发布时间:2016-08-05 19:04:08 Python

Python的BeautifulSoup相当于限于lxml make_links_absolute

所以LXML有一个非常手功能:make_links_absolute: DOC = lxml.html.fromstring(some_html_page) doc.make_links_absolute(url_for_some_html_page) 和所有的文档链接现在是绝对的。有一个简单的等同于BeautifulSoup或者我只是需要通过向里urlparse通过它,规范它:汤= Be ..
发布时间:2016-08-05 19:03:46 Python

bs4.FeatureNotFound:找不到一棵树建设者您所要求的功能:LXML。你需要安装一个解析器库?

... 汤= BeautifulSoup(HTML,“LXML”) 文件“/Library/Python/2.7/site-packages/bs4/__init__.py”线152,在__init__ %“,”加盟(功能)) bs4.FeatureNotFound:找不到一棵树建设者您所要求的功能:LXML。你需要安装一个解析器库? 在我的终端上面的输出。我在Mac OS 10.7.x.我 ..
发布时间:2016-08-05 19:03:28 Python

解析来源$ C ​​$ C(Python)的做法:美丽的汤,LXML,html5lib区别?

我有一个大的HTML源代码code我想解析(〜200,000)线和我相当肯定有一些贯穿差格式。我一直在研究一些解析器,似乎美丽的汤,LXML,html5lib是最流行的。从阅读这个网站,它似乎是LXML最常用的和最快的,而美丽的汤是速度较慢,但​​占更多的错误和偏差。 我是美丽的汤文档, HTTP上有点糊涂:// WWW .crummy.com /软件/ BeautifulSoup / BS4 ..
发布时间:2016-08-05 18:58:22 Python

与BeautifulSoup或LXML.HTML WebScraping

我已经看到了一些网络广播和需要努力做到这一点帮助: 我一直在使用lxml.html。雅虎最近改变了网络结构。 目标页面; http://finance.yahoo.com/quote/ ?IBM /期权日期= 1469750400&放大器;跨=真 在使用Chrome的督察:我看到在数据 // * [@ ID =“主0 - 报价 - 代理”] /节/条/ DIV [2] /节/条/表 ..
发布时间:2016-08-05 18:57:39 Python

Python网络刮涉及的HTML标签与属性

我试图使Web刮板,将解析出版物的网页并提取作者。该网页的骨架结构是如下: < HTML和GT; <身体GT; < D​​IV ID =“容器”> < D​​IV ID =“内容”> <表> <&TBODY GT; &所述; TR> < TD类=“作者”> ####我想无论是设在这里### LT; / TD> < ..
发布时间:2016-08-05 18:55:17 Python