lxml相关内容
我试图通过Python的lxml库解析超过2GB的XML文件。不幸的是,XML文件没有一个告诉字符编码的行,所以我必须手动设置它。虽然遍历文件,但仍然有一些奇怪的字符会出现一段时间。 我不知道如何确定行的字符编码,而且,lxml将从for循环的范围引发XMLSyntaxError。如何正确地捕捉这个错误,并正确处理?以下是一个简单的代码片段: 从$ l code code $ e et
..
尝试使用urlib和lxml从网络中检索一些数据,我有一个错误,不知道如何解决它。 url ='http://sum.in.ua/?swrd =автор' page = urllib.request.urlopen(url) / pre> 错误本身: UnicodeEncodeError:'ascii'编解码器不能编码位置11-15中的字符:序号不在范围(128
..
我向 CareerBuilder API 发送GET请求: import requests url =“http://api.careerbuilder.com/v1/jobsearch” payload = {'DeveloperKey':'MY_DEVLOPER_KEY' 'JobTitle':'Biologist'} r = requests.get(url,param
..
我正在尝试解析包含一些非ASCII密码的xml, 代码如下所示 from lxml import etree from lxml import objectify content = u'
订单日期:05/08/2013 12:24:28' mail.replace('
..
我知道如何使用Python解析一个页面。我的问题是所有解析技术中最快的方法,其他方法有多快? 我知道的解析技术是Xpath,DOM,BeautifulSoup,并使用找到 Python的方法。 解决方案 http://blog.ianbicking.org/2008/03/30/python-html-parser - 性能/
..
我有大约4,000个html文档,我试图使用xslt转换成django模板。我遇到的问题是,当我尝试在属性标签内部包含模板变量时,xslt会转义模板变量的“{”花括号; 我的xslt文件如下所示:
..
我正在通过伊利诺伊州大会网站上的一个django应用程序来删除一些pdf。在部署在我的桌面上,直到urllib2超时才能正常工作。当我尝试部署在我的Bluehost服务器上时,lxml部分的代码会抛出一个错误。任何帮助将不胜感激。 导入scraperwiki 从bs4导入BeautifulSoup import urllib2 import lxml.etree import
..
当我使用部署的Django应用程序版本时,我有一个lxml的奇怪问题。我使用lxml来解析从我的服务器获取的另一个HTML页面。这在我自己的计算机上在我的开发服务器上工作得很好,但是由于某种原因,它在服务器上给出了 UnicodeDecodeError 。 ('utf8',“\x85why hello there!”,0,1,'意外的代码字节') 我已经确定Apache(wi
..
CFLAGS =“$ CFLAGS - lgcrypt -fPIC“STATIC_DEPS = true easy_install-2.6 lxml 然而,在安装所有依赖关系后,我收到此错误消息一遍又一遍地: install-NRDNAB / lxml-2.3 / build / tmp / libxml2 / lib / pkgconfig“ / usr / b
..
我正在使用django社交认证来检索Gmail中的联系人。获取授权没有任何问题。我做一个请求,然后我使用lxml来检索电子邮件地址。 问题是它不显示每个联系人。例如,我可以检索30个联系人,而我的Gmail帐户有300多个联系人。 这是我的观点: def get_email_google(request): social = request.user.social_auth.
..
尝试在Ubuntu 12.10 x64的虚拟机中运行“pip install lxml”时,我遇到以下错误。我有Python 2.7。 我在这里看到有关相同问题的其他相关问题,并尝试安装python-dev,libxml2-dev和libxslt1-dev。 从我提示命令的那一刻起,当出现错误时,请查看回溯。 下载/解包lxml 运行setup.py egg_info for
..
我有以下功能,这是将lxml对象映射到字典的基本工作... from lxml import etree tree = etree.parse('file.xml') root = tree.getroot() def xml_to_dict(el): d = {} 如果el.text: 打印'***写入标签作为字符串' d [el.tag] = el.text el
..
我正在运行 etree.HTML(data),如下图所示,有许多不同的数据内容。然而,使用特定的数据 conent, lxml.etree.HTML 将不会解析它,而是进入无限循环并且消耗100%的CPU。 有没有人知道这个数据究竟是什么导致的?更重要的是,我如何防止这种情况发生在无数的随机破损的数据? 编辑:结果是,这是一个lxml版本2.7.8及以下的错误(至少 )。更新到lxm
..
编辑:真的很感激帮助找到错误 - 但由于可能很难找到/复制,任何一般的调试帮助也将不胜感激!帮我自己帮忙! =) 编辑2:缩小范围,注释掉代码。 编辑3:似乎lxml可能不是罪魁祸首,谢谢!完整的脚本是 here 。我需要去寻找参考。他们看起来像什么? 编辑4:实际上,脚本停止(达到100%), code> parse_og 其中的一部分。所以编辑3是假的 - 它必须是lxml。
..
我尝试从csv CSV创建xml文件: CatOne,CatTwo,CatThree ProdOne,ProdTwo,ProdThree ProductOne,ProductTwo,ProductThree 所需的XML: ProdOne ProdTw
..
有人可以解释为什么第一次调用 root.cssselect()有效,而第二个失败? from lxml.html import fromstring from lxml import etree html =' example
..
我有一个包含以下数据的文档:
1。 一种驯养的食肉哺乳动物 (Canis familiaris) 与狐狸和狼相关,并在各种品种中繁殖。 并且我想获得类中的所有内容 ds-list (不含 和 标签)。目前我的代码是 doc.cssselect
..
我有问题使用cssselect与XHTML(或XML与命名空间)。虽然文档说如何在csselect中使用命名空间我不明白它: cssselect命名空间 我的输入XHTML字符串:
..
我可以读取xml文件的内容到一个字符串,并使用字符串操作来实现这一点,但我想有一个更优雅的方式来做到这一点。因为我没有找到一个线索在docus,我在这里sking: 给定一个xml(见下文)文件,如何计数xml标签, 我们假设每个作者只出现一次。 $ b $ b Tim Eva
..
我目前正在一个python项目,并停留在一个小问题与使用python比较两个XML文件。现在假设我们有两个xml文件: 一个文件:
..