lxml相关内容

在解析大型XML文件时,如何处理Python的lxml中的XMLSyntaxError?

我试图通过Python的lxml库解析超过2GB的XML文件。不幸的是,XML文件没有一个告诉字符编码的行,所以我必须手动设置它。虽然遍历文件,但仍然有一些奇怪的字符会出现一段时间。 我不知道如何确定行的字符编码,而且,lxml将从for循环的范围引发XMLSyntaxError。如何正确地捕捉这个错误,并正确处理?以下是一个简单的代码片段: 从$ l code code $ e et ..
发布时间:2017-08-16 22:43:14 Python

Python 3.4.0 - 'ascii'编解码器无法编码位置11-15中的字符:序号不在范围(128) - Unix 14.04

尝试使用urlib和lxml从网络中检索一些数据,我有一个错误,不知道如何解决它。 url ='http://sum.in.ua/?swrd =автор' page = urllib.request.urlopen(url) / pre> 错误本身: UnicodeEncodeError:'ascii'编解码器不能编码位置11-15中的字符:序号不在范围(128 ..
发布时间:2017-08-16 20:49:38 Python

lxml不使用django,scraperwiki

我正在通过伊利诺伊州大会网站上的一个django应用程序来删除一些pdf。在部署在我的桌面上,直到urllib2超时才能正常工作。当我尝试部署在我的Bluehost服务器上时,lxml部分的代码会抛出一个错误。任何帮助将不胜感激。 导入scraperwiki 从bs4导入BeautifulSoup import urllib2 import lxml.etree import ..
发布时间:2017-05-31 22:25:11 其他开发

解码Django和lxml中的问题

当我使用部署的Django应用程序版本时,我有一个lxml的奇怪问题。我使用lxml来解析从我的服务器获取的另一个HTML页面。这在我自己的计算机上在我的开发服务器上工作得很好,但是由于某种原因,它在服务器上给出了 UnicodeDecodeError 。 ('utf8',“\x85why hello there!”,0,1,'意外的代码字节') 我已经确定Apache(wi ..
发布时间:2017-05-30 16:56:48 Python

尝试在max osx豹上安装lxml

CFLAGS =“$ CFLAGS - lgcrypt -fPIC“STATIC_DEPS = true easy_install-2.6 lxml 然而,在安装所有依赖关系后,我收到此错误消息一遍又一遍地: install-NRDNAB / lxml-2.3 / build / tmp / libxml2 / lib / pkgconfig“ / usr / b ..
发布时间:2017-05-30 04:33:49 服务器开发

使用python从gmail检索所有联系人

我正在使用django社交认证来检索Gmail中的联系人。获取授权没有任何问题。我做一个请求,然后我使用lxml来检索电子邮件地址。 问题是它不显示每个联系人。例如,我可以检索30个联系人,而我的Gmail帐户有300多个联系人。 这是我的观点: def get_email_google(request): social = request.user.social_auth. ..
发布时间:2017-05-29 07:30:03 Python

在virtualenv中安装lxml Ubuntu 12.10错误:命令'gcc'失败,退出状态4

尝试在Ubuntu 12.10 x64的虚拟机中运行“pip install lxml”时,我遇到以下错误。我有Python 2.7。 我在这里看到有关相同问题的其他相关问题,并尝试安装python-dev,libxml2-dev和libxslt1-dev。 从我提示命令的那一刻起,当出现错误时,请查看回溯。 下载/解包lxml 运行setup.py egg_info for ..
发布时间:2017-05-27 23:17:36 Python

我如何映射到字典而不是列表?

我有以下功能,这是将lxml对象映射到字典的基本工作... from lxml import etree tree = etree.parse('file.xml') root = tree.getroot() def xml_to_dict(el): d = {} 如果el.text: 打印'***写入标签作为字符串' d [el.tag] = el.text el ..
发布时间:2017-05-21 22:35:16 Python

如何防止lxml.etree.HTML(数据)崩溃某些类型的数据?

我正在运行 etree.HTML(data),如下图所示,有许多不同的数据内容。然而,使用特定的数据 conent, lxml.etree.HTML 将不会解析它,而是进入无限循环并且消耗100%的CPU。 有没有人知道这个数据究竟是什么导致的?更重要的是,我如何防止这种情况发生在无数的随机破损的数据? 编辑:结果是,这是一个lxml版本2.7.8及以下的错误(至少 )。更新到lxm ..
发布时间:2017-04-21 18:55:53 前端开发

如何调试Python内存故障?

编辑:真的很感激帮助找到错误 - 但由于可能很难找到/复制,任何一般的调试帮助也将不胜感激!帮我自己帮忙! =) 编辑2:缩小范围,注释掉代码。 编辑3:似乎lxml可能不是罪魁祸首,谢谢!完整的脚本是 here 。我需要去寻找参考。他们看起来像什么? 编辑4:实际上,脚本停止(达到100%), code> parse_og 其中的一部分。所以编辑3是假的 - 它必须是lxml。 ..
发布时间:2017-04-18 03:03:41 Python

lxml cssselect解析

我有一个包含以下数据的文档: 1。 一种驯养的食肉哺乳动物 (Canis familiaris) 与狐狸和狼相关,并在各种品种中繁殖。 并且我想获得类中的所有内容 ds-list (不含 和 标签)。目前我的代码是 doc.cssselect ..
发布时间:2017-02-22 22:17:08 前端开发

有没有一个优雅的方式来计数标签元素在xml文件中使用python中的lxml?

我可以读取xml文件的内容到一个字符串,并使用字符串操作来实现这一点,但我想有一个更优雅的方式来做到这一点。因为我没有找到一个线索在docus,我在这里sking: 给定一个xml(见下文)文件,如何计数xml标签, 我们假设每个作者只出现一次。 $ b $ b Tim Eva ..
发布时间:2017-01-12 18:31:54 Python