lxml 第35页 - IT屋-程序员软件开发技术分享社区

在解析大型XML文件时，如何处理Python的lxml中的XMLSyntaxError？

我试图通过Python的lxml库解析超过2GB的XML文件。不幸的是，XML文件没有一个告诉字符编码的行，所以我必须手动设置它。虽然遍历文件，但仍然有一些奇怪的字符会出现一段时间。我不知道如何确定行的字符编码，而且，lxml将从for循环的范围引发XMLSyntaxError。如何正确地捕捉这个错误，并正确处理？以下是一个简单的代码片段：从$ l code code $ e et ..

Python 3.4.0 - 'ascii'编解码器无法编码位置11-15中的字符：序号不在范围（128） - Unix 14.04

尝试使用urlib和lxml从网络中检索一些数据，我有一个错误，不知道如何解决它。 url ='http：//sum.in.ua/？swrd =автор' page = urllib.request.urlopen（url） / pre> 错误本身： UnicodeEncodeError：'ascii'编解码器不能编码位置11-15中的字符：序号不在范围（128 ..

发布时间：2017-08-16 20:49:38 python encoding utf-8 ascii lxml Python

解析XML文件获得UnicodeEncodeError（ElementTree）/ ValueError（lxml）

我向 CareerBuilder API 发送GET请求： import requests url =“http://api.careerbuilder.com/v1/jobsearch” payload = {'DeveloperKey'：'MY_DEVLOPER_KEY' 'JobTitle'：'Biologist'} r = requests.get（url，param ..

发布时间：2017-08-16 20:01:30 python encoding lxml elementtree python-requests Python

非ASCII字符的SyntaxError

我正在尝试解析包含一些非ASCII密码的xml，代码如下所示 from lxml import etree from lxml import objectify content = u' 订单日期：05/08/2013 12：24：28' mail.replace（' ..

发布时间：2017-08-16 19:24:06 python encoding xml-parsing lxml non-ascii-characters Python

Xpath vs DOM vs BeautifulSoup vs lxml vs other哪个是解析网页最快的方法？

我知道如何使用Python解析一个页面。我的问题是所有解析技术中最快的方法，其他方法有多快？我知道的解析技术是Xpath，DOM，BeautifulSoup，并使用找到 Python的方法。解决方案 http://blog.ianbicking.org/2008/03/30/python-html-parser - 性能/ ..

发布时间：2017-06-24 23:55:53 python dom xpath html-parsing lxml Python

使用xslt构建django模板文件

我有大约4,000个html文档，我试图使用xslt转换成django模板。我遇到的问题是，当我尝试在属性标签内部包含模板变量时，xslt会转义模板变量的“{”花括号; 我的xslt文件如下所示： ..

发布时间：2017-06-05 21:49:36 xslt django-templates escaping lxml 其他开发

lxml不使用django，scraperwiki

我正在通过伊利诺伊州大会网站上的一个django应用程序来删除一些pdf。在部署在我的桌面上，直到urllib2超时才能正常工作。当我尝试部署在我的Bluehost服务器上时，lxml部分的代码会抛出一个错误。任何帮助将不胜感激。导入scraperwiki 从bs4导入BeautifulSoup import urllib2 import lxml.etree import ..

发布时间：2017-05-31 22:25:11 django lxml scraperwiki 其他开发

解码Django和lxml中的问题

当我使用部署的Django应用程序版本时，我有一个lxml的奇怪问题。我使用lxml来解析从我的服务器获取的另一个HTML页面。这在我自己的计算机上在我的开发服务器上工作得很好，但是由于某种原因，它在服务器上给出了 UnicodeDecodeError 。（'utf8'，“\x85why hello there！”，0，1，'意外的代码字节'）我已经确定Apache（wi ..

发布时间：2017-05-30 16:56:48 python django utf-8 lxml decoding Python

尝试在max osx豹上安装lxml

CFLAGS =“$ CFLAGS - lgcrypt -fPIC“STATIC_DEPS = true easy_install-2.6 lxml 然而，在安装所有依赖关系后，我收到此错误消息一遍又一遍地： install-NRDNAB / lxml-2.3 / build / tmp / libxml2 / lib / pkgconfig“ / usr / b ..

发布时间：2017-05-30 04:33:49 python django unix lxml 服务器开发

使用python从gmail检索所有联系人

我正在使用django社交认证来检索Gmail中的联系人。获取授权没有任何问题。我做一个请求，然后我使用lxml来检索电子邮件地址。问题是它不显示每个联系人。例如，我可以检索30个联系人，而我的Gmail帐户有300多个联系人。这是我的观点： def get_email_google（request）： social = request.user.social_auth. ..

发布时间：2017-05-29 07:30:03 python django lxml django-socialauth Python

在virtualenv中安装lxml Ubuntu 12.10错误：命令'gcc'失败，退出状态4

尝试在Ubuntu 12.10 x64的虚拟机中运行“pip install lxml”时，我遇到以下错误。我有Python 2.7。我在这里看到有关相同问题的其他相关问题，并尝试安装python-dev，libxml2-dev和libxslt1-dev。从我提示命令的那一刻起，当出现错误时，请查看回溯。下载/解包lxml 运行setup.py egg_info for ..

发布时间：2017-05-27 23:17:36 python django gcc lxml Python

我如何映射到字典而不是列表？

我有以下功能，这是将lxml对象映射到字典的基本工作... from lxml import etree tree = etree.parse（'file.xml'） root = tree.getroot（） def xml_to_dict（el）： d = {} 如果el.text：打印'***写入标签作为字符串' d [el.tag] = el.text el ..

发布时间：2017-05-21 22:35:16 python xml list dictionary lxml Python

如何防止lxml.etree.HTML（数据）崩溃某些类型的数据？

我正在运行 etree.HTML（data），如下图所示，有许多不同的数据内容。然而，使用特定的数据 conent， lxml.etree.HTML 将不会解析它，而是进入无限循环并且消耗100％的CPU。有没有人知道这个数据究竟是什么导致的？更重要的是，我如何防止这种情况发生在无数的随机破损的数据？编辑：结果是，这是一个lxml版本2.7.8及以下的错误（至少）。更新到lxm ..

发布时间：2017-04-21 18:55:53 python html debugging lxml 前端开发

如何调试Python内存故障？

编辑：真的很感激帮助找到错误 - 但由于可能很难找到/复制，任何一般的调试帮助也将不胜感激！帮我自己帮忙！ =）编辑2：缩小范围，注释掉代码。编辑3：似乎lxml可能不是罪魁祸首，谢谢！完整的脚本是 here 。我需要去寻找参考。他们看起来像什么？编辑4：实际上，脚本停止（达到100％）， code> parse_og 其中的一部分。所以编辑3是假的 - 它必须是lxml。 ..

发布时间：2017-04-18 03:03:41 python debugging memory lxml Python

Python在一个循环中从Csv创建XML

我尝试从csv CSV创建xml文件： CatOne，CatTwo，CatThree ProdOne，ProdTwo，ProdThree ProductOne，ProductTwo，ProductThree 所需的XML： ProdOne ProdTw ..

发布时间：2017-02-24 18:59:10 python xml csv lxml Python

lxml：cssselect（）：AttributeError：'lxml.etree._Element'对象没有属性'cssselect'

有人可以解释为什么第一次调用 root.cssselect（）有效，而第二个失败？ from lxml.html import fromstring from lxml import etree html =' example ..

发布时间：2017-02-22 23:53:18 python css-selectors lxml Python

lxml cssselect解析

我有一个包含以下数据的文档： 1。一种驯养的食肉哺乳动物（Canis familiaris）与狐狸和狼相关，并在各种品种中繁殖。并且我想获得类中的所有内容 ds-list （不含和标签）。目前我的代码是 doc.cssselect ..

发布时间：2017-02-22 22:17:08 python html parsing css-selectors lxml 前端开发

在lxml中使用cssselect的XHTML命名空间问题

我有问题使用cssselect与XHTML（或XML与命名空间）。虽然文档说如何在csselect中使用命名空间我不明白它： cssselect命名空间我的输入XHTML字符串： ..

发布时间：2017-02-07 14:43:37 python css xhtml lxml xml-namespaces 前端开发

有没有一个优雅的方式来计数标签元素在xml文件中使用python中的lxml？

我可以读取xml文件的内容到一个字符串，并使用字符串操作来实现这一点，但我想有一个更优雅的方式来做到这一点。因为我没有找到一个线索在docus，我在这里sking：给定一个xml（见下文）文件，如何计数xml标签，我们假设每个作者只出现一次。 $ b $ b Tim Eva ..

发布时间：2017-01-12 18:31:54 python xml tags count lxml Python

比较两个XML文件，而不考虑它们的顺序

我目前正在一个python项目，并停留在一个小问题与使用python比较两个XML文件。现在假设我们有两个xml文件：一个文件： ..

发布时间：2016-12-21 23:51:40 python xml comparison lxml Python

lxml相关内容