beautifulsoup 第121页 - IT屋-程序员软件开发技术分享社区

UNI $ C $岑codeError：“字符映射”codeC无法连接code字

我想刮一个网站，但它给我一个错误。我用下面的code：进口urllib.request里从BS4进口BeautifulSoupGET = urllib.request.urlopen（“https://www.website.com/”） HTML = get.read（）汤= BeautifulSoup（HTML）打印（汤）和我得到了以下错误：文件“C：\\ Python34 \ ..

发布时间：2016-08-05 18:53:46 python beautifulsoup urllib Python

.string和的.text BeautifulSoup的区别

我发现了一些奇怪的关于使用BeautifulSoup时，找不到任何文件来支持这个，所以我想在这里问了。假设我们有一个标签，如这些，我们已经与BS解析：＆LT; TD＆GT;有的表数据＆LT; / TD＆GT; ＆LT; TD＆GT;＆LT; / TD＆GT; Navigating~~V树并的搜索树。从上 .string 文档 $ C>，我们可以看到，如果HTML是这样的，＆LT; ..

发布时间：2016-08-05 18:53:44 python beautifulsoup Python

如何安装美丽的汤4在Windows 2.7蟒

我的Windows Vista与Python 2.7。我想安装BeautifulSoup 4，但显然我不能只通过将文件复制到站点包目录中安装美味的汤。我必须安装点子，然后运行在命令提示符下一些命令。你能引导我通过一步一步来。我真是一个小白这样使它非常简单。在此先感谢解决方案您不要需要 PIP 安装美丽的汤 - 你可以的只是下载并运行蟒蛇的setup.py安装从已在（假设你已 ..

发布时间：2016-08-05 18:53:40 python html parsing beautifulsoup 前端开发

如何找到类元素

我在用Beautifulsoup“class”属性的麻烦解析HTML元素。在code看起来像这样汤= BeautifulSoup（SDATA） mydivs = soup.findAll（'DIV'）在mydivs格：如果（DIV [“阶级”] ==“stylelistrow”）：打印格我得到“后，”在同一行一个错误的脚本完成。文件“./beautiful ..

发布时间：2016-08-05 18:53:34 python html beautifulsoup 前端开发

BeautifulSoup的findAll（）给出多个类？

我想从网站刮项的列表，和preserve的顺序，它们在psented $ P $。这些项在表组织的，但它们可以是两个不同的类中的一个（排名不分先后）。有什么办法来提供多个类，并有BeautifulSoup4找到它在任何给定的班？所有项目我要做到这一点code做什么，除了preserve项目的顺序，因为它是在源$ C $ C：项目= soup.findAll（真，{'类'：'cl ..

发布时间：2016-08-05 18:53:31 python html beautifulsoup html-parsing 前端开发

如何从HTML中使用BeautifulSoup剥离注释标签？

我一直在玩BeautifulSoup，这是伟大的。我的最终目标是尝试，只是从一个页面中的文本。我只是想从正文文本，具有特殊的情况下拿到冠军和/或ALT从＆LT属性; A＆GT; 或＆LT; IMG＆GT; 标记。到目前为止，我有这个 EDITED＆安培;更新的当前code ：汤= BeautifulSoup（页）评论= soup.findAll（文=拉姆达文本：isinstance（文 ..

发布时间：2016-08-05 18:53:28 python beautifulsoup Python

如何找到与美丽的汤特定的文本标签？

我有以下的HTML（标记为\\ n换行符）： ... ＆所述; TR＆GT; ＆LT; TD类=“POS”＆GT; \\ n “一些文字：”\\ n ＆LT; BR＆GT; \\ n ＆LT;强＆GT;有的价值和LT; / STRONG＆GT; \\ n ＆LT; / TD＆GT; ＆LT; / TR＆GT; ＆所述; TR＆GT; ＆LT; T ..

发布时间：2016-08-05 18:53:27 python beautifulsoup Python

HTML实体codeS为文本

有谁知道在Python中一个简单的方法将字符串转换与HTML实体codeS（如＆放大器; LT; ＆放大器;放大器; ），以一个正常的字符串（例如＆LT;＆安培;）？ cgi.escape（）将难逃字符串（很差），但没有 UNESCAPE（）。解决方案的HTMLParser 在标准功能图书馆。这是不幸的是，没有证件：＆GT;＆GT;＆GT;进口的HTMLParser ＆GT;＆G ..

发布时间：2016-08-05 18:53:24 python html beautifulsoup 前端开发

我怎样才能获得文本出来一个＆LT; DT＆GT;跨度＆gt;在一个与所述标签;内？

我想从里面＆LT提取文本; DT＆GT; 带标签的＆LT;跨度＆GT; 里面的www.uszip.com：下面是什么，我试图让一个例子：＆LT; DT＆GT;国土面积与LT; BR＆GT;＆LT;跨度类=“STYPE”＆GT;（平方英里）LT; / SPAN＆GT;＆LT; / DT＆GT; ＆LT; DD＆GT;及14.28 LT; / DD＆GT; 我想要得到的 14.28 ..

发布时间：2016-08-05 18:53:16 python web-scraping beautifulsoup Python

PyQt的类不工作的第二个用途

我使用的PyQt完全加载一个页面（包括JS），并用美丽的汤把它的内容。做工精细的第一次迭代，但之后，它崩溃。我没有大的知识Python和PyQt的中甚至更少，所以任何帮助是非常欢迎的。从 ..

发布时间：2016-08-05 18:53:14 python python-3.x beautifulsoup pyqt4 Python

美丽的汤的findAll doen't它们全部找到

我试图解析网站，并获得与BeautifulSoup.findAll一些信息，但它不容易找到他们所有的..我使用python3 在code是这个＃！的/ usr / bin中/ python3从BS4进口BeautifulSoup 从urllib.request里进口的urlopen页=的urlopen（“http://mangafox.me/directory/”）＃打印（page.rea ..

发布时间：2016-08-05 18:53:11 python python-3.x beautifulsoup findall Python

美丽的汤不能找到一个CSS类，如果对象具有其他类，也

如果一个页面有＆LT; DIV CLASS =“1级”＆GT; 和＆LT; p类=“1级”＆GT; ，那么 soup.findAll（真，'1级'）会找到他们。如果有＆LT; p =类“class1的类class2”＆GT; ，虽然，它不会被发现。我如何找到与某一类的所有对象，无论他们是否有其他类，也？解决方案万一有人遇到这个问题。 BeautifulSoup现在支持这样的： ..

发布时间：2016-08-05 18:53:08 python screen-scraping beautifulsoup Python

BeautifulSoup越来越HREF

我有以下汤：＆LT; A HREF =“SOME_URL”＆gt;接下来＆LT; / A＆GT; ＆LT;跨度类=“类”＆GT; ...＆LT; / SPAN＆GT; 从这个我想提取的HREF，“SOME_URL” 我能做到这一点，如果我只有一个标签，但这里有两个标签。我还可以得到文字“下一步”但是这不是我想要的。此外，有没有什么地方有例子API的一个很好的说明。我使用标准文档，但我正 ..

发布时间：2016-08-05 18:53:04 python tags beautifulsoup Python

Python和BeautifulSoup编码问题

我正在写使用BeautifulSoup使用Python履带，一切都进行得顺顺当当，直到我遇到了这个网站： http://www.elnorte.ec/ 我得到的内容与要求库： R = requests.get（'http://www.elnorte.ec/'）内容= r.content 如果我在这一点上做内容可变的打印，所有的西班牙特殊字符似乎是工作的罚款。但是，一旦我试着喂内容变量 ..

发布时间：2016-08-05 18:53:01 python unicode utf-8 beautifulsoup Python

删除标记使用BeautifulSoup但保留其内容

目前我有code，做这样的事情：汤= BeautifulSoup（值）在soup.findAll（真）标签：如果tag.name不VALID_TAGS： tag.extract（） soup.renderContents（）除了我不想扔掉无效标签里面的内容。我该如何摆脱标签，但是调用soup.renderContents时保持里面的内容（）？解决方案我用 ..

发布时间：2016-08-05 18:52:57 python beautifulsoup Python

我可以删除脚本标签与BeautifulSoup？

可以编写脚本代码和所有其内容从HTML中删除与BeautifulSoup，还是必须使用正防爆pressions或别的东西吗？解决方案＆GT;＆GT;＆GT;汤= BeautifulSoup（'＆LT;脚本＆gt;一种＆LT; / SCRIPT＆GT;＆粑粑LT;脚本＆GT; B＆LT; / SCRIPT＆GT;'）＆GT;＆GT;＆GT; [s.extract（）对于s的汤（'脚本' ..

发布时间：2016-08-05 18:52:54 python html beautifulsoup 前端开发

我为什么会用BeautifulSoup和IDLE一个递归错误？

我下面的教程来尝试学习如何使用BeautifulSoup。我想一个HTML页面我下载上删除的URL的名称。我有这一点伟大的工作。从BS4进口BeautifulSoup汤= BeautifulSoup（开放（“43-congress.html”））final_link = soup.p.a final_link.decompose（）链接= soup.find_all（'A'）在链接的链接： ..

发布时间：2016-08-05 18:52:51 python beautifulsoup python-idle Python

BeautifulSoup复方类名称搜索时返回空列表

BeautifulSoup使用正则表达式由复合类名称搜索时返回空列表。例如：进口重从BS4进口BeautifulSoupBS = “”“ ＆LT;一类=“名单name692的”href =“www.example.com”，“物实施例文字＆lt; / A＆GT; “”“bsObj = BeautifulSoup（BS）＃这个返回类 found_elements = ..

发布时间：2016-08-05 18:52:48 python regex python-2.7 beautifulsoup html-parsing Python

美丽的汤4 find_all没有找到链接，美味的汤发现3

我注意到一个非常恼人的错误：BeautifulSoup4（包： BS4 ）经常发现比previous版本较少标签（包： BeautifulSoup ）。下面是该问题的一个实例reproductible：进口要求进口BS4 进口BeautifulSoupR = requests.get（'HTTP：//word$p$pss.org/download/release-archive/'） S ..

发布时间：2016-08-05 18:52:42 python web web-scraping beautifulsoup Python

我们可以使用XPath与BeautifulSoup？

我使用BeautifulSoup刮一个网址，我有以下code 进口的urllib 进口的urllib2 从BeautifulSoup进口BeautifulSoupURL =“http://www.example.com/servlet/av/ResultTemplate=AVResult.html” REQ = urllib2.Request（URL）响应= urllib2.urlopen ..

发布时间：2016-08-05 18:52:41 python xpath beautifulsoup urllib Python

beautifulsoup相关内容