beautifulsoup相关内容

.string和的.text BeautifulSoup的区别

我发现了一些奇怪的关于使用BeautifulSoup时,找不到任何文件来支持这个,所以我想在这里问了。 假设我们有一个标签,如这些,我们已经与BS解析: < TD>有的表数据< / TD> < TD>< / TD> Navigating~~V树并的搜索树。 从上 .string 文档 $ C>,我们可以看到,如果HTML是这样的,< ..
发布时间:2016-08-05 18:53:44 Python

如何安装美丽的汤4在Windows 2.7蟒

我的Windows Vista与Python 2.7。我想安装BeautifulSoup 4,但显然我不能只通过将文件复制到站点包目录中安装美味的汤。 我必须安装点子,然后运行在命令提示符下一些命令。 你能引导我通过一步一步来。我真是一个小白这样使它非常简单。 在此先感谢 解决方案 您不要需要 PIP 安装美丽的汤 - 你可以的只是下载并运行蟒蛇的setup.py安装从已在(假设你已 ..
发布时间:2016-08-05 18:53:40 前端开发

如何找到类元素

我在用Beautifulsoup“class”属性的麻烦解析HTML元素。在code看起来像这样 汤= BeautifulSoup(SDATA) mydivs = soup.findAll('DIV') 在mydivs格: 如果(DIV [“阶级”] ==“stylelistrow”): 打印格 我得到“后,”在同一行一个错误的脚本完成。 文件“./beautiful ..
发布时间:2016-08-05 18:53:34 前端开发

BeautifulSoup的findAll()给出多个类?

我想从网站刮项的列表,和preserve的顺序,它们在psented $ P $。这些项在表组​​织的,但它们可以是两个不同的类中的一个(排名不分先后)。 有什么办法来提供多个类,并有BeautifulSoup4找到它在任何给定的班?所有项目 我要做到这一点code做什么,除了preserve项目的顺序,因为它是在源$ C ​​$ C: 项目= soup.findAll(真,{'类':'cl ..
发布时间:2016-08-05 18:53:31 前端开发

如何从HTML中使用BeautifulSoup剥离注释标签?

我一直在玩BeautifulSoup,这是伟大的。我的最终目标是尝试,只是从一个页面中的文本。我只是想从正文文本,具有特殊的情况下拿到冠军和/或ALT从&LT属性; A> 或 < IMG> 标记。 到目前为止,我有这个 EDITED&安培;更新的当前code : 汤= BeautifulSoup(页) 评论= soup.findAll(文=拉姆达文本:isinstance(文 ..
发布时间:2016-08-05 18:53:28 Python

如何找到与美丽的汤特定的文本标签?

我有以下的HTML(标记为\\ n换行符): ... &所述; TR> < TD类=“POS”> \\ n “一些文字:”\\ n < BR> \\ n <强>有的价值和LT; / STRONG> \\ n < / TD> < / TR> &所述; TR> < T ..
发布时间:2016-08-05 18:53:27 Python

HTML实体codeS为文本

有谁知道在Python中一个简单的方法将字符串转换与HTML实体codeS(如&放大器; LT; &放大器;放大器; ),以一个正常的字符串(例如<&安培;)? cgi.escape()将难逃字符串(很差),但没有 UNESCAPE()。 解决方案 的HTMLParser 在标准功能图书馆。这是不幸的是,没有证件: >>>进口的HTMLParser >&G ..
发布时间:2016-08-05 18:53:24 前端开发

我怎样才能获得文本出来一个< D​​T>跨度>在一个与所述标签;内?

我想从里面&LT提取文本; DT> 带标签的<跨度> 里面的www.uszip.com: 下面是什么,我试图让一个例子: < D​​T>国土面积与LT; BR><跨度类=“STYPE”>(平方英里)LT; / SPAN>< / DT> < D​​D>及14.28 LT; / DD> 我想要得到的 14.28 ..
发布时间:2016-08-05 18:53:16 Python

美丽的汤的findAll doen't它们全部找到

我试图解析网站,并获得与BeautifulSoup.findAll一些信息,但它不容易找到他们所有的..我使用python3 在code是这个 #!的/ usr / bin中/ python3从BS4进口BeautifulSoup 从urllib.request里进口的urlopen页=的urlopen(“http://mangafox.me/directory/”) #打印(page.rea ..
发布时间:2016-08-05 18:53:11 Python

美丽的汤不能找到一个CSS类,如果对象具有其他类,也

如果一个页面有< D​​IV CLASS =“1级”> 和< p类=“1级”> ,那么 soup.findAll(真,'1级')会找到他们。 如果有< p =类“class1的类class2”> ,虽然,它不会被发现。我如何找到与某一类的所有对象,无论他们是否有其他类,也? 解决方案 万一有人遇到这个问题。 BeautifulSoup现在支持这样的: ..
发布时间:2016-08-05 18:53:08 Python

BeautifulSoup越来越HREF

我有以下汤: < A HREF =“SOME_URL”>接下来< / A> <跨度类=“类”> ...< / SPAN> 从这个我想提取的HREF,“SOME_URL” 我能做到这一点,如果我只有一个标签,但这里有两个标签。我还可以得到文字“下一步”但是这不是我想要的。 此外,有没有什么地方有例子API的一个很好的说明。我使用标准文档,但我正 ..
发布时间:2016-08-05 18:53:04 Python

Python和BeautifulSoup编码问题

我正在写使用BeautifulSoup使用Python履带,一切都进行得顺顺当当,直到我遇到了这个网站: http://www.elnorte.ec/ 我得到的内容与要求库: R = requests.get('http://www.elnorte.ec/') 内容= r.content 如果我在这一点上做内容可变的打印,所有的西班牙特殊字符似乎是工作的罚款。但是,一旦我试着喂内容变量 ..
发布时间:2016-08-05 18:53:01 Python

删除标记使用BeautifulSoup但保留其内容

目前我有code,做这样的事情: 汤= BeautifulSoup(值)在soup.findAll(真)标签: 如果tag.name不VALID_TAGS: tag.extract() soup.renderContents() 除了我不想扔掉无效标签里面的内容。我该如何摆脱标签,但是调用soup.renderContents时保持里面的内容()? 解决方案 我用 ..
发布时间:2016-08-05 18:52:57 Python

我可以删除脚本标签与BeautifulSoup?

可以编写脚本代码和所有其内容从HTML中删除与BeautifulSoup,还是必须使用正防爆pressions或别的东西吗? 解决方案 >>>汤= BeautifulSoup('<脚本>一种< / SCRIPT>&粑粑LT;脚本> B< / SCRIPT>') >>> [s.extract()对于s的汤('脚本' ..
发布时间:2016-08-05 18:52:54 前端开发

我为什么会用BeautifulSoup和IDLE一个递归错误?

我下面的教程来尝试学习如何使用BeautifulSoup。我想一个HTML页面我下载上删除的URL的名称。我有这一点伟大的工作。 从BS4进口BeautifulSoup汤= BeautifulSoup(开放(“43-congress.html”))final_link = soup.p.a final_link.decompose()链接= soup.find_all('A')在链接的链接: ..
发布时间:2016-08-05 18:52:51 Python