beautifulsoup相关内容
我想刮一个网站,但它给我一个错误。 我用下面的code: 进口urllib.request里 从BS4进口BeautifulSoupGET = urllib.request.urlopen(“https://www.website.com/”) HTML = get.read()汤= BeautifulSoup(HTML)打印(汤) 和我得到了以下错误:文件“C:\\ Python34 \
..
我发现了一些奇怪的关于使用BeautifulSoup时,找不到任何文件来支持这个,所以我想在这里问了。 假设我们有一个标签,如这些,我们已经与BS解析: < TD>有的表数据< / TD> < TD>< / TD> Navigating~~V树并的搜索树。 从上 .string 文档 $ C>,我们可以看到,如果HTML是这样的,<
..
我的Windows Vista与Python 2.7。我想安装BeautifulSoup 4,但显然我不能只通过将文件复制到站点包目录中安装美味的汤。 我必须安装点子,然后运行在命令提示符下一些命令。 你能引导我通过一步一步来。我真是一个小白这样使它非常简单。 在此先感谢 解决方案 您不要需要 PIP 安装美丽的汤 - 你可以的只是下载并运行蟒蛇的setup.py安装从已在(假设你已
..
我在用Beautifulsoup“class”属性的麻烦解析HTML元素。在code看起来像这样 汤= BeautifulSoup(SDATA) mydivs = soup.findAll('DIV') 在mydivs格: 如果(DIV [“阶级”] ==“stylelistrow”): 打印格 我得到“后,”在同一行一个错误的脚本完成。 文件“./beautiful
..
我想从网站刮项的列表,和preserve的顺序,它们在psented $ P $。这些项在表组织的,但它们可以是两个不同的类中的一个(排名不分先后)。 有什么办法来提供多个类,并有BeautifulSoup4找到它在任何给定的班?所有项目 我要做到这一点code做什么,除了preserve项目的顺序,因为它是在源$ C $ C: 项目= soup.findAll(真,{'类':'cl
..
我一直在玩BeautifulSoup,这是伟大的。我的最终目标是尝试,只是从一个页面中的文本。我只是想从正文文本,具有特殊的情况下拿到冠军和/或ALT从&LT属性; A> 或 < IMG> 标记。 到目前为止,我有这个 EDITED&安培;更新的当前code : 汤= BeautifulSoup(页) 评论= soup.findAll(文=拉姆达文本:isinstance(文
..
我有以下的HTML(标记为\\ n换行符): ... &所述; TR> < TD类=“POS”> \\ n “一些文字:”\\ n < BR> \\ n <强>有的价值和LT; / STRONG> \\ n < / TD> < / TR> &所述; TR> < T
..
有谁知道在Python中一个简单的方法将字符串转换与HTML实体codeS(如&放大器; LT; &放大器;放大器; ),以一个正常的字符串(例如<&安培;)? cgi.escape()将难逃字符串(很差),但没有 UNESCAPE()。 解决方案 的HTMLParser 在标准功能图书馆。这是不幸的是,没有证件: >>>进口的HTMLParser >&G
..
我想从里面&LT提取文本; DT> 带标签的<跨度> 里面的www.uszip.com: 下面是什么,我试图让一个例子: < DT>国土面积与LT; BR><跨度类=“STYPE”>(平方英里)LT; / SPAN>< / DT> < DD>及14.28 LT; / DD> 我想要得到的 14.28
..
我使用的PyQt完全加载一个页面(包括JS),并用美丽的汤把它的内容。做工精细的第一次迭代,但之后,它崩溃。我没有大的知识Python和PyQt的中甚至更少,所以任何帮助是非常欢迎的。 从
..
我试图解析网站,并获得与BeautifulSoup.findAll一些信息,但它不容易找到他们所有的..我使用python3 在code是这个 #!的/ usr / bin中/ python3从BS4进口BeautifulSoup 从urllib.request里进口的urlopen页=的urlopen(“http://mangafox.me/directory/”) #打印(page.rea
..
如果一个页面有< DIV CLASS =“1级”> 和< p类=“1级”> ,那么 soup.findAll(真,'1级')会找到他们。 如果有< p =类“class1的类class2”> ,虽然,它不会被发现。我如何找到与某一类的所有对象,无论他们是否有其他类,也? 解决方案 万一有人遇到这个问题。 BeautifulSoup现在支持这样的:
..
我有以下汤: < A HREF =“SOME_URL”>接下来< / A> <跨度类=“类”> ...< / SPAN> 从这个我想提取的HREF,“SOME_URL” 我能做到这一点,如果我只有一个标签,但这里有两个标签。我还可以得到文字“下一步”但是这不是我想要的。 此外,有没有什么地方有例子API的一个很好的说明。我使用标准文档,但我正
..
我正在写使用BeautifulSoup使用Python履带,一切都进行得顺顺当当,直到我遇到了这个网站: http://www.elnorte.ec/ 我得到的内容与要求库: R = requests.get('http://www.elnorte.ec/') 内容= r.content 如果我在这一点上做内容可变的打印,所有的西班牙特殊字符似乎是工作的罚款。但是,一旦我试着喂内容变量
..
目前我有code,做这样的事情: 汤= BeautifulSoup(值)在soup.findAll(真)标签: 如果tag.name不VALID_TAGS: tag.extract() soup.renderContents() 除了我不想扔掉无效标签里面的内容。我该如何摆脱标签,但是调用soup.renderContents时保持里面的内容()? 解决方案 我用
..
可以编写脚本代码和所有其内容从HTML中删除与BeautifulSoup,还是必须使用正防爆pressions或别的东西吗? 解决方案 >>>汤= BeautifulSoup('<脚本>一种< / SCRIPT>&粑粑LT;脚本> B< / SCRIPT>') >>> [s.extract()对于s的汤('脚本'
..
我下面的教程来尝试学习如何使用BeautifulSoup。我想一个HTML页面我下载上删除的URL的名称。我有这一点伟大的工作。 从BS4进口BeautifulSoup汤= BeautifulSoup(开放(“43-congress.html”))final_link = soup.p.a final_link.decompose()链接= soup.find_all('A')在链接的链接:
..
BeautifulSoup使用正则表达式由复合类名称搜索时返回空列表。 例如: 进口重 从BS4进口BeautifulSoupBS = “”“ <一类=“名单name692的”href =“www.example.com”,“物实施例文字< / A> “”“bsObj = BeautifulSoup(BS)#这个返回类 found_elements =
..
我注意到一个非常恼人的错误:BeautifulSoup4(包: BS4 )经常发现比previous版本较少标签(包: BeautifulSoup )。 下面是该问题的一个实例reproductible: 进口要求 进口BS4 进口BeautifulSoupR = requests.get('HTTP://word$p$pss.org/download/release-archive/') S
..
我使用BeautifulSoup刮一个网址,我有以下code 进口的urllib 进口的urllib2 从BeautifulSoup进口BeautifulSoupURL =“http://www.example.com/servlet/av/ResultTemplate=AVResult.html” REQ = urllib2.Request(URL) 响应= urllib2.urlopen
..