beautifulsoup相关内容

用beautifulsoup克隆元素

我必须将一个文档的一部分复制到另一个文档,但我不想修改我从中复制的文档. 如果我使用 .extract() 它会从树中删除元素.如果我只是附加像 document2.append(document1.tag) 这样的选定元素,它仍然会从 document1 中删除该元素. 当我使用真实文件时,我不能在修改后保存 document1,但是有没有办法在不损坏文档的情况下做到这一点? ..
发布时间:2021-12-23 20:07:52 Python

使用 BeautifulSoup 搜索雅虎财经

我正在尝试从“关键统计信息"页面中提取雅虎股票代码的信息(因为 Pandas 库不支持此功能). AAPL 示例: from bs4 import BeautifulSoup进口请求url = 'http://finance.yahoo.com/quote/AAPL/key-statistics?p=AAPL'页面 = requests.get(url)汤 = BeautifulSoup( ..
发布时间:2021-12-23 20:07:34 Python

当 <tr> 时我该怎么办?有行跨度

如果该行具有 rowspan 元素,如何使该行与维基百科页面中的表格相对应. from bs4 import BeautifulSoup导入 urllib2从 lxml.html 导入 fromstring进口重新导入 csv将熊猫导入为 pdwiki = "http://en.wikipedia.org/wiki/List_of_England_Test_cricket_records"hea ..
发布时间:2021-12-23 20:07:22 前端开发

Python 中的 Scraper 给出了“拒绝访问"

我正在尝试用 Python 编写一个抓取工具以从页面中获取一些信息.就像出现在此页面上的优惠标题一样: https://www.justdial.com/Panipat/Saree-Retailers/nct-10420585 现在我使用这个代码: 导入 bs4进口请求定义提取源(网址):来源=requests.get(url).text返回源定义提取数据(来源):汤=bs4.Beaut ..
发布时间:2021-12-23 20:07:11 Python

Bs4 select_one vs find

我想知道执行 bs.find('div') 和 bs.select_one('div') 之间有什么区别.find_all 和 select 也是如此. 在性能方面是否有任何差异,或者在特定情况下是否有更好的使用. 解决方案 select() 和 select_one() 为您提供了一种不同的方式来浏览 HTML 树,使用CSS 选择器,语法丰富且方便.虽然,BeautifulSou ..
发布时间:2021-12-23 20:06:59 Python

Beautiful Soup 嵌套标签搜索

我正在尝试编写一个 Python 程序来计算网页上的字数.我使用 Beautiful Soup 4 来抓取页面,但是我在访问嵌套的 HTML 标签时遇到困难(例如: 在 ). 每次我尝试使用 page.findAll()(页面是包含整个页面的 Beautiful Soup 对象)方法查找这样的标签时,它根本找不到任何标签,尽管有.有什么简单的方法或 ..
发布时间:2021-12-23 20:06:49 前端开发

复杂的 Beautiful Soup 查询

这是我正在使用 Beautiful Soup 探索的 HTML 文件的片段. 网站 我想为任何具有 并且位于 的行获取 代码>. 是否可以使用 Beautiful Soup 查询 HTML 文件中的多个条件? 解决方案 BeautifulSoup 的搜索机 ..
发布时间:2021-12-23 20:06:38 Python

找到带有beautifulsoup的特定链接

嗨,我不知道如何在我的一生中找到以某些文本开头的链接.findall('a') 工作正常,但它太多了.我只想列出所有以http://www.nhl.com/ice/boxscore.htm?id= 有人可以帮我吗? 非常感谢 解决方案 先设置一个测试文档,用BeautifulSoup打开解析器: >>>从 BeautifulSoup 导入 BeautifulSoup>>>do ..
发布时间:2021-12-23 20:06:10 Python

用 Python 抓取雅虎财务损益表

我正在尝试使用 Python 从 雅虎财经 的损益表中抓取数据.具体来说,假设我想要最新的净收入数据 Apple. 数据由一堆嵌套的 HTML 表格构成.我正在使用 requests 模块来访问和检索HTML. 我正在使用 BeautifulSoup 4 来筛选 HTML-结构,但我不知道如何得到这个数字. 这里是 Firefox 分析的截图. 到目前为止我的代码: fr ..
发布时间:2021-12-23 20:05:46 前端开发

使用 BeautifulSoup 在 HTML 中搜索和替换

我想使用 BeautfulSoup 来搜索 并将其替换为 .我知道如何使用 urllib2 打开,然后解析以提取所有 标签.我想要做的是搜索并用结束标记和中断替换结束标记.任何帮助,非常感谢. 编辑 我认为它类似于: soup.findAll('a'). 在文档中,有一个: find(text="ahh").replaceWith('万岁') 所以我认为它会是这样的: so ..
发布时间:2021-12-23 20:05:25 Python