beautifulsoup相关内容

Beautiful Soup 为特定 div 找到孩子

我正在尝试使用 Python->Beautiful Soup 解析一个看起来像这样的网页: 我正在尝试提取突出显示的 td div 的内容.目前我可以通过 获得所有的div alltd = soup.findAll('td')对于 alltd 中的 td:打印 td 但我试图缩小范围以搜索“tablebox"类中的 tds这仍然可能会返回 30+,但比 300+ 更易于管理. 如 ..
发布时间:2021-12-23 20:35:35 Python

如何在 Python 中使用 BeautifulSoup 保存对 HTML 文件所做的更改?

我有下面的脚本,它修改 HTML 文件中的 href 属性(将来,它将是目录中的 HTML 文件列表).使用 BeautifulSoup,我设法访问标签值并按照我的需要修改它们,但我不知道如何保存对文件所做的更改. 导入操作系统进口重新从 bs4 导入 BeautifulSouphtmlDoc = open('adding_computer_c.html',"r+")汤 = BeautifulS ..
发布时间:2021-12-23 20:35:25 Python

一切都与逻辑有关:findall posts &相应的线程 - 在 vbulletin

公告 主要目标 最后,我们拥有演示用户参与的所有主题(和讨论). (注意:这意味着我们应该牢记收集结果的一个很好的展示.) 详情 用于制定逻辑,使我们能够使用这种技术 - 在所有 Vbulletin(运行版本 3.8xy)上.我们选择了一个演示页面[这只是一个带有开放板的示例 - 任何人无需注册即可看到]. 没有兴趣收集这些数据:主要兴趣是找出逻辑:获取一个论坛 ..
发布时间:2021-12-23 20:35:00 Python

Beautiful Soup 内联解析 <div>和<p>进入字典

我正在解析一个非常讨厌的网站.基本上,有内联 div(它们是“标题")和下面的段落标签(不是在 div 中),理论上是“孩子"......我想将其转换为字典.我想不出最好的方法来做到这一点.网站大致如下所示: 这应该是dict key1; 这应该是key1的值 这应该是 dict key2 这应该是key2的值 所以,理论 ..
发布时间:2021-12-23 20:33:42 Python

如何从 Python 中的 Web Scraping 构建数据框

我可以通过 Python 中的网页抓取从网页中获取数据.我的数据被提取到一个列表中.但不知道如何将该列表转换为数据框.有什么办法可以直接通过网络抓取和获取数据到 df 吗?这是我的代码: 将pandas导入为pd进口请求从 bs4 导入 BeautifulSoup从表格导入表格从熊猫导入数据帧导入 lxml# 使用请求库从网页获取响应res = requests.get("https://www ..
发布时间:2021-12-23 20:32:15 Python

从 HTML 页面读取值 - nseindia

我想从下面的网页中读取 NIFTY 50 的“开盘价"、“最高价"和“收盘价"值.https://www1.nseindia.com/live_market/dynaContent/live_watch/live_index_watch.htm 以下代码以前有效.看起来网页有一些变化,我无法读取值,因为我收到以下错误. nifty_50_row = table.find_all('tr') ..
发布时间:2021-12-23 20:31:41 其他开发

美丽的汤循环在 HTML 中的 div 元素上

我正在尝试使用 Beautiful Soup 从网页中提取一些值(这里不是很聪明..),这些值是 来自气象预报的每小时值.在 Chrome 开发者模式下,我可以看到值嵌套在 div 类中,如下面的截图所示: 在 Python 中,我可以尝试模拟 Web 浏览器并找到这些值: 导入请求将 bs4 导入为 BeautifulSoup将熊猫导入为 pd从 bs4 导入 BeautifulSoup ..
发布时间:2021-12-23 20:30:44 前端开发

BS4 Beautiful Soup 从 find_all 中提取文本

我正在抓取一个网站并想创建一个价格列表. prices = soup.find_all("li", class_="price") 然而,这会返回: €13.99 ,€12.99 ,..... 如何只提取价格?我试过 prices = soup.find_all("li", class_="price", text=True) 但是没有用. ..
发布时间:2021-12-23 20:28:44 其他开发

在 BeautifulSoup 中处理无限滚动 UI

我正在研究如何抓取 Linkedin 源 (https://www.linkedin.com/mynetwork/invite-connect/connections/)但无限滚动似乎是不可能的.如何处理?我不想使用 Selenium(想稍后实现为 Web 服务). 导入 bs4从 bs4 导入 BeautifulSoup进口请求定义抓取(网页):headers = {'User-Agent': ..
发布时间:2021-12-23 20:27:47 Python

Beautifulsoup 中的“ascii"编解码器错误

我正在使用 beautifulsoup 从 html 页面抓取数据.直到昨天一切都很好.但现在我收到错误: 'ascii' 编解码器无法对位置 86700 中的字符 u'\xa9' 进行编码:序号不在范围内 (128) 我正在使用代码: 导入 urllib2从 BeautifulSoup 导入 BeautifulSoup页面 = urllib2.urlopen(url).read()汤 = ..
发布时间:2021-12-23 20:26:32 Python

刮刮 wsj.com

我想从 wsj.com 抓取一些数据并打印出来.实际网址是:https://www.wsj.com/market-data/stocks?mod=md_home_overview_stk_main,数据是纽约证券交易所发行量上升、下降和纽约证券交易所股票交易量上升、下降. 我在观看 YouTube 视频后尝试使用 beautifulsoup,但我无法让任何类在 body 内返回值. 这 ..
发布时间:2021-12-23 20:25:22 Python

在标签之间提取 HTML

我想提取特定 HTML 标签之间的所有 HTML. 包含的文本[...] 文本 [..] [...][...][...] 所以想要 grep class1 div 和 class2 span 之间的所有 HTML(标签和值)>. ..
发布时间:2021-12-23 20:22:43 Python