beautifulsoup 第10页 - IT屋-程序员软件开发技术分享社区

BeautifulSoup HTML 表格解析

我正在尝试解析来自此站点的信息(html 表):http://www.511virginia.org/RoadConditions.aspx?j=All&r=1 目前我正在使用 BeautifulSoup 并且我的代码看起来像这样 from mechanize import Browser从 BeautifulSoup 导入 BeautifulSoup机械 = 浏览器()url = "ht ..

发布时间：2021-12-23 20:35:55 python beautifulsoup html-table html-parsing mechanize Python

用于 PHP 的 Mechanize 和 BeautifulSoup?

我想知道是否有类似 Mechanize 或 BeautifulSoup for PHP 的东西? 解决方案 SimpleTest 为您提供类似的功能: http://www.simpletest.org/en/browser_documentation.html ..

发布时间：2021-12-23 20:35:45 php python beautifulsoup mechanize PHP

Beautiful Soup 为特定 div 找到孩子

我正在尝试使用 Python->Beautiful Soup 解析一个看起来像这样的网页: 我正在尝试提取突出显示的 td div 的内容.目前我可以通过获得所有的div alltd = soup.findAll('td')对于 alltd 中的 td:打印 td 但我试图缩小范围以搜索“tablebox"类中的 tds这仍然可能会返回 30+，但比 300+ 更易于管理. 如 ..

发布时间：2021-12-23 20:35:35 python parsing beautifulsoup Python

如何在 Python 中使用 BeautifulSoup 保存对 HTML 文件所做的更改?

我有下面的脚本，它修改 HTML 文件中的 href 属性(将来，它将是目录中的 HTML 文件列表).使用 BeautifulSoup，我设法访问标签值并按照我的需要修改它们，但我不知道如何保存对文件所做的更改. 导入操作系统进口重新从 bs4 导入 BeautifulSouphtmlDoc = open('adding_computer_c.html',"r+")汤 = BeautifulS ..

发布时间：2021-12-23 20:35:25 python html-parsing beautifulsoup Python

Selenium:遍历元素组

我已经用 BeautifulSoup 完成了这件事，但它有点麻烦，我想知道我是否可以直接用 Selenium 来完成. 假设我有以下 HTML，它在具有相同元素但内容不同的页面源中重复多次: 约翰史密斯 ..

发布时间：2021-12-23 20:35:14 python html selenium beautifulsoup html-parsing 前端开发

一切都与逻辑有关:findall posts &相应的线程 - 在 vbulletin

公告主要目标最后，我们拥有演示用户参与的所有主题(和讨论). (注意:这意味着我们应该牢记收集结果的一个很好的展示.) 详情用于制定逻辑，使我们能够使用这种技术 - 在所有 Vbulletin(运行版本 3.8xy)上.我们选择了一个演示页面[这只是一个带有开放板的示例 - 任何人无需注册即可看到]. 没有兴趣收集这些数据:主要兴趣是找出逻辑:获取一个论坛 ..

发布时间：2021-12-23 20:35:00 python csv beautifulsoup Python

Beautiful Soup 内联解析 <div>和<p>进入字典

我正在解析一个非常讨厌的网站.基本上，有内联 div(它们是“标题")和下面的段落标签(不是在 div 中)，理论上是“孩子"......我想将其转换为字典.我想不出最好的方法来做到这一点.网站大致如下所示: 这应该是dict key1; 这应该是key1的值这应该是 dict key2 这应该是key2的值所以，理论 ..

发布时间：2021-12-23 20:33:42 python beautifulsoup Python

BeautifulSoup 无法解析长视图状态

我尝试使用 BeautifulSoup4 来解析从 http://exporter.nih 检索到的 html.gov/ExPORTER_Catalog.aspx?index=0 如果我打印出结果汤，它会像这样结束: kZXI9IjAi"/> ..

发布时间：2021-12-23 20:32:23 python html-parsing beautifulsoup Python

如何从 Python 中的 Web Scraping 构建数据框

我可以通过 Python 中的网页抓取从网页中获取数据.我的数据被提取到一个列表中.但不知道如何将该列表转换为数据框.有什么办法可以直接通过网络抓取和获取数据到 df 吗?这是我的代码: 将pandas导入为pd进口请求从 bs4 导入 BeautifulSoup从表格导入表格从熊猫导入数据帧导入 lxml# 使用请求库从网页获取响应res = requests.get("https://www ..

发布时间：2021-12-23 20:32:15 python pandas beautifulsoup python-requests tabulate Python

从 HTML 页面读取值 - nseindia

我想从下面的网页中读取 NIFTY 50 的“开盘价"、“最高价"和“收盘价"值.https://www1.nseindia.com/live_market/dynaContent/live_watch/live_index_watch.htm 以下代码以前有效.看起来网页有一些变化，我无法读取值，因为我收到以下错误. nifty_50_row = table.find_all('tr') ..

发布时间：2021-12-23 20:31:41 python-3.x beautifulsoup 其他开发

美丽的汤循环在 HTML 中的 div 元素上

我正在尝试使用 Beautiful Soup 从网页中提取一些值(这里不是很聪明..)，这些值是来自气象预报的每小时值.在 Chrome 开发者模式下，我可以看到值嵌套在 div 类中，如下面的截图所示: 在 Python 中，我可以尝试模拟 Web 浏览器并找到这些值: 导入请求将 bs4 导入为 BeautifulSoup将熊猫导入为 pd从 bs4 导入 BeautifulSoup ..

发布时间：2021-12-23 20:30:44 python html pandas beautifulsoup 前端开发

BS4 Beautiful Soup 从 find_all 中提取文本

我正在抓取一个网站并想创建一个价格列表. prices = soup.find_all("li", class_="price") 然而，这会返回: €13.99 ,€12.99 ,..... 如何只提取价格?我试过 prices = soup.find_all("li", class_="price", text=True) 但是没有用. ..

发布时间：2021-12-23 20:28:44 beautifulsoup 其他开发

Python 3 - 从 beautifulSoup 中的标签获取文本

我正在使用 beautifulSoup 从网站中提取数据.每次重新加载页面时，来自该网站的文本都会更改，因此基本上我希望能够将类名设置为静态变量，因为文本是动态的. 导入请求从 bs4 导入 BeautifulSoupurl = 'xxxxxxxxxxxx'r = requests.get(url)汤 = BeautifulSoup(r.content, 'html.parser')class2 ..

发布时间：2021-12-23 20:28:21 python html python-3.x beautifulsoup 前端开发

在 BeautifulSoup 中处理无限滚动 UI

我正在研究如何抓取 Linkedin 源 (https://www.linkedin.com/mynetwork/invite-connect/connections/)但无限滚动似乎是不可能的.如何处理?我不想使用 Selenium(想稍后实现为 Web 服务). 导入 bs4从 bs4 导入 BeautifulSoup进口请求定义抓取(网页):headers = {'User-Agent': ..

发布时间：2021-12-23 20:27:47 python beautifulsoup Python

警告时的 Python 单击按钮

我是 Python 新手，但需要修改其他人创建的代码.我无法发布完整的代码，但我在下面发布了大部分代码: from bs4 import BeautifulSoup导入日期时间导入获取通行证从 Gmail 导入 Gmail从硒导入网络驱动程序从 selenium.common.exceptions 导入 NoSuchElementException从 selenium.common.except ..

发布时间：2021-12-23 20:27:20 javascript python selenium-webdriver beautifulsoup phantomjs 前端开发

获取 <tr> 的样式使用 BeautifulSoup 标记

我正在抓取一个页面，然后从该页面上的表格中获取所有元素，如下所示: r = requests.get("http://lol.esportswikis.com/wiki/G2_Esports/Match_History")s = BeautifulSoup(r.content, "lxml")tr = s.find_all("table", class_="wikitable sor ..

发布时间：2021-12-23 20:27:00 python beautifulsoup python-requests Python

Beautifulsoup 中的“ascii"编解码器错误

我正在使用 beautifulsoup 从 html 页面抓取数据.直到昨天一切都很好.但现在我收到错误: 'ascii' 编解码器无法对位置 86700 中的字符 u'\xa9' 进行编码:序号不在范围内 (128) 我正在使用代码: 导入 urllib2从 BeautifulSoup 导入 BeautifulSoup页面 = urllib2.urlopen(url).read()汤 = ..

发布时间：2021-12-23 20:26:32 python beautifulsoup Python

刮刮 wsj.com

我想从 wsj.com 抓取一些数据并打印出来.实际网址是:https://www.wsj.com/market-data/stocks?mod=md_home_overview_stk_main，数据是纽约证券交易所发行量上升、下降和纽约证券交易所股票交易量上升、下降. 我在观看 YouTube 视频后尝试使用 beautifulsoup，但我无法让任何类在 body 内返回值. 这 ..

发布时间：2021-12-23 20:25:22 python json beautifulsoup Python

使用 BeautifulSoup 更改元素值返回空元素

from BeautifulSoup import BeautifulStoneSoupxml_data = """test你好世界！“"汤 = BeautifulStoneSoup(xml_data)打印汤.美化()make = 汤.find('foo:bar')印刷制作# 打印 Hello world ..

发布时间：2021-12-23 20:23:36 python xml parsing beautifulsoup Python

在标签之间提取 HTML

我想提取特定 HTML 标签之间的所有 HTML. 包含的文本[...] 文本 [..] [...][...][...] 所以想要 grep class1 div 和 class2 span 之间的所有 HTML(标签和值)>. ..

发布时间：2021-12-23 20:22:43 python beautifulsoup Python

beautifulsoup相关内容