beautifulsoup 第8页 - IT屋-程序员软件开发技术分享社区

如何将字符串转换为 BeautifulSoup 对象?

我正在尝试抓取一个新闻网站，我需要更改一个参数.我用下一个代码替换了它: while i 问题是“t"类型是字符串，带有属性的find只适用于类型.你知道如何将“t"转换成那种类型吗? 解决方案在解析前做替换: html = html.replace('class="row bigbox container mi-df-local locked-single"', 'class= ..

使用 BeautifulSoup 从标签中提取字符串

我试图从下表中提取.我在第二个之后剪掉了它，后面还有六个.需要提取所有八个字符串，例如在下面的示例中，我想要值 61.5、56.43 等下面的代码只给了我第一个值，61.5.我怎样才能得到剩余的值? soup.find("div", {"class":"value"}).text ..

发布时间：2021-12-23 20:44:57 python beautifulsoup Python

使用 BeautifulSoup 或 LXML.HTML 进行网页抓取

我看过一些网络广播，在尝试执行此操作时需要帮助:我一直在使用 lxml.html.雅虎最近改变了网络结构. 目标页面； http://finance.yahoo.com/quote/IBM/options?date=1469750400&straddle=true 在 Chrome 中使用检查器:我在中看到数据 //*[@id="main-0-Quote-Proxy"]/s ..

发布时间：2021-12-23 20:44:50 python web-scraping beautifulsoup lxml yahoo Python

BeautifulSoup 获取给定元素之外的文本

我有这个 html 块如下: html =''' Mol Cell Biol.2001 年 12 月；21(24):8471-8482.doi: 10.1128/MCB.21.24.8471-8482.2001'' ..

发布时间：2021-12-23 20:44:41 python beautifulsoup Python

使用BeautifulSoup从investing.com为BTC/ETH抓取数据

我编写了一些代码来从投资网站上抓取 BTC/ETH 时间序列，并且运行良好.但是，我需要更改请求调用，以便下载的数据来自 Kraken 而不是默认的 bitfinex，而是来自 01/06/2016 而不是默认的开始时间.这个选项可以在网页上手动设置，但我不知道如何通过请求调用发送它，除了它可能涉及使用“数据"参数.感谢任何建议. 谢谢，公里代码已经用 python 编写并且 ..

发布时间：2021-12-23 20:44:17 python beautifulsoup Python

如何理解雅虎的原始 HTML！使用 Python 检索数据时的财务?

我一直在尝试从 Yahoo! 检索股票价格金融，例如 Apple Inc..我的代码是这样的:(使用Python 2) 导入请求从 bs4 导入 BeautifulSoup 作为 bshtml='http://finance.yahoo.com/quote/AAPL/profile?p=AAPL'r = requests.get(html)汤 = bs(r.text) 问题是当我看到这个网页后 ..

发布时间：2021-12-23 20:44:09 python html beautifulsoup web-crawler yahoo-finance 前端开发

使用beautifulSoup、Python在h3和div标签中抓取文本

我没有使用 python、BeautifulSoup、Selenium 等的经验，但我很想从网站上抓取数据并存储为 csv 文件.我需要的单个数据样本编码如下(单行数据). 标题 NAME ..

发布时间：2021-12-23 20:43:59 python html selenium beautifulsoup web-crawler 前端开发

Python美汤表单输入解析

我的目标是获取所有输入名称和值的列表.将它们配对并提交表单.名称和值是随机的. from bs4 import BeautifulSoup #解析html = """标题页 ..

发布时间：2021-12-23 20:43:53 python html parsing beautifulsoup html-parsing 前端开发

BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码查找页面中所有有趣的链接: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 而且它的工作做得很好.不幸的是，在 a 标签内有很多嵌套标签，比如 font、b 和不同的东西......我想得到只是文本内容，没有任何其他 html 标签. 链接示例: ..

发布时间：2021-12-23 20:43:44 python beautifulsoup html-parsing html-content-extraction Python

使用 BeautifulSoup 从 `div` 中的 `p` 中提取文本

我对使用 Python 进行网络抓取非常陌生，而且我真的很难从 HTML 中提取嵌套文本(p 在 div 中，是精确的).这是我目前得到的: from bs4 import BeautifulSoup导入 urlliburl = urllib.urlopen('http://meinparlament.diepresse.com/')内容 = url.read()汤 = BeautifulSou ..

发布时间：2021-12-23 20:43:36 python python-3.x web-scraping beautifulsoup Python

访问下一个兄弟
带有 BeautifulSoup 的元素

我对使用 Python/BeautifulSoup 进行网络解析完全陌生.我有一个包含(部分)代码的 HTML，如下所示: 示例示例示例 1 ..

发布时间：2021-12-23 20:43:26 python html beautifulsoup 前端开发

BeautifulSoup 提取节点的 XPATH 或 CSS 路径

我想从 HTML 中提取一些数据，然后能够在不修改源 html 的情况下在客户端突出显示提取的元素.XPath 或 CSS Path 看起来很棒.是否可以直接从 BeautifulSoup 中提取 XPATH 或 CSS 路径? 现在我使用目标元素的标记，然后使用 lxml lib 来提取 xpath，这对性能非常不利.我知道 BSXPath.py —— 它不适用于 BS4.由于复杂性，重写所有 ..

发布时间：2021-12-23 20:43:15 python html css xpath beautifulsoup 前端开发

BeautifulSoup:如果未找到 HTML 元素，则返回 None

我正在使用 BeautifulSoup 来搜索网页中的多个元素. 我正在保存我找到的元素，但是因为我的脚本有可能会寻找一个元素并且它在解析的特定页面中不存在，所以我对每个元素都有 try/except 语句: #浏览一堆网页对于汤中的汤:try: # 寻找 HTML 元素data['val1'].append(soup.find('div', class_="something").tex ..

发布时间：2021-12-23 20:43:06 python beautifulsoup Python

Python 将 html 转换为文本并模拟格式

我正在学习 BeautifulSoup，并找到了许多“html2text"解决方案，但我正在寻找的解决方案应该模仿格式: 一个两个会变成 * 一个* 二和一些文字更精彩的文字在这里最终文本到一些文字更精彩的文字在这里最终文本我正在阅读文档，但没有直接看到任何内容.有什么帮助吗?我愿 ..

发布时间：2021-12-23 20:42:59 python html beautifulsoup 前端开发

Beautiful Soup 4:如何用文本和另一个标签替换一个标签?

我想用另一个标签替换一个标签，并将旧标签的内容放在新标签之前.例如: 我想改变这个: 这是第一个段落这是秒段落 ..

发布时间：2021-12-23 20:42:47 python html replace beautifulsoup html-parsing 前端开发

Beautifulsoup 分解()

..

发布时间：2021-12-23 20:42:35 python python-3.x beautifulsoup Python

Beautifulsoup:解析html——获取href的一部分

我正在尝试解析 76561198134729239; 对于 76561198134729239.我不知道该怎么做.我试过的: 导入请求从 lxml ..

发布时间：2021-12-23 20:42:25 python web-scraping beautifulsoup request Python

Python 中的 BeautifulSoup - 获取类型的第 n 个标签

我有一些包含许多的 html 代码. 我正在尝试获取第二个表中的信息.有没有办法在不使用 soup.findAll('table') 的情况下做到这一点? 当我使用 soup.findAll('table') 时，出现错误: ValueError: 解包的值太多有没有办法以某种代码或另一种不需要遍历所有表的方式获取第 n 个标签?或者我应该看看我是否可以为表格添加标题?(比如 ..

发布时间：2021-12-23 20:42:19 python beautifulsoup Python

美汤4:删除评论标签及其内容

我正在抓取的页面包含这些 HTML 代码.如何使用 bs4 删除注释标签及其内容? 猫狗绵羊山羊NewPP 限制报告预处理器节点数:478/300000后扩展包括大小:4852/2097152 字节模板参数大小:870/2097152 字节昂贵的解析器函数计数:2/100ExtLoops 计数:6/100 --> 解决方案您可以使用 extract ..

发布时间：2021-12-23 20:42:05 python html web-scraping html-parsing beautifulsoup 前端开发

发布到页面以使用美丽的汤登录

我正在使用 python 和 beautifulsoup(两者都是新手！)，我想登录供应商网站. 所以他们的形式看起来像(简化): 有没有办法跟踪 cookie? 解决方案多读点书. 阅读有关 urllib2 的内容，这就是您用来执行 POST 登录的内容.如果您知道名称，则不需要 Beautiful Soup.http://docs. ..

发布时间：2021-12-23 20:41:53 python beautifulsoup Python

beautifulsoup相关内容