beautifulsoup相关内容

如何将字符串转换为 BeautifulSoup 对象?

我正在尝试抓取一个新闻网站,我需要更改一个参数.我用下一个代码替换了它: while i 问题是“t"类型是字符串,带有属性的find只适用于类型.你知道如何将“t"转换成那种类型吗? 解决方案 在解析前做替换: html = html.replace('class="row bigbox container mi-df-local locked-single"', 'class= ..
发布时间:2021-12-23 20:45:10 Python

使用 BeautifulSoup 从标签中提取字符串

我试图从下表中提取.我在第二个 之后剪掉了它,后面还有六个.需要提取所有八个字符串,例如在下面的示例中,我想要值 61.5、56.43 等 下面的代码只给了我第一个值,61.5.我怎样才能得到剩余的值? soup.find("div", {"class":"value"}).text ..
发布时间:2021-12-23 20:44:57 Python

使用BeautifulSoup从investing.com为BTC/ETH抓取数据

我编写了一些代码来从投资网站上抓取 BTC/ETH 时间序列,并且运行良好.但是,我需要更改请求调用,以便下载的数据来自 Kraken 而不是默认的 bitfinex,而是来自 01/06/2016 而不是默认的开始时间.这个选项可以在网页上手动设置,但我不知道如何通过请求调用发送它,除了它可能涉及使用“数据"参数.感谢任何建议. 谢谢, 公里 代码已经用 python 编写并且 ..
发布时间:2021-12-23 20:44:17 Python

BeautifulSoup 提取节点的 XPATH 或 CSS 路径

我想从 HTML 中提取一些数据,然后能够在不修改源 html 的情况下在客户端突出显示提取的元素.XPath 或 CSS Path 看起来很棒.是否可以直接从 BeautifulSoup 中提取 XPATH 或 CSS 路径? 现在我使用目标元素的标记,然后使用 lxml lib 来提取 xpath,这对性能非常不利.我知道 BSXPath.py —— 它不适用于 BS4.由于复杂性,重写所有 ..
发布时间:2021-12-23 20:43:15 前端开发

BeautifulSoup:如果未找到 HTML 元素,则返回 None

我正在使用 BeautifulSoup 来搜索网页中的多个元素. 我正在保存我找到的元素,但是因为我的脚本有可能会寻找一个元素并且它在解析的特定页面中不存在,所以我对每个元素都有 try/except 语句: #浏览一堆网页对于汤中的汤:try: # 寻找 HTML 元素data['val1'].append(soup.find('div', class_="something").tex ..
发布时间:2021-12-23 20:43:06 Python

Python 将 html 转换为文本并模拟格式

我正在学习 BeautifulSoup,并找到了许多“html2text"解决方案,但我正在寻找的解决方案应该模仿格式: 一个 两个 会变成 * 一个* 二 和 一些文字 更精彩的文字在这里最终文本 到 一些文字更精彩的文字在这里最终文本 我正在阅读文档,但没有直接看到任何内容.有什么帮助吗?我愿 ..
发布时间:2021-12-23 20:42:59 前端开发

Python 中的 BeautifulSoup - 获取类型的第 n 个标签

我有一些包含许多 的 html 代码. 我正在尝试获取第二个表中的信息.有没有办法在不使用 soup.findAll('table') 的情况下做到这一点? 当我使用 soup.findAll('table') 时,出现错误: ValueError: 解包的值太多 有没有办法以某种代码或另一种不需要遍历所有表的方式获取第 n 个标签?或者我应该看看我是否可以为表格添加标题?(比如 ..
发布时间:2021-12-23 20:42:19 Python

美汤4:删除评论标签及其内容

我正在抓取的页面包含这些 HTML 代码.如何使用 bs4 删除注释标签 及其内容? 猫狗绵羊山羊NewPP 限制报告预处理器节点数:478/300000后扩展包括大小:4852/2097152 字节模板参数大小:870/2097152 字节昂贵的解析器函数计数:2/100ExtLoops 计数:6/100 --> 解决方案 您可以使用 extract ..
发布时间:2021-12-23 20:42:05 前端开发

发布到页面以使用美丽的汤登录

我正在使用 python 和 beautifulsoup(两者都是新手!),我想登录供应商网站. 所以他们的形式看起来像(简化): 有没有办法跟踪 cookie? 解决方案 多读点书. 阅读有关 urllib2 的内容,这就是您用来执行 POST 登录的内容.如果您知道 名称,则不需要 Beautiful Soup.http://docs. ..
发布时间:2021-12-23 20:41:53 Python