beautifulsoup相关内容
我正在尝试抓取一个新闻网站,我需要更改一个参数.我用下一个代码替换了它: while i 问题是“t"类型是字符串,带有属性的find只适用于类型.你知道如何将“t"转换成那种类型吗? 解决方案 在解析前做替换: html = html.replace('class="row bigbox container mi-df-local locked-single"', 'class=
..
我试图从下表中提取.我在第二个 之后剪掉了它,后面还有六个.需要提取所有八个字符串,例如在下面的示例中,我想要值 61.5、56.43 等 下面的代码只给了我第一个值,61.5.我怎样才能得到剩余的值? soup.find("div", {"class":"value"}).text
..
我看过一些网络广播,在尝试执行此操作时需要帮助:我一直在使用 lxml.html.雅虎最近改变了网络结构. 目标页面; http://finance.yahoo.com/quote/IBM/options?date=1469750400&straddle=true 在 Chrome 中使用检查器:我在 中看到数据 //*[@id="main-0-Quote-Proxy"]/s
..
我有这个 html 块如下: html ='''
Mol Cell Biol.2001 年 12 月;21(24):8471-8482.doi: 10.1128/MCB.21.24.8471-8482.2001''
..
我编写了一些代码来从投资网站上抓取 BTC/ETH 时间序列,并且运行良好.但是,我需要更改请求调用,以便下载的数据来自 Kraken 而不是默认的 bitfinex,而是来自 01/06/2016 而不是默认的开始时间.这个选项可以在网页上手动设置,但我不知道如何通过请求调用发送它,除了它可能涉及使用“数据"参数.感谢任何建议. 谢谢, 公里 代码已经用 python 编写并且
..
我一直在尝试从 Yahoo! 检索股票价格金融,例如 Apple Inc..我的代码是这样的:(使用Python 2) 导入请求从 bs4 导入 BeautifulSoup 作为 bshtml='http://finance.yahoo.com/quote/AAPL/profile?p=AAPL'r = requests.get(html)汤 = bs(r.text) 问题是当我看到这个网页后
..
我没有使用 python、BeautifulSoup、Selenium 等的经验,但我很想从网站上抓取数据并存储为 csv 文件.我需要的单个数据样本编码如下(单行数据).
标题
NAME
..
我的目标是获取所有输入名称和值的列表.将它们配对并提交表单.名称和值是随机的. from bs4 import BeautifulSoup #解析html = """标题页
..
我正在使用此代码查找页面中所有有趣的链接: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 而且它的工作做得很好.不幸的是,在 a 标签内有很多嵌套标签,比如 font、b 和不同的东西......我想得到只是文本内容,没有任何其他 html 标签. 链接示例:
..
我对使用 Python 进行网络抓取非常陌生,而且我真的很难从 HTML 中提取嵌套文本(p 在 div 中,是精确的).这是我目前得到的: from bs4 import BeautifulSoup导入 urlliburl = urllib.urlopen('http://meinparlament.diepresse.com/')内容 = url.read()汤 = BeautifulSou
..
我对使用 Python/BeautifulSoup 进行网络解析完全陌生.我有一个包含(部分)代码的 HTML,如下所示:
示例
示例
示例 1
..
我想从 HTML 中提取一些数据,然后能够在不修改源 html 的情况下在客户端突出显示提取的元素.XPath 或 CSS Path 看起来很棒.是否可以直接从 BeautifulSoup 中提取 XPATH 或 CSS 路径? 现在我使用目标元素的标记,然后使用 lxml lib 来提取 xpath,这对性能非常不利.我知道 BSXPath.py —— 它不适用于 BS4.由于复杂性,重写所有
..
我正在使用 BeautifulSoup 来搜索网页中的多个元素. 我正在保存我找到的元素,但是因为我的脚本有可能会寻找一个元素并且它在解析的特定页面中不存在,所以我对每个元素都有 try/except 语句: #浏览一堆网页对于汤中的汤:try: # 寻找 HTML 元素data['val1'].append(soup.find('div', class_="something").tex
..
我正在学习 BeautifulSoup,并找到了许多“html2text"解决方案,但我正在寻找的解决方案应该模仿格式: 一个
两个
会变成 * 一个* 二 和 一些文字
更精彩的文字在这里最终文本 到 一些文字更精彩的文字在这里最终文本 我正在阅读文档,但没有直接看到任何内容.有什么帮助吗?我愿
..
我想用另一个标签替换一个标签,并将旧标签的内容放在新标签之前.例如: 我想改变这个:
这是第一个段落
这是秒段落
..
..
我正在尝试解析 76561198134729239; 对于 76561198134729239.我不知道该怎么做.我试过的: 导入请求从 lxml
..
我有一些包含许多 的 html 代码. 我正在尝试获取第二个表中的信息.有没有办法在不使用 soup.findAll('table') 的情况下做到这一点? 当我使用 soup.findAll('table') 时,出现错误: ValueError: 解包的值太多 有没有办法以某种代码或另一种不需要遍历所有表的方式获取第 n 个标签?或者我应该看看我是否可以为表格添加标题?(比如
..
我正在抓取的页面包含这些 HTML 代码.如何使用 bs4 删除注释标签 及其内容? 猫狗绵羊山羊NewPP 限制报告预处理器节点数:478/300000后扩展包括大小:4852/2097152 字节模板参数大小:870/2097152 字节昂贵的解析器函数计数:2/100ExtLoops 计数:6/100
--> 解决方案 您可以使用 extract
..
我正在使用 python 和 beautifulsoup(两者都是新手!),我想登录供应商网站. 所以他们的形式看起来像(简化): 有没有办法跟踪 cookie? 解决方案 多读点书. 阅读有关 urllib2 的内容,这就是您用来执行 POST 登录的内容.如果您知道 名称,则不需要 Beautiful Soup.http://docs.
..