beautifulsoup相关内容
我的数据样本: Google 07/11/2001 CA
Apple 27/08/2001
Micros
..
回答 上一个问题,有几个人建议我使用BeautifulSoup为我的项目.我一直在努力处理他们的文档,但我无法解析它.有人可以指出我应该能够将此表达式转换为 BeautifulSoup 表达式的部分吗? hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+') 以上表达来自Scrapy.我正在尝试将正则表达式 re('\.a\w+'
..
如何在 BS3 中检查 Tag 元素是否属于某种类型,例如 div? 解决方案 您正在寻找 标签名称: if element.name == 'div': 演示: >>>从 bs4 导入 BeautifulSoup>>>汤 = BeautifulSoup('
')>>>打印汤.find('div').namediv 这个属性在 Be
..
我正在尝试解析标签 之间的文本.当我输入 soup.blockquote.get_text() 时. 对于 HTML 文件中第一个出现的块引用,我得到了我想要的结果.如何在文件中找到下一个连续的 标签?也许我只是累了,在文档中找不到它. 示例 HTML 文件: 头
我可以得到这个文本
eiaoiefj
..
我不知道是否有这样的事情 - 但我正在尝试进行有序的字典理解.然而它似乎不起作用? 导入请求从 bs4 导入 BeautifulSoup从集合导入 OrderedDict汤 = BeautifulSoup(html, 'html.parser')表 = 汤.find_all('table')t_data = OrderedDict()行 = 表 [1].find_all('tr')t_data
..
我在 Windows 上使用 Python 3.3.我想弄清楚如何从雅虎财经下载 .csv 文件.它是历史价格的文件. 这是我试图访问链接的源代码.
..
我有一个很大的 HTML 源代码,我想解析 (~200,000) 行,而且我很确定整个过程中存在一些糟糕的格式.我一直在研究一些解析器,似乎 Beautiful Soup、lxml、html5lib 是最受欢迎的.从这个网站看,lxml是最常用的,也是最快的,而Beautiful Soup的速度较慢,但会导致更多的错误和变化. 我对 Beautiful Soup 文档有点困惑,http:
..
我正在尝试学习网络抓取,但遇到了一个奇怪的问题...我的任务是在 Google 上搜索特定日期范围内某个主题的新闻并计算结果数量. 我的简单代码是 导入请求,bs4有效载荷 = {'as_epq': 'James Clark', 'tbs':'cdr:1,cd_min:1/01/2015,cd_max:1/01/2015','tbm':'nws'}r = requests.get("htt
..
我已经阅读了几篇关于 Web Scraping 的文章,但我不明白如何在网站中找到元素. 我想废弃表格的网站如下:http://www.bmfbovespa.com.br/pt_br/servicos/market-data/cotacoes/mercado-de-derivativos/?symbol=DI1 我想废弃表格:“TB01、“TB02、TB03 和 TB04"这些是表格的
..
我是网络抓取的新手,我想获取页面的 html.但是当我运行程序时,我得到 html 为空,控制台显示 javascript from bs4 import BeautifulSoup进口请求导入 urlliburl = "https://linkedin.com/company/1005"r = requests.get(url)html_content = r.text汤 = Beautifu
..
我想从 https://www.timeanddate.com/ 获取历史每小时天气数据 这是网站链接:https:///www.timeanddate.com/weather/usa/dayton/historic?month=2&year=2016 - 这里我选择二月和 2016 年,结果会出现在页面底部. 我使用了以下步骤:https://stackoverflow.com/a/
..
我最近问了一个问题(参考这里:Python Web Scraping(Beautiful Soup、Selenium 和 PhantomJS):仅抓取整页的一部分)有助于确定我在抓取页面的所有内容时遇到的问题,该页面在滚动时动态更新.但是,我仍然无法使用 selenium 使我的代码指向正确的元素并迭代地向下滚动页面.我还发现,当我手动向下滚动有问题的页面时,页面加载时的一些原始内容会在新内容更新
..
我正在使用 BeautifulSoup 进行网页抓取,并且在使用 urlopen 时遇到特定类型网站的问题.网站上的每个项目都有自己独特的页面,并且项目有不同的格式(例如:500 mL、1L、2L...). 当我使用 Internet 浏览器打开产品的 URL (www.example.com/product1) 时,我会看到一张 500 mL 格式的图片,以及有关它的信息 (价格、数量、风
..
我需要解析一个包含“代码"标签的 html 文档 我得到这样的代码块: soup = BeautifulSoup(str(content))代码块 = 汤.findAll('代码') 问题是,如果我有这样的代码标签: 列表人员 = 新列表(); BeautifulSoup 强制关闭嵌套标签并将代码块转换为: 列表人员 = 新列表(); 有
..
我正在尝试解析 google 搜索结果的第一页.具体来说,提供的标题和小摘要.这是我目前所拥有的: from urllib.request import urlretrieve导入 urllib.parse从 urllib.parse 导入 urlencode、urlparse、parse_qs导入浏览器从 bs4 导入 BeautifulSoup进口请求地址 = 'https://google
..
..
请考虑以下 python 会话: >>>从 BeautifulSoup 导入 BeautifulSoup>>>s = BeautifulSoup("
This is a test.
");myi = s.find("i")>>>myi.replaceWith(BeautifulSoup("was"))>>>s.find("i")>>>s = Beautifu
..
示例: 有时 HTML 是:
这是我不想要的文字这是我想要的文字 其他时候只是: 这是我想要的文字 我只想获取一个标签中的文本,而忽略所有其他子标签.如果我运行 .text 属性,我会得到两个. 解决方案 更新以使用更通用的方法(请参阅编辑历史以获取原始答案): 您可以通过测试它们是否是NavigableString. from bs4 i
..
我正在使用 BeautifulSoup 4,我有这个 html 代码: 长颈鹿 14 7
我想匹配 标签之间的两个值,所以这里是 14 和 7. 我试过了: giraffe = soup.find(text='Giraffe').findNext('td').text 但
..
我正在尝试将 html 字符串插入到 BeautifulSoup 对象中.如果我直接插入它,bs4 会清理 html.如果获取 html 字符串并从中创建汤,并插入我在使用 find 函数时遇到问题.SO 上的这个帖子线程表明插入 BeautifulSoup 对象可能会导致问题.我正在使用该帖子中的解决方案,并在每次插入时重新制作汤. 但肯定有更好的方法将 html 字符串插入到汤中.
..