beautifulsoup相关内容

如何将此 XPath 表达式转换为 BeautifulSoup?

回答 上一个问题,有几个人建议我使用BeautifulSoup为我的项目.我一直在努力处理他们的文档,但我无法解析它.有人可以指出我应该能够将此表达式转换为 BeautifulSoup 表达式的部分吗? hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+') 以上表达来自Scrapy.我正在尝试将正则表达式 re('\.a\w+' ..
发布时间:2021-12-23 20:47:49 Python

在 BeautifulSoup 3 中检查元素类型

如何在 BS3 中检查 Tag 元素是否属于某种类型,例如 div? 解决方案 您正在寻找 标签名称: if element.name == 'div': 演示: >>>从 bs4 导入 BeautifulSoup>>>汤 = BeautifulSoup(' ')>>>打印汤.find('div').namediv 这个属性在 Be ..
发布时间:2021-12-23 20:47:39 前端开发

是否有 OrderedDict 理解?

我不知道是否有这样的事情 - 但我正在尝试进行有序的字典理解.然而它似乎不起作用? 导入请求从 bs4 导入 BeautifulSoup从集合导入 OrderedDict汤 = BeautifulSoup(html, 'html.parser')表 = 汤.find_all('table')t_data = OrderedDict()行 = 表 [1].find_all('tr')t_data ..
发布时间:2021-12-23 20:47:30 Python

解析源代码(Python)方法:Beautiful Soup、lxml、html5lib 的区别?

我有一个很大的 HTML 源代码,我想解析 (~200,000) 行,而且我很确定整个过程中存在一些糟糕的格式.我一直在研究一些解析器,似乎 Beautiful Soup、lxml、html5lib 是最受欢迎的.从这个网站看,lxml是最常用的,也是最快的,而Beautiful Soup的速度较慢,但​​会导致更多的错误和变化. 我对 Beautiful Soup 文档有点困惑,http: ..
发布时间:2021-12-23 20:47:15 Python

尝试使用 Python 和 Selenium 迭代滚动和抓取网页

我最近问了一个问题(参考这里:Python Web Scraping(Beautiful Soup、Selenium 和 PhantomJS):仅抓取整页的一部分)有助于确定我在抓取页面的所有内容时遇到的问题,该页面在滚动时动态更新.但是,我仍然无法使用 selenium 使我的代码指向正确的元素并迭代地向下滚动页面.我还发现,当我手动向下滚动有问题的页面时,页面加载时的一些原始内容会在新内容更新 ..
发布时间:2021-12-23 20:46:29 前端开发

防止“隐藏"在 Python 中使用 urlopen() 重定向

我正在使用 BeautifulSoup 进行网页抓取,并且在使用 urlopen 时遇到特定类型网站的问题.网站上的每个项目都有自己独特的页面,并且项目有不同的格式(例如:500 mL、1L、2L...). 当我使用 Internet 浏览器打开产品的 URL (www.example.com/product1) 时,我会看到一张 500 mL 格式的图片,以及有关它的信息 (价格、数量、风 ..
发布时间:2021-12-23 20:46:22 Python

获取没有内部子标签文本的 HTML 标签文本

示例: 有时 HTML 是: 这是我不想要的文字这是我想要的文字 其他时候只是: 这是我想要的文字 我只想获取一个标签中的文本,而忽略所有其他子标签.如果我运行 .text 属性,我会得到两个. 解决方案 更新以使用更通用的方法(请参阅编辑历史以获取原始答案): 您可以通过测试它们是否是NavigableString. from bs4 i ..
发布时间:2021-12-23 20:45:42 Python

将 html 字符串插入到 BeautifulSoup 对象中

我正在尝试将 html 字符串插入到 BeautifulSoup 对象中.如果我直接插入它,bs4 会清理 html.如果获取 html 字符串并从中创建汤,并插入我在使用 find 函数时遇到问题.SO 上的这个帖子线程表明插入 BeautifulSoup 对象可能会导致问题.我正在使用该帖子中的解决方案,并在每次插入时重新制作汤. 但肯定有更好的方法将 html 字符串插入到汤中. ..
发布时间:2021-12-23 20:45:27 Python