html-parsing相关内容

美汤4:删除评论标签及其内容

我正在抓取的页面包含这些 HTML 代码.如何使用 bs4 删除注释标签 及其内容? 猫狗绵羊山羊NewPP 限制报告预处理器节点数:478/300000后扩展包括大小:4852/2097152 字节模板参数大小:870/2097152 字节昂贵的解析器函数计数:2/100ExtLoops 计数:6/100 --> 解决方案 您可以使用 extract ..
发布时间:2021-12-23 20:42:05 前端开发

使用 Python 2.7 解析 HTML - HTMLParser、SGMLParser 或 Beautiful Soup?

我想用 Python 2.7 做一些屏幕抓取,我没有关于 HTMLParser、SGMLParser 或 Beautiful Soup 之间差异的上下文. 这些都是为了解决同样的问题,还是出于不同的原因而存在?哪个最简单,哪个最健壮,哪个(如果有)是默认选择? 另外,如果我忽略了一个重要的选项,请告诉我. 编辑: 我应该提一下,我在 HTML 解析方面并不是特别有经验,而且我特别 ..
发布时间:2021-12-23 20:40:46 前端开发

在 Python 中使用 BeautifulSoup 获取直接父标签

我已经研究过这个问题,但还没有看到解决这个问题的实际解决方案.我在 Python 中使用 BeautifulSoup,我想要做的是从页面中获取所有图像标签,遍历每个标签并检查每个标签以查看它的直接父标签是否是锚标签. 这是一些伪代码: html = BeautifulSoup(responseHtml)对于 html.findAll('img') 中的图像:如果(image.parent. ..
发布时间:2021-12-23 20:40:24 前端开发

如何在 Python 中使用 BeautifulSoup 保存对 HTML 文件所做的更改?

我有下面的脚本,它修改 HTML 文件中的 href 属性(将来,它将是目录中的 HTML 文件列表).使用 BeautifulSoup,我设法访问标签值并按照我的需要修改它们,但我不知道如何保存对文件所做的更改. 导入操作系统进口重新从 bs4 导入 BeautifulSouphtmlDoc = open('adding_computer_c.html',"r+")汤 = BeautifulS ..
发布时间:2021-12-23 20:35:25 Python

Bs4 select_one vs find

我想知道执行 bs.find('div') 和 bs.select_one('div') 之间有什么区别.find_all 和 select 也是如此. 在性能方面是否有任何差异,或者在特定情况下是否有更好的使用. 解决方案 select() 和 select_one() 为您提供了一种不同的方式来浏览 HTML 树,使用CSS 选择器,语法丰富且方便.虽然,BeautifulSou ..
发布时间:2021-12-23 20:06:59 Python

使用 beautifulsoup 提取换行符之间的文本(例如 <br/> 标签)

我在一个较大的文档中有以下 HTML 重要文本 1 不重要的文字 重要文本 2 重要文本 3 非重要文本 重要文本 4 我目前正在使用 BeautifulSoup 来获取 HTML 中的其他元素,但我还没有找到一种方法来获取 标记之间的重要文本行.我可以隔离并导航到每个 元素,但找不到一种方法来获取 ..
发布时间:2021-12-23 20:03:29 前端开发

禁用特殊“类"属性处理

故事: 当您使用 BeautifulSoup 解析 HTML 时,class 属性被视为 多值属性 并以特殊方式处理: 请记住,单个标签的“class"属性可以有多个值.当您搜索与某个 CSS 类匹配的标签时,您正在匹配其任何 CSS 类. 此外,引用来自 BeautifulSoup 的内置 HTMLTreeBuilder 作为其他树构建器类的基础,例如 HTMLParserTr ..
发布时间:2021-12-23 19:59:35 前端开发

使用 BeautifulSoup 从表中提取选定的列

我正在尝试提取此数据表的第一列和第三列 使用 BeautifulSoup.从查看 HTML 来看,第一列有一个 标记.另一个感兴趣的列具有 标记.无论如何,我所能得到的只是带有标签的列的列表.但是,我只想要文字. table 已经是一个列表,所以我不能使用 findAll(text=True).我不确定如何以另一种形式获取第一列的列表. from BeautifulSoup import ..
发布时间:2021-12-23 19:55:48 Python