beautifulsoup相关内容

BeautifulSoup 在 instagram html 页面中查找

我在查找 bs4 时遇到了问题. 我正在尝试在 html instagram 页面中自动查找一些 url,并且 (知道我是 python 菜鸟)我找不到在 html 源代码中自动搜索的方法示例中 "display_url": http..." 之后的 url. 我想让我的脚本搜索多个显示为“display_url"的url并下载它们.它们必须在源代码中出现的次数被提取. 用 bs ..
发布时间:2022-01-20 17:13:45 Python

如何从 HTML 字符串中获取美丽汤中的开始和结束标记?

我正在使用漂亮的汤编写一个 python 脚本,我必须从包含一些 HTML 代码的字符串中获取一个开始标签. 这是我的字符串: string = ... 我想在名为 opening_tag 的变量中获取 并在名为 的变量中获取 关闭标签.我已经搜索了文档,但似乎没有找到解决方案.谁能给我建议? 解决方案 有一种方法可以使用 BeautifulSoup ..
发布时间:2022-01-18 21:40:42 Python

在 BeautifulSoup 中使用字典解析脚本标签

为 this 问题提供部分答案,我来了bs4.element.Tag 是一堆嵌套的字典和列表(s,下面). 有没有办法使用 re.find_all 返回包含在 s 中的 url 列表?有关此标签结构的其他评论也很有帮助. 从 bs4 导入 BeautifulSoup导入请求链接 = 'https://stackoverflow.com/jobs?med=site-ui&ref=jobs-t ..
发布时间:2022-01-18 21:38:11 Python

使用 Find_All 函数返回意外的结果集

我正在使用 python 3.8.2 和 bs4 BeautifulSoup.我正在尝试查找标签的所有实例,并将每个实例都列在结果集中,每行一个.但是,返回的结果集包含的行数比网站的原始抓取要多.这是因为结果集的第一行包含该标记的所有实例.下一行包含除第一个实例之外的所有实例,第三行包含除第一个和第二个之外的所有实例,依此类推,结果集的其余部分. 代码如下: 从 bs4 导入 Beauti ..
发布时间:2022-01-18 21:01:16 前端开发

如何找到评论标签<!--...-->美丽汤?

我尝试了 soup.find('!--') 但它似乎不起作用.提前致谢. 编辑:感谢您提供有关如何查找所有评论的提示.我有一个后续问题.我如何专门搜索评论? 例如,我有以下评论标签: 星期三 110518(05:00PM) --> 我真的只是想要这些东西 Wednesday ..
发布时间:2022-01-18 21:00:19 前端开发

用 beautifulsoup 提取属性值

我正在尝试提取单个“值"的内容;特定“输入"中的属性网页上的标签.我使用以下代码: 导入urllibf = urllib.urlopen("http://58.68.130.147")s = f.read()f.close()从 BeautifulSoup 进口 BeautifulStoneSoup汤 = BeautifulStoneSoup(s)inputTag = soup.findAll( ..
发布时间:2022-01-13 17:29:35 Python

将 io.BytesIO 转换为 io.StringIO 以解析 HTML 页面

我正在尝试解析通过 pyCurl 检索到的 HTML 页面,但 pyCurl WRITEFUNCTION 将页面返回为 BYTES 而不是字符串,因此我无法使用 BeautifulSoup 解析它. 有没有办法将 io.BytesIO 转换为 io.StringIO? 或者有没有其他方法可以解析 HTML 页面? 我正在使用 Python 3.3.2. 解决方案 一种天真 ..
发布时间:2022-01-13 08:10:00 前端开发

如何让 BeautifulSoup 4 尊重自闭标签?

这个问题是针对 BeautifulSoup4 的问题,这使得它不同于以前的问题: BeautifulSoup 为什么要修改我的自闭合元素? BeautifulSoup 中的 selfClosingTags 由于 BeautifulStoneSoup 已经消失(之前的 xml 解析器),我怎样才能让 bs4 尊重一个新的自闭合标签?例如: 进口bs4S = ''' ..
发布时间:2022-01-10 19:44:27 Python