beautifulsoup相关内容

使用 Beautiful Soup 将 CSS 属性转换为单个 HTML 属性?

我正在尝试编写一个程序,该程序将采用 HTML 文件并使其对电子邮件更友好.现在所有的转换都是手动完成的,因为没有一个在线转换器完全满足我们的需求. 这听起来像是一个很好的机会,可以突破我的编程知识的极限并实际编写一些有用的东西,所以我提出尝试在业余时间编写一个程序,以帮助使过程更加自动化. 我对 HTML 或 CSS 不太了解,所以我主要依靠我的兄弟(他知道 HTML 和 CSS)来 ..
发布时间:2021-12-23 20:50:33 前端开发

在 BeautifulSoup 中处理印度语言

我正在尝试抓取 NDTV 网站的新闻标题.这个是我用作 HTML 源的页面.我正在使用 BeautifulSoup (bs4) 来处理 HTML 代码,并且一切正常,除了当我在链接到的页面中遇到印地语标题时我的代码会中断. 到目前为止我的代码是: 导入 urllib2从 bs4 导入 BeautifulSouphtmlUrl = "http://archives.ndtv.com/arti ..
发布时间:2021-12-23 20:49:56 Python

调用“点击事件"的问题在 html 页面上使用 Python 中的美丽汤

我正在尝试抓取网页上所有项目的名称,但默认情况下,页面上只有 18 个可见 &我的代码只抓取那些.您可以通过单击“全部显示"按钮查看所有项目,但该按钮在 Javascript 中. 经过一番研究,我发现PyQt模块可以用来解决这个涉及javascript按钮的问题&我使用了它,但我仍然无法调用“点击"事件.下面是引用的代码: 导入csv导入 urllib2导入系统导入时间从 bs4 导入 ..
发布时间:2021-12-23 20:49:44 Python

Python - 请求/RoboBrowser - ASPX POST JavaScript

我正在移植一个 bash 脚本,该脚本使用 curl 并将代码中的有效负载发布到 URL 并工作.基本问题是,使用 robobrowser,我在使用页面表单发布帖子时遇到了麻烦. 浏览网站: 登录/SubLogin.aspx 成功登录重定向/OptionsSummary.aspx 使用参数获取/FindMe.aspx POST/FindMe.aspx 按钮“电话列表"(页面应加载 ..
发布时间:2021-12-23 20:49:36 C#/.NET

使用 beautifulsoup 解析 HTML 页面

我开始使用 beautifulsoup 来解析 HTML. 例如对于站点“http://en.wikipedia.org/wiki/PLCB1"> 导入系统sys.setrecursionlimit(10000)导入 urllib2, sys从 BeautifulSoup 导入 BeautifulSoup站点=“http://en.wikipedia.org/wiki/PLCB1"hdr = ..
发布时间:2021-12-23 20:49:29 前端开发

在会话中发出后续 POST 请求不起作用 - 网络抓取

这就是我想要做的:去这里,然后点击“搜索".获取数据,然后点击“下一步",并继续点击下一步,直到你用完页面.一切都到点击“下一步"工作.这是我的代码.r.content 的格式在我打印它的两次完全不同,表明即使我想要非常相似的行为,GET 和 POST 请求之间也发生了一些不同的事情.为什么会发生这种情况? 我觉得奇怪的是,即使在似乎返回错误内容的 POST 请求之后,我仍然可以解析我需要的 ..
发布时间:2021-12-23 20:49:12 Python

用 Beautiful Soup 提取 href

我使用此代码访问我的链接: links = soup.find("span", { "class" : "hsmall" })links.findNextSiblings('a')对于链接中的链接:打印链接['href']打印链接字符串 链接没有 ID 或类或其他什么,它只是一个带有 href 属性的经典链接. 我的脚本的响应是: 打印链接['href']类型错误:字符串索引必须是整数 ..
发布时间:2021-12-23 20:49:08 Python

在当前标签后添加新的 HTML 标签

我有一个循环: for 标签在soup.find('article'): 我需要在这个循环中的每个标签之后添加一个新标签.我尝试使用 insert() 方法无济于事. 如何使用 BeautifulSoup 解决此任务? 解决方案 你可以使用 insert_after,而且你可能需要 find_all 而不是 find 如果您尝试遍历节点集: from bs4 import Be ..
发布时间:2021-12-23 20:48:59 Python

使用 BeautifulSoup 获取特定标签后的值

我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字,2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup,我已经想出了如何从页面上刮掉 url,但我不能完全缩小范围以只选择单词 Date,然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年 解决方案 找到 dt 标签 ..
发布时间:2021-12-23 20:48:54 Python

我如何从 bs4 导入 BeautifulSoup?

此代码: from bs4 import BeautifulSoup 不起作用,并出现此错误: raise AttributeError, "'%s' object has no attribute '%s'" % (self.__class__.__name__,attr)^语法错误:无效语法 我该怎么办? 解决方案 你应该使用pip来安装,所以你可以简单地做 pip inst ..
发布时间:2021-12-23 20:48:39 Python

为什么 BeautifulSoup 无法正确读取/解析此 RSS (XML) 文档?

YCombinator 非常好,可以提供 RSS 提要 和 大型 RSS 提要 包含 HackerNews.我正在尝试编写一个 python 脚本来访问 RSS 提要文档,然后使用 BeautifulSoup 解析出某些信息.但是,当 BeautifulSoup 尝试获取每个项目的内容时,我遇到了一些奇怪的行为. 以下是 RSS 提要的一些示例行: Hacker Ne ..
发布时间:2021-12-23 20:48:30 Python