beautifulsoup相关内容
我正在尝试编写一个程序,该程序将采用 HTML 文件并使其对电子邮件更友好.现在所有的转换都是手动完成的,因为没有一个在线转换器完全满足我们的需求. 这听起来像是一个很好的机会,可以突破我的编程知识的极限并实际编写一些有用的东西,所以我提出尝试在业余时间编写一个程序,以帮助使过程更加自动化. 我对 HTML 或 CSS 不太了解,所以我主要依靠我的兄弟(他知道 HTML 和 CSS)来
..
我需要在 Python 中使用 BeautifulSoup 找到 HTML 文件中段落元素内的所有可见标签. 例如,
成百上千的命名芒果栽培品种存在.
应该返回: 存在数百种栽培品种. 附言某些文件包含需要提取的 Unicode 字符(印地语). 任何想法如何做到这一点?
..
这是我的文字
..
我正在尝试将我的数据导出为 .txt 文件 from bs4 import BeautifulSoup进口请求导入操作系统导入操作系统os.getcwd()'/家/文件夹'os.mkdir("Probeersel6")os.chdir("Probeersel6")os.getcwd()'/home/桌面/文件夹'os.mkdir("img") #现在`文件夹`url = "http://nos.
..
我正在尝试抓取 NDTV 网站的新闻标题.这个是我用作 HTML 源的页面.我正在使用 BeautifulSoup (bs4) 来处理 HTML 代码,并且一切正常,除了当我在链接到的页面中遇到印地语标题时我的代码会中断. 到目前为止我的代码是: 导入 urllib2从 bs4 导入 BeautifulSouphtmlUrl = "http://archives.ndtv.com/arti
..
我必须将包含大量无关表格、跨度和内联样式的极其凌乱的 HTML 归档处理为 Markdown. 我正在尝试使用 Beautiful Soup 来完成此任务,我的目标基本上是 get_text() 函数的输出,除了保留 href 完整的锚标记. 举个例子,我想转换: 你好世界
Foo Bar
..
我正在尝试抓取网页上所有项目的名称,但默认情况下,页面上只有 18 个可见 &我的代码只抓取那些.您可以通过单击“全部显示"按钮查看所有项目,但该按钮在 Javascript 中. 经过一番研究,我发现PyQt模块可以用来解决这个涉及javascript按钮的问题&我使用了它,但我仍然无法调用“点击"事件.下面是引用的代码: 导入csv导入 urllib2导入系统导入时间从 bs4 导入
..
我正在移植一个 bash 脚本,该脚本使用 curl 并将代码中的有效负载发布到 URL 并工作.基本问题是,使用 robobrowser,我在使用页面表单发布帖子时遇到了麻烦. 浏览网站: 登录/SubLogin.aspx 成功登录重定向/OptionsSummary.aspx 使用参数获取/FindMe.aspx POST/FindMe.aspx 按钮“电话列表"(页面应加载
..
我开始使用 beautifulsoup 来解析 HTML. 例如对于站点“http://en.wikipedia.org/wiki/PLCB1"> 导入系统sys.setrecursionlimit(10000)导入 urllib2, sys从 BeautifulSoup 导入 BeautifulSoup站点=“http://en.wikipedia.org/wiki/PLCB1"hdr =
..
我正在尝试从 天气中获取温度网站使用以下内容: 导入 urllib2从 BeautifulSoup 导入 BeautifulSoupf = open('airport_temp.tsv', 'w')f.write("位置" + "\t" + "高温 (F)" + "\t" + "低温 (F)" + "\t" + "平均湿度" + "\n" )最终从 http://www.wundergroun
..
..
这就是我想要做的:去这里,然后点击“搜索".获取数据,然后点击“下一步",并继续点击下一步,直到你用完页面.一切都到点击“下一步"工作.这是我的代码.r.content 的格式在我打印它的两次完全不同,表明即使我想要非常相似的行为,GET 和 POST 请求之间也发生了一些不同的事情.为什么会发生这种情况? 我觉得奇怪的是,即使在似乎返回错误内容的 POST 请求之后,我仍然可以解析我需要的
..
我使用此代码访问我的链接: links = soup.find("span", { "class" : "hsmall" })links.findNextSiblings('a')对于链接中的链接:打印链接['href']打印链接字符串 链接没有 ID 或类或其他什么,它只是一个带有 href 属性的经典链接. 我的脚本的响应是: 打印链接['href']类型错误:字符串索引必须是整数
..
我有一个循环: for 标签在soup.find('article'): 我需要在这个循环中的每个标签之后添加一个新标签.我尝试使用 insert() 方法无济于事. 如何使用 BeautifulSoup 解决此任务? 解决方案 你可以使用 insert_after,而且你可能需要 find_all 而不是 find 如果您尝试遍历节点集: from bs4 import Be
..
我很难让 BeautifulSoup 为我抓取一些数据.从此代码示例中访问日期(实际数字,2008 年)的最佳方式是什么?这是我第一次使用 Beautifulsoup,我已经想出了如何从页面上刮掉 url,但我不能完全缩小范围以只选择单词 Date,然后只返回后面的任何数字日期(在 dd括号).我问的可能吗? 日期2008年 解决方案 找到 dt 标签
..
是否可以只获取特定的 URL? 喜欢: next...下一步...
..
此代码: from bs4 import BeautifulSoup 不起作用,并出现此错误: raise AttributeError, "'%s' object has no attribute '%s'" % (self.__class__.__name__,attr)^语法错误:无效语法 我该怎么办? 解决方案 你应该使用pip来安装,所以你可以简单地做 pip inst
..
YCombinator 非常好,可以提供 RSS 提要 和 大型 RSS 提要 包含 HackerNews.我正在尝试编写一个 python 脚本来访问 RSS 提要文档,然后使用 BeautifulSoup 解析出某些信息.但是,当 BeautifulSoup 尝试获取每个项目的内容时,我遇到了一些奇怪的行为. 以下是 RSS 提要的一些示例行: Hacker Ne
..
我有一个来自网络的大表,通过请求访问并用 BeautifulSoup 解析.它的一部分看起来像这样: 265 JonesBlue 29
266 史密斯 34
..
我写了一些愚蠢的代码只是为了学习,但它不适用于任何网站.这是代码: import urllib2,re从 BeautifulSoup 导入 BeautifulSoup 作为汤班级创始人:def Find_all_links(self, url):page_source = urllib2.urlopen(url)a = page_source.read()汤 = 汤(一)a = 汤.findAl
..