beautifulsoup相关内容

刚刚安装了 BeautifulSoup Python 3.3.0

有谁知道如何解决它.我使用的是 Mac OS 10.8.2 >>>从 bs4 导入 BeautifulSoup回溯(最近一次调用最后一次):文件“",第 1 行,在 中文件“/Library/Frameworks/Python.framework/Versions/3.3/lib/python3.3/site-packages/bs4/__init__.py",第 ..
发布时间:2021-12-23 20:22:29 Python

urllib.error.URLError: ?

所以,我的代码只有 4 行.我正在尝试连接到一个网站,之后我尝试做的事情无关紧要,因为在没有其他代码的情况下出现了错误. import urllib.request从 bs4 导入 BeautifulSouphtml=urllib.request.urlopen('http://python-data.dr-chuck.net/known_by_Fikret.html').read()汤=Bea ..
发布时间:2021-12-23 20:10:53 Python

BeautifulSoup' 没有属性 'HTML_ENTITIES

我最近在一台 Windows 机器上将 BeautifulSoup 从 3.0 版升级到了 4.1 版. 我现在收到一个奇怪的错误: 文件“C:\path\to\myscript.py",第23行0、在汤化中返回 BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)AttributeError: 类型对象“Beau ..
发布时间:2021-12-23 20:10:46 Python

使用 BeautifulSoup 创建 XML 文档

在我看过的所有关于 BeautifulSoup 的示例和教程中,传递了一个 HTML/XML 文档并返回一个汤对象,然后可以使用它来修改文档.但是,如何使用 BeautifulSoup 从头开始​​创建 HTML/XML 文档?换句话说,我想将数据放入 XML 文件中,但 XML 文件尚不存在,我想从头开始构建它.我该怎么办? 解决方案 只需创建一个空的 BeautifulSoup() 对 ..
发布时间:2021-12-23 20:10:39 Python

“列表"对象没有“超时"属性

我正在尝试使用 urllib.request.urlopen 从页面下载 Pdfs,但它返回一个错误:'list' object has no attribute 'timeout': def get_hansard_data(page_url):#将 base_url 读入美丽的汤对象html = urllib.request.urlopen(page_url).read()汤 = Beaut ..
发布时间:2021-12-23 20:10:13 Python

安装 BeautifulSoup

我在我的 ubuntu 10.04 上运行 python 3.1.2 我需要安装哪个版本的 BeautifulSoup 以及如何安装? 我已经下载了 3.2 版本并运行 sudo python3 setup.py install但不起作用 谢谢 编辑:我得到的错误是: >>>进口美汤回溯(最近一次调用最后一次):文件“",第 1 行,在 中 ..
发布时间:2021-12-23 20:10:01 Python

提取所有 <script>HTML 页面中的标签并附加到文档的底部

谁能告诉我如何提取和删除 HTML 文档中的所有 标签,并将它们添加到文档的末尾,就在 ?我想尽量避免使用 lxml. 谢谢. 解决方案 答案很简单,可能会遗漏许多细微差别.然而,这应该让你知道如何去做,总体上改进它.我相信这可以改进,但您应该能够在文档的帮助下快速完成. 参考文档:http://www.crummy.com/softw ..
发布时间:2021-12-23 20:09:55 Python

使用 BeautifulSoup 解析 HTML 标签时,HTML 标签显示为空,但在浏览器中打开时有内容

我在通过 BS4 解析 html 页面时遇到问题.我在 html 页面中有一个隐藏的 div,我想使用 BeautifulSoup 读取其中的内容.其内容由通过主体 onload 触发的 javascript 函数动态生成. 问题是:当我在浏览器中调用页面时,标签具有它应该具有的内容.当我通过 BS4 解析同一个页面时,标签为空. 我找不到有关 BS4 无法处理 onload java ..
发布时间:2021-12-23 20:09:48 前端开发

如何在 BeautifulSoup.contents 中保留空格

我在网上找到的大多数示例都展示了如何删除空格 - 但就我而言,我需要保留它..我有 html = "我可以用一只手翻转这整个东西\n D#m\n头目\nA# Dm A#\n我知道~~~~事实上,你宁愿拥有一些我来代替"bs = BeautifulSoup(html, 'html.parser ..
发布时间:2021-12-23 20:09:32 Python

使用 BeautifulSoup 修改 HTML

我想使用 Beautifulsoup 来修改 HTML 的整个 div.我试图修改 HTML,但是控制台输出有修改,但实际的 .html 文档本身没有被修改.没有创建新的 HTML. 有人可以帮我吗? from bs4 import BeautifulSoup,Tag进口重新导入 urllib2导入 os.pathbase=os.path.dirname(os.path.abspath(_ ..
发布时间:2021-12-23 20:08:50 前端开发

如何从 Python 中查看 Tumblr 帖子的所有注释?

假设我查看以下 Tumblr 帖子:http://ronbarak.tumblr.com/post/40692813…… 它(目前)有 292 个笔记. 我想使用 Python 脚本(例如,通过 urllib2、BeautifulSoup、simplejson 或 tumblr Api)获取所有上述注释.一些广泛的谷歌搜索没有产生任何与 Tumblr 中的笔记提取相关的项目. 谁能为 ..
发布时间:2021-12-23 20:08:23 Python

BeautifulSoup 的 Python 高内存使用率

我试图在 python 2.7.3 中使用 BeautifulSoup4 处理几个网页,但每次解析后内存使用量都会增加. 这个简化的代码产生了相同的行为: from bs4 import BeautifulSoup定义解析():f = open("index.html", "r")page = BeautifulSoup(f.read(), "lxml")f.close()而真:解析()原 ..
发布时间:2021-12-23 20:08:16 Python