beautifulsoup 第11页 - IT屋-程序员软件开发技术分享社区

刚刚安装了 BeautifulSoup Python 3.3.0

有谁知道如何解决它.我使用的是 Mac OS 10.8.2 >>>从 bs4 导入 BeautifulSoup回溯(最近一次调用最后一次):文件“"，第 1 行，在中文件“/Library/Frameworks/Python.framework/Versions/3.3/lib/python3.3/site-packages/bs4/__init__.py"，第 ..

发布时间：2021-12-23 20:22:29 python python-3.x beautifulsoup Python

urllib.error.URLError: ?

所以，我的代码只有 4 行.我正在尝试连接到一个网站，之后我尝试做的事情无关紧要，因为在没有其他代码的情况下出现了错误. import urllib.request从 bs4 导入 BeautifulSouphtml=urllib.request.urlopen('http://python-data.dr-chuck.net/known_by_Fikret.html').read()汤=Bea ..

发布时间：2021-12-23 20:10:53 python sockets beautifulsoup urllib Python

BeautifulSoup' 没有属性 'HTML_ENTITIES

我最近在一台 Windows 机器上将 BeautifulSoup 从 3.0 版升级到了 4.1 版. 我现在收到一个奇怪的错误: 文件“C:\path\to\myscript.py"，第23行0、在汤化中返回 BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)AttributeError: 类型对象“Beau ..

发布时间：2021-12-23 20:10:46 python beautifulsoup Python

使用 BeautifulSoup 创建 XML 文档

在我看过的所有关于 BeautifulSoup 的示例和教程中，传递了一个 HTML/XML 文档并返回一个汤对象，然后可以使用它来修改文档.但是，如何使用 BeautifulSoup 从头开始创建 HTML/XML 文档?换句话说，我想将数据放入 XML 文件中，但 XML 文件尚不存在，我想从头开始构建它.我该怎么办? 解决方案只需创建一个空的 BeautifulSoup() 对 ..

发布时间：2021-12-23 20:10:39 python xml beautifulsoup Python

BeautifulSoup get_text 不会剥离所有标签和 JavaScript

我正在尝试使用 BeautifulSoup 从网页中获取文本. 下面是我为此编写的脚本.它需要两个参数，第一个是输入的 HTML 或 XML 文件，第二个是输出文件. 导入系统从 bs4 导入 BeautifulSoupdef stripTags(s): 返回 BeautifulSoup(s).get_text()def stripTagsFromFile(inFile, outFile) ..

发布时间：2021-12-23 20:10:30 python html xml screen-scraping beautifulsoup 前端开发

如何使用 BeautifulSoup 从内联样式中提取 CSS 属性

我有这样的事情: 我正在使用 beautifulsoup 来解析 html.是否可以在“背景"css 属性中提取“url"? 解决方案您有几个选择 - 快 ..

发布时间：2021-12-23 20:10:21 python css inline beautifulsoup 前端开发

“列表"对象没有“超时"属性

我正在尝试使用 urllib.request.urlopen 从页面下载 Pdfs，但它返回一个错误:'list' object has no attribute 'timeout': def get_hansard_data(page_url):#将 base_url 读入美丽的汤对象html = urllib.request.urlopen(page_url).read()汤 = Beaut ..

发布时间：2021-12-23 20:10:13 python python-3.x beautifulsoup Python

安装 BeautifulSoup

我在我的 ubuntu 10.04 上运行 python 3.1.2 我需要安装哪个版本的 BeautifulSoup 以及如何安装? 我已经下载了 3.2 版本并运行 sudo python3 setup.py install但不起作用谢谢编辑:我得到的错误是: >>>进口美汤回溯(最近一次调用最后一次):文件“"，第 1 行，在中 ..

发布时间：2021-12-23 20:10:01 python beautifulsoup Python

提取所有 <script>HTML 页面中的标签并附加到文档的底部

谁能告诉我如何提取和删除 HTML 文档中的所有标签，并将它们添加到文档的末尾，就在 ?我想尽量避免使用 lxml. 谢谢. 解决方案答案很简单，可能会遗漏许多细微差别.然而，这应该让你知道如何去做，总体上改进它.我相信这可以改进，但您应该能够在文档的帮助下快速完成. 参考文档:http://www.crummy.com/softw ..

发布时间：2021-12-23 20:09:55 python beautifulsoup Python

使用 BeautifulSoup 解析 HTML 标签时，HTML 标签显示为空，但在浏览器中打开时有内容

我在通过 BS4 解析 html 页面时遇到问题.我在 html 页面中有一个隐藏的 div，我想使用 BeautifulSoup 读取其中的内容.其内容由通过主体 onload 触发的 javascript 函数动态生成. 问题是:当我在浏览器中调用页面时，标签具有它应该具有的内容.当我通过 BS4 解析同一个页面时，标签为空. 我找不到有关 BS4 无法处理 onload java ..

发布时间：2021-12-23 20:09:48 javascript python html beautifulsoup 前端开发

如何在 BeautifulSoup.contents 中保留空格

我在网上找到的大多数示例都展示了如何删除空格 - 但就我而言，我需要保留它..我有 html = "我可以用一只手翻转这整个东西\n D#m\n头目\nA# Dm A#\n我知道~~~~事实上，你宁愿拥有一些我来代替"bs = BeautifulSoup(html, 'html.parser ..

发布时间：2021-12-23 20:09:32 python beautifulsoup Python

获取 Instagram 关注者

我想用 BeautifulSoup 解析网站的关注者数量.这是我目前所拥有的: username_extract = 'lazada_my'url = 'https://www.instagram.com/'+ username_extractr = requests.get(url)汤 = BeautifulSoup(r.content,'lxml')f = soup.find('head', ..

发布时间：2021-12-23 20:09:16 python beautifulsoup instagram screen-scraping Python

如何在获取 Beautiful Soup 元素的 .string 时忽略标签?

我正在处理具有子标签的 HTML 元素，我想“忽略"或删除这些子标签，以便文本仍然存在.刚才，如果我尝试 .string 任何带有标签的元素，我得到的只是 None. 导入 bs4汤 = bs4.BeautifulSoup(""" 这是一个段落. 这是一个带有标签的段落. 这是另一段. ..

发布时间：2021-12-23 20:09:08 python dom html-parsing beautifulsoup Python

抓取使用 React JS 和 BeautifulSoup 呈现的元素

我想从这个特定页面的搜索结果中抓取 class="_1UoZlX" 的锚链接 - https://www.flipkart.com/search?as=on&as-pos=1_1_ic_sam&as-show=on&otracker=start&page=6&q=samsung+mobiles&sid=tyy%2F4io 当我从页面创建汤时，我意识到搜索结果是使用 React JS 呈现的， ..

发布时间：2021-12-23 20:08:59 javascript python selenium reactjs beautifulsoup 前端开发

使用 BeautifulSoup 修改 HTML

我想使用 Beautifulsoup 来修改 HTML 的整个 div.我试图修改 HTML，但是控制台输出有修改，但实际的 .html 文档本身没有被修改.没有创建新的 HTML. 有人可以帮我吗? from bs4 import BeautifulSoup,Tag进口重新导入 urllib2导入 os.pathbase=os.path.dirname(os.path.abspath(_ ..

发布时间：2021-12-23 20:08:50 python html beautifulsoup 前端开发

解析非标准 XML(CDATA 标签)

当我想使用 BeautifulSoup 库在 Python 中解析 XML 文档时，我遇到了一些问题.我要解析的 XML 文档: 2011-10-10 09:00 ..

发布时间：2021-12-23 20:08:41 python xml beautifulsoup Python

使用 BeautifulSoup 在 Python 中查找非递归 DOM 子节点

有没有办法在 Python 中使用 BeautifulSoup 找到非递归 DOM 子节点? 例如考虑解析一个 pom.xml 文件: ..

发布时间：2021-12-23 20:08:34 python xml dom xml-parsing beautifulsoup Python

超过最大递归深度.多处理和 bs4

我正在尝试使解析器使用 beautifulSoup 和多处理.我有一个错误: RecursionError:超过最大递归深度我的代码是: 导入bs4，请求，时间从 multiprocessing.pool 导入池html = requests.get('https://www.avito.ru/moskva/avtomobili/bmw/x6?sgtd=5&radius=0')汤 ..

发布时间：2021-12-23 20:08:28 python parsing beautifulsoup multiprocessing Python

如何从 Python 中查看 Tumblr 帖子的所有注释?

假设我查看以下 Tumblr 帖子:http://ronbarak.tumblr.com/post/40692813…… 它(目前)有 292 个笔记. 我想使用 Python 脚本(例如，通过 urllib2、BeautifulSoup、simplejson 或 tumblr Api)获取所有上述注释.一些广泛的谷歌搜索没有产生任何与 Tumblr 中的笔记提取相关的项目. 谁能为 ..

发布时间：2021-12-23 20:08:23 python beautifulsoup urllib2 tumblr Python

BeautifulSoup 的 Python 高内存使用率

我试图在 python 2.7.3 中使用 BeautifulSoup4 处理几个网页，但每次解析后内存使用量都会增加. 这个简化的代码产生了相同的行为: from bs4 import BeautifulSoup定义解析():f = open("index.html", "r")page = BeautifulSoup(f.read(), "lxml")f.close()而真:解析()原 ..

发布时间：2021-12-23 20:08:16 python memory beautifulsoup Python

beautifulsoup相关内容