beautifulsoup相关内容

美汤根据部分属性值查找标签

我正在尝试根据属性值的一部分来识别 html 文档中的标签. 例如,如果我有一个 Beautifulsoup 对象: 将 bs4 导入为 BeautifulSoupr = requests.get("http://My_Page")汤 = BeautifulSoup(r.text, "html.parser") 我想要带有 id 属性的 tr 标签,其值的格式如下:“news_4343_ ..
发布时间:2021-12-23 20:53:38 Python

BeautifulSoup 给了我 unicode+html 符号,而不是直接的 unicode.这是错误还是误解?

我正在使用 BeautifulSoup 抓取网站.该网站的页面在我的浏览器中呈现良好: 乐施会题为“越位!http://www.coopamerica.org/programs/responsibleshopper/company.cfm?id=271 特别是单引号和双引号看起来不错.它们看起来像 html 符号而不是 ascii,但奇怪的是,当我在 FF3 中查看源代码时,它们似乎是 ..
发布时间:2021-12-23 20:53:11 前端开发

BeautifulSoup 找不到网页上存在的类?

所以我试图抓取以下网页 https://www.scoreboard.com/uk/football/england/premier-league/, 特别是预定的和完成的结果.因此,我试图寻找带有 class = "stage-finished" 或 "stage-scheduled" 的元素.但是,当我抓取网页并打印出 page_soup 包含的内容时,它不包含这些元素. 我发现了 ..
发布时间:2021-12-23 20:52:31 Python

BeautifulSoup:无法将 NavigableString 转换为字符串

我开始学习 Python,并决定编写一个简单的抓取工具.我遇到的一个问题是我无法将 NavigableString 转换为常规字符串. 使用 BeautifulSoup4 和 Python 3.5.1.我应该硬着头皮去使用早期版本的 Python 和 BeautifulSoup 吗?或者有什么办法我可以编写自己的函数来将 NavigableString 转换为常规的 unicode 字符串? ..
发布时间:2021-12-23 20:52:25 其他开发

Beautiful Soup 不等到页面完全加载

因此,使用下面的代码,我想打开一个公寓网站 URL 并抓取网页.唯一的问题是 Beautiful Soup 不会等到整个网页都被呈现.公寓不会在 html 中呈现,直到它们加载到页面上,这需要几秒钟.我该如何解决这个问题? from urllib.request import urlopen as uReq从 bs4 导入 BeautifulSoup 作为汤my_url = 'https://x ..
发布时间:2021-12-23 20:51:28 前端开发

熊猫 read_html - 没有找到表格

我正在尝试查看是否可以从 WU.com 读取数据表,但由于找不到表而出现类型错误.(这里也是第一次进行网络抓取)还有另一个人有一个非常相似的 stackoverflow 问题 here 使用 WU 数据表,但解决方案对我来说有点复杂. 将pandas导入为pddf_list = pd.read_html('https://www.wunderground.com/history/daily/us ..
发布时间:2021-12-23 20:51:21 Python

Beautifulsoup 丢失节点

我正在使用 Python 和 Beautifulsoup 来解析 HTML-Data 并从 RSS-Feeds 中获取 p-tags.然而,一些 url 会导致问题,因为解析的汤对象不包括文档的所有节点. 例如,我尝试解析 http://feeds.chicagotribune.com/~r/ChicagoBreakingNews/~3/T2Zg3dk4L88/story01.htm ..
发布时间:2021-12-23 20:51:12 Python

BeautifulSoup HTML 获取 src 链接

我正在使用 python 3.5.1 和请求模块制作一个小型网络爬虫,它从特定网站下载所有漫画.我正在试验一个页面.我使用 BeautifulSoup4 解析页面,如下所示: 导入浏览器导入系统进口请求进口重新进口BS4res = requests.get('http://mangapark.me/manga/berserk/s5/c342')res.raise_for_status()汤 = ..
发布时间:2021-12-23 20:50:42 前端开发