bs4相关内容

从存储的 .html 页面中提取新闻文章内容

我正在从 html 文件中读取文本并进行一些分析.这些 .html 文件是新闻文章. 代码: html = open(filepath,'r').read()raw = nltk.clean_html(html)raw.unidecode(item.decode('utf8')) 现在我只需要文章内容,而不是其他文本,如广告、标题等.如何在 python 中相对准确地做到这一点? ..
发布时间:2021-12-23 20:36:15 Python

Bs4 select_one vs find

我想知道执行 bs.find('div') 和 bs.select_one('div') 之间有什么区别.find_all 和 select 也是如此. 在性能方面是否有任何差异,或者在特定情况下是否有更好的使用. 解决方案 select() 和 select_one() 为您提供了一种不同的方式来浏览 HTML 树,使用CSS 选择器,语法丰富且方便.虽然,BeautifulSou ..
发布时间:2021-12-23 20:06:59 Python

如何使用 BeautifulSoup 从网页上阅读更多内容来抓取评论

我试图从网站上抓取评论,但无法抓取带有“阅读更多"选项的评论.我只能获取数据,直到阅读更多.我正在使用 BeautifulSoup.任何帮助表示赞赏. 解决方案 @user5444075 and @SIM div.user-review p.lnhgt 上面的好像已经不存在了. 下面的xpath可以用来获取所有的href. //a[contains(@id,"lnkTitle" ..
发布时间:2021-09-24 19:06:40 Python

在BS4中使用findAll创建列表

首先,我将介绍Python的新知识.我最近一直在研究Slack机器人,这是我目前为止的位置. source = requests.get(url).content汤= BeautifulSoup(来源,'html.parser')价格= soup.findAll("a",{"class":“定价"})[“数量"] 这是我要抓取的HTML代码. ..
发布时间:2021-04-15 19:10:04 Python

抓取需要您向下滚动的网站

我正尝试在此处抓取此网站: 但是,它要求我向下滚动才能收集其他数据.我不知道如何使用Beautiful soup或python向下滚动.这里有人知道吗? 代码有点混乱,但是就在这里. 导入scrapy从scrapy.selector导入选择器从testtest.items导入TesttestItem导入日期时间从硒导入webdriver从bs4导入BeautifulSoup从HTML ..
发布时间:2021-04-15 19:08:31 前端开发

Python Beautiful Soup-获取输入值

我的计划是能够使用Bs4来获取_AntiCsrfToken. 我有这个HTML,我的HTML来自 我在代码中写的是 token = soup.find('input', {'name':'_AntiCsrfToken'})['value']) print(token) 但这给我一个错误提示 Traceback (most recent call last): Fi ..
发布时间:2020-09-20 08:51:45 Python

从给定的网页中提取特定的列

我正在尝试使用python阅读网页并将数据保存为csv格式,以作为pandas数据框导入. 我有以下代码从所有页面中提取链接,相反,我正在尝试读取某些列字段. for i in range(10): url='https://pythonexpress.in/workshop/'+str(i).zfill(3) import urllib2 from bs4 i ..
发布时间:2020-09-20 08:44:49 Python

如何输入值并单击带有请求的按钮?

使用请求模块,我最终想下载一首歌曲.如果您前往youtube-mp3.org,则有一个输入栏和一个转换按钮.转换完成后不久,就有一个下载按钮.现在,我想使用我的python脚本来完成整个过程. 到目前为止,我有这个: def download_song(song_name): import requests with requests.Session() as c: ..
发布时间:2020-09-20 08:44:41 Python

无法使用Python BeautifulSoup查找表

我正尝试从以下NOAA网站 https:中的表id = AWS中抓取数据://www.weather.gov/afc/alaskaObs ,但是当我尝试使用'.find'查找表时,我的结果显示为否.我可以返回父div,但似乎无法访问该表.下面是我的代码. from bs4 import BeautifulSoup from urllib2 import urlopen # Get soup ..
发布时间:2020-09-20 08:42:30 Python

bytes对象没有属性find_all

过去3个小时,我一直在努力抓取这个网站并获得每个团队的排名,名称,胜利和失败. 实施此代码时: import requests from bs4 import BeautifulSoup halo = requests.get("https://www.halowaypoint.com/en-us/esports/standings") page = BeautifulSoup(h ..
发布时间:2020-09-20 08:42:25 其他开发