bs4 - IT屋-程序员软件开发技术分享社区

如何使用 BeautifulSoup4 删除 XML 声明

我有一个结构如下的 XHTML 文件: ... ..

发布时间：2021-12-23 20:55:30 python xhtml beautifulsoup bs4 xml-declaration Python

使用python请求和美丽的汤来拉文本

感谢您查看我的问题.我想知道是否有任何方法可以从本文中提取数据站点密钥...这里是页面的 url https://e-com.secure.force.com/adidasUSContact/ ..

发布时间：2021-12-23 20:53:30 python beautifulsoup python-requests bs4 Python

我正在尝试将我的数据导出为 .txt 文件 from bs4 import BeautifulSoup进口请求导入操作系统导入操作系统os.getcwd()'/家/文件夹'os.mkdir("Probeersel6")os.chdir("Probeersel6")os.getcwd()'/home/桌面/文件夹'os.mkdir("img") #现在`文件夹`url = "http://nos. ..

发布时间：2021-12-23 20:50:06 python operating-system beautifulsoup python-requests bs4 Python

从存储的 .html 页面中提取新闻文章内容

我正在从 html 文件中读取文本并进行一些分析.这些 .html 文件是新闻文章. 代码: html = open(filepath,'r').read()raw = nltk.clean_html(html)raw.unidecode(item.decode('utf8')) 现在我只需要文章内容，而不是其他文本，如广告、标题等.如何在 python 中相对准确地做到这一点? ..

发布时间：2021-12-23 20:36:15 python urllib2 bs4 Python

Bs4 select_one vs find

我想知道执行 bs.find('div') 和 bs.select_one('div') 之间有什么区别.find_all 和 select 也是如此. 在性能方面是否有任何差异，或者在特定情况下是否有更好的使用. 解决方案 select() 和 select_one() 为您提供了一种不同的方式来浏览 HTML 树，使用CSS 选择器，语法丰富且方便.虽然，BeautifulSou ..

发布时间：2021-12-23 20:06:59 python beautifulsoup html-parsing bs4 Python

如何使用 Beautiful Soup 查找所有评论

The Science &您最喜欢的产品背后的安全性只是一个品牌 Google ..

发布时间：2021-12-23 19:46:44 python html beautifulsoup comments bs4 前端开发

使用 Beautifulsoup 解析 XML 文件时保持缩进

我正在使用 BS4 解析 XML 文件并尝试将其写回新的 XML 文件. 输入文件: 示例文本示例文本示例文本脚本: soup = BeautifulSoup(open("input.xml"), "xml")f = open("output.xml", "w") ..

发布时间：2021-10-01 20:19:37 python xml beautifulsoup bs4 Python

如何使用 BeautifulSoup 从网页上阅读更多内容来抓取评论

我试图从网站上抓取评论，但无法抓取带有“阅读更多"选项的评论.我只能获取数据，直到阅读更多.我正在使用 BeautifulSoup.任何帮助表示赞赏. 解决方案 @user5444075 and @SIM div.user-review p.lnhgt 上面的好像已经不存在了. 下面的xpath可以用来获取所有的href. //a[contains(@id,"lnkTitle" ..

发布时间：2021-09-24 19:06:40 python web-scraping beautifulsoup bs4 Python

Python如何在HTML中删除空行

我有问题.我从html中删除了一些标签.但是我希望输出没有空行.像这样的人. 肯亚(Kenya)Kasat Narkoba Polres民丹岛Diganti?Ini Pesa ..

发布时间：2021-04-15 19:20:43 python html beautifulsoup bs4 前端开发

Beautiful Soup 4 .string()'NoneType'对象不可调用

从bs4 导入BeautifulSoup导入系统汤= BeautifulSoup(open(sys.argv [2])，'html.parser')打印(soup.prettify)如果sys.argv [1] =="h":h2s = soup.find_all("h2")在hs中以h为单位:打印(h.string()) 第一个打印语句(作为测试添加)有效-所以我知道BS4正常工作.第二条打 ..

发布时间：2021-04-15 19:13:08 python python-3.x beautifulsoup nonetype bs4 Python

在BS4中使用findAll创建列表

首先，我将介绍Python的新知识.我最近一直在研究Slack机器人，这是我目前为止的位置. source = requests.get(url).content汤= BeautifulSoup(来源，'html.parser')价格= soup.findAll("a"，{"class":“定价"})[“数量"] 这是我要抓取的HTML代码. ..

发布时间：2021-04-15 19:10:04 python beautifulsoup bs4 Python

抓取需要您向下滚动的网站

我正尝试在此处抓取此网站: 但是，它要求我向下滚动才能收集其他数据.我不知道如何使用Beautiful soup或python向下滚动.这里有人知道吗? 代码有点混乱，但是就在这里. 导入scrapy从scrapy.selector导入选择器从testtest.items导入TesttestItem导入日期时间从硒导入webdriver从bs4导入BeautifulSoup从HTML ..

发布时间：2021-04-15 19:08:31 javascript python dynamic beautifulsoup bs4 前端开发

获取网页内容(不是从源代码)

我想从 ..

发布时间：2021-04-15 19:06:10 python python-2.7 web-scraping bs4 Python

BeautifulSoup.find_all()方法不适用于命名空间标签

今天与BeautifulSoup合作时，我遇到了一个非常奇怪的行为. 让我们看一个非常简单的html代码段: lele 我正在尝试通过BeautifulSoup获取标记的内容. 使用 find 方法时一切正常: 从bs4 ..

发布时间：2021-04-15 19:04:32 python python-3.x beautifulsoup bs4 Python

Python Beautiful Soup-获取输入值

我的计划是能够使用Bs4来获取_AntiCsrfToken. 我有这个HTML，我的HTML来自我在代码中写的是 token = soup.find('input', {'name':'_AntiCsrfToken'})['value']) print(token) 但这给我一个错误提示 Traceback (most recent call last): Fi ..

发布时间：2020-09-20 08:51:45 python bs4 Python

Python-使用BeautifulSoup 4在特定注释节点之间提取数据

希望从网站中选择特定数据，例如价格，公司信息等.幸运的是，网站设计者放置了很多标签，例如 ' desired data 为了使BS4返回给定标签之间的字符串，我需要什么样的代码? import requests from bs4 import BeautifulSou ..

发布时间：2020-09-20 08:45:01 python web-scraping bs4 Python

从给定的网页中提取特定的列

我正在尝试使用python阅读网页并将数据保存为csv格式，以作为pandas数据框导入. 我有以下代码从所有页面中提取链接，相反，我正在尝试读取某些列字段. for i in range(10): url='https://pythonexpress.in/workshop/'+str(i).zfill(3) import urllib2 from bs4 i ..

发布时间：2020-09-20 08:44:49 pandas beautifulsoup bs4 Python

如何输入值并单击带有请求的按钮?

使用请求模块，我最终想下载一首歌曲.如果您前往youtube-mp3.org，则有一个输入栏和一个转换按钮.转换完成后不久，就有一个下载按钮.现在，我想使用我的python脚本来完成整个过程. 到目前为止，我有这个: def download_song(song_name): import requests with requests.Session() as c: ..

发布时间：2020-09-20 08:44:41 python web-crawler python-requests bs4 Python

无法使用Python BeautifulSoup查找表

我正尝试从以下NOAA网站 https:中的表id = AWS中抓取数据://www.weather.gov/afc/alaskaObs ，但是当我尝试使用'.find'查找表时，我的结果显示为否.我可以返回父div，但似乎无法访问该表.下面是我的代码. from bs4 import BeautifulSoup from urllib2 import urlopen # Get soup ..

发布时间：2020-09-20 08:42:30 python web-scraping bs4 Python

bytes对象没有属性find_all

过去3个小时，我一直在努力抓取这个网站并获得每个团队的排名，名称，胜利和失败. 实施此代码时: import requests from bs4 import BeautifulSoup halo = requests.get("https://www.halowaypoint.com/en-us/esports/standings") page = BeautifulSoup(h ..

发布时间：2020-09-20 08:42:25 web-scraping byte python-requests bs4 其他开发

bs4相关内容