beautifulsoup相关内容

如何使用 CSS 选择器使用 BeautifulSoup 检索位于某个类中的特定链接?

我是 Python 新手,我正在学习它是为了抓取,我正在使用 BeautifulSoup 来收集链接(即“a"标签的 href).我正在尝试收集站点 http://allevents.in/lahore/的“即将举行的活动"选项卡下的链接一个>.我正在使用 Firebug 来检查元素并获取 CSS 路径,但这段代码没有返回任何内容.我正在寻找解决方法以及一些关于如何选择适当的 CSS 选择器以从任 ..
发布时间:2022-01-10 00:07:22 前端开发

树莓派无法安装lxml pip包

我在安装 BeautifulSoup4 包后尝试安装 lxml 包. 在终端输入: sudo pip install lxml 这是我得到的 sudo pip install lxml下载/解压 lxml为包 lxml 运行 setup.py egg_info构建 lxml 版本 3.6.1.没有 Cython 的构建.使用 libxslt 1.1.26 的构建配置在以下目录中针对 l ..
发布时间:2022-01-05 11:02:15 Python

与浏览器响应不同的糟糕响应

我正在尝试使用 scrapy 抓取此页面: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391 我得到的响应与我在浏览器中看到的不同.浏览器响应有正确的页面,而scrapy响应是: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1 页面.我试过 u ..
发布时间:2022-01-04 21:04:42 其他开发

只有'div's 的表格刮擦

当尝试抓取网页时,该表没有 标签,全部是 标签. 我试图抓取的站点检查器如下所示:检查员截图 我希望能够从 table-row 类中获取信息,但抓取从不返回任何内容.使用下面的代码,当我抓取 .table-header 或只是 .practiceDataTable 时,我能够从中获取数据. 导入 bs4进口请求res = requests.get('https://www.nasc ..
发布时间:2021-12-31 20:29:35 Python

从数据帧循环 url 并在 Python 中下载 pdf 文件

基于 的代码在这里,我可以为每次交易抓取url 并将它们保存到可以在此处下载的excel文件. 现在我想更进一步,点击url链接: 对于每个url,我需要打开和保存pdf格式的文件: 我怎么能在 Python 中做到这一点?任何帮助将不胜感激. 参考代码: 导入shutil从 bs4 导入 BeautifulSoup进口请求导入操作系统从 urllib.parse 导入 ..
发布时间:2021-12-31 20:25:42 其他开发

使用请求登录有问题的站点

我正在尝试使用请求模块在 python 中创建一个脚本来登录这个网站 我正在使用我的凭据,但我找不到任何方法来这样做,因为我看不到随请求一起发送所需的参数(在 chrome 开发工具中). 用户名:SIMMTH.iqbal_123密码:SShift_123 登录表单看起来像这个. 这是我最初的尝试(我真的在那个页面中找不到任何东西开始): 导入请求从 bs4 导入 Beautif ..
发布时间:2021-12-31 20:24:52 Python

如何只打印文本beautifulsoup

我正在尝试了解 beautifulsoup 的工作原理以创建应用程序. 我可以使用 .find_all() 查找和打印所有元素,但它们也会打印 html 标签.如何仅打印这些标签内的文本. 这就是我所拥有的: from bs4 import BeautifulSoup""" 1 2 3 """汤 = BeautifulSoup(open('index ..
发布时间:2021-12-23 20:57:26 Python

删除评论标签但不满足 BeautifulSoup

我正在使用 BeautifulSoup 练习一些网页抓取,特别是我正在查看 NFL 比赛数据,更具体地说是此页面上的“球队统计数据"表(https://www.pro-football-reference.com/boxscores/201809060phi.htm). 查看表格的 HTML 时,我看到如下内容: ... ..
发布时间:2021-12-23 20:57:17 前端开发

Python 中的 HTML 文件解析

我有一个很长的 html 文件,看起来完全像这样 - html 文件.我希望能够解析该文件,以便在 tuple 的表单中获取信息. 示例: 切赫 切尔西 30 £6.4 上面的信息看起来像("Cech", "Chelsea", 30, 6.4).但是,如果您仔细查看我发布的 link,我发布的 html 示例属于 ..
发布时间:2021-12-23 20:57:13 前端开发

在 BeautifulSoup4 的 findAll 中包含多个类名

我在 python 脚本中有一行代码,如下所示 对于soup.findAll('div',{'class':'cb-lv-scrs-col cb-font-12 cb-text-complete'})中的摘要:#用总结做点什么 但是,我希望摘要中还包括来自 div 项目的项目以及另一个名为 cb-scag-mtch-status cb-text-inprogress 我已经尝试了以下给出 ..
发布时间:2021-12-23 20:56:31 Python

如何在python中与beautifulsoup并行抓取多个html页面?

我正在使用 Django 网络框架在 Python 中制作一个网络抓取应用程序.我需要使用 beautifulsoup 库来抓取多个查询.这是我编写的代码的快照: 用于网站中的 url:r = requests.get(url)汤 = BeautifulSoup(r.content)链接 = 汤.find_all("a", {"class":"dev-link"}) 实际上这里的网页抓取是按 ..