beautifulsoup相关内容

如何使用 Selenium 下载此视频

我正在尝试制作一个 python 脚本来从animefreak.tv 下载视频,这样我就可以在旅途中离线观看它们.另外,我认为这是学习一些网页抓取的好机会. 到目前为止我写这个是为了从这个链接下载 http://animefreak.tv/watch/hacklegend-twilight-bracelet-episode-1-english-dubbed-online-free URL ..
发布时间:2021-12-23 20:41:45 Python

BeautifulSoup,但对于 CSS?

BeautifulSoup 解析 HTML 并提供各种在 HTML 中操作和搜索的方法.CSS 有没有类似的东西? 具体来说,我想知道给定的 HTML 文本是否呈现为粗体.它要么有一个祖先,即 或 标签(可以用 BeautifulSoup 完成),或者它有一个祖先(或它本身) 具有 font-weight: bold 的 CSS 属性. 这可能不会导致编写我自己的库吗? 解决方案 ..
发布时间:2021-12-23 20:41:38 前端开发

抓取受保护的电子邮件

我需要从网站上抓取电子邮件.它在浏览器中可见,但是当我尝试用 requests\BeautifulSoup 抓取它时,我得到了这个:“[email protected]" 我可以用 Selenium 做到这一点,但需要更多时间,我想知道是否可以通过 requests\BeautifulSoup 抓取这些电子邮件?也许需要使用一些库来处理 js. 电子邮件标签: ..
发布时间:2021-12-23 20:41:32 Python

使用 BeautifulSoup 获取属性值

我正在编写一个 python 脚本,它将在从网页解析后提取脚本位置.假设有两种情况: 和 一些JS 我可以从第二个场景中获取 JS,也就是将 JS 写入标签中. 但是有什么办法,我可以从第一个场景中获取 src 的值(即提取脚本 ..
发布时间:2021-12-23 20:41:24 Python

BeautifulSoup 中 get_text() 的建议

我正在使用 BeautifulSoup 来解析 html 页面中的一些内容. 我可以从 html 中提取我想要的内容(即包含在 class myclass 定义的 span 中的文本). result = mycontent.find(attrs={'class':'myclass'}) 我得到了这个结果: Lorem ipsum d ..
发布时间:2021-12-23 20:41:16 Python

如何使用 Beautiful Soup 按文本内容选择 div?

试图从这样的东西中抓取一些 HTML.有时我需要的数据在div[0],有时在div[1]等 想象一下,每个人都上 3-5 节课.其中之一始终是生物学.他们的成绩单总是按字母顺序排列.我想要每个人的生物成绩. 我已经把所有这些 HTML 都刮成了一个文本,现在如何找出生物学成绩? 代数C- ..
发布时间:2021-12-23 20:41:07 前端开发

使用 Python 2.7 解析 HTML - HTMLParser、SGMLParser 或 Beautiful Soup?

我想用 Python 2.7 做一些屏幕抓取,我没有关于 HTMLParser、SGMLParser 或 Beautiful Soup 之间差异的上下文. 这些都是为了解决同样的问题,还是出于不同的原因而存在?哪个最简单,哪个最健壮,哪个(如果有)是默认选择? 另外,如果我忽略了一个重要的选项,请告诉我. 编辑: 我应该提一下,我在 HTML 解析方面并不是特别有经验,而且我特别 ..
发布时间:2021-12-23 20:40:46 前端开发

在 Python 中使用 BeautifulSoup 获取直接父标签

我已经研究过这个问题,但还没有看到解决这个问题的实际解决方案.我在 Python 中使用 BeautifulSoup,我想要做的是从页面中获取所有图像标签,遍历每个标签并检查每个标签以查看它的直接父标签是否是锚标签. 这是一些伪代码: html = BeautifulSoup(responseHtml)对于 html.findAll('img') 中的图像:如果(image.parent. ..
发布时间:2021-12-23 20:40:24 前端开发

抓取动态网站

抓取动态网站的最佳方法是什么,其中大部分内容是由似乎是 ajax 请求生成的?我以前有使用 Mechanize、BeautifulSoup 和 python 组合的经验,但我想尝试新的东西. --编辑--有关更多详细信息:我正在尝试抓取 CNN 主数据库.那里有丰富的信息,但似乎没有 api. 解决方案 我发现的最佳解决方案是使用 Firebug 监控 XmlHttpRequests ..
发布时间:2021-12-23 20:39:50 前端开发

使用 Python 将 HTML 渲染为纯文本

我正在尝试使用 BeautifulSoup 转换一段 HTML 文本.下面是一个例子: 一些文字更多文字更多文字 列表项 又一个列表项 其他一些文字 列表项 又一个列表项 我尝试做类似的事情: def parse_text(contents_string) ..
发布时间:2021-12-23 20:39:27 Python

使用 Beautiful Soup 抓取多个 URL

我正在尝试从多个 URL 中提取特定的类.标签和类保持不变,但我需要我的 Python 程序在我输入链接时抓取所有内容. 这是我的工作示例: from bs4 import BeautifulSoup进口请求导入打印进口重新导入 pyperclipurl = input('在此处插入网址:')#scrape 元素响应 = requests.get(url)汤 = BeautifulSoup ..
发布时间:2021-12-23 20:39:12 Python

使用 BeautifulSoup 抓取两个标签之间的所有 HTML

我有一些看起来像这样的 HTML: Title //随机数量的 p/uls 或无标签文本 下一个标题 我想将所有 HTML 从第一个 h1 复制到下一个 h1.我怎样才能做到这一点? 解决方案 这是一个清晰的 BeautifulSoup 方式,当第二个 h1 标签是第一个的兄弟时: html = u""用于soup.find("h1").next_siblings 中的标记 ..
发布时间:2021-12-23 20:37:30 前端开发

BeautifulSoup 查找包含特定单词的链接

我有这个链接: 加利福尼亚州圣克拉拉 如何使用 BeautifulSoup 专门查找包含“位置"一词的此链接? 解决方案 你可以用一个简单的 "包含" CSS 选择器: soup.select("a[href*=location]") 或者,如果只需要匹配一个链接,使用select_one(): soup.select_one("a[href*=location]") ..
发布时间:2021-12-23 20:37:17 Python

如何使用 phantomjs 抓取链接

可以使用 PhantomJS 替代 美汤? 我正在尝试在 Etsy 上搜索并访问术语中的所有链接.在 Python 中,我知道如何做到这一点(使用 BeautifulSoup),但今天我想看看我是否可以使用 PhantomJS 做到这一点.我不会走得很远. 此脚本应在 Etsy 上搜索“hello kitty"并返回所有产品 ..
发布时间:2021-12-23 20:36:58 前端开发