beautifulsoup 第9页 - IT屋-程序员软件开发技术分享社区

如何使用 Selenium 下载此视频

我正在尝试制作一个 python 脚本来从animefreak.tv 下载视频，这样我就可以在旅途中离线观看它们.另外，我认为这是学习一些网页抓取的好机会. 到目前为止我写这个是为了从这个链接下载 http://animefreak.tv/watch/hacklegend-twilight-bracelet-episode-1-english-dubbed-online-free URL ..

发布时间：2021-12-23 20:41:45 python selenium web-scraping beautifulsoup wget Python

BeautifulSoup，但对于 CSS?

BeautifulSoup 解析 HTML 并提供各种在 HTML 中操作和搜索的方法.CSS 有没有类似的东西? 具体来说，我想知道给定的 HTML 文本是否呈现为粗体.它要么有一个祖先，即或标签(可以用 BeautifulSoup 完成)，或者它有一个祖先(或它本身) 具有 font-weight: bold 的 CSS 属性. 这可能不会导致编写我自己的库吗? 解决方案 ..

发布时间：2021-12-23 20:41:38 python css beautifulsoup 前端开发

抓取受保护的电子邮件

我需要从网站上抓取电子邮件.它在浏览器中可见，但是当我尝试用 requests\BeautifulSoup 抓取它时，我得到了这个:“[email protected]" 我可以用 Selenium 做到这一点，但需要更多时间，我想知道是否可以通过 requests\BeautifulSoup 抓取这些电子邮件?也许需要使用一些库来处理 js. 电子邮件标签: ..

发布时间：2021-12-23 20:41:32 python selenium beautifulsoup python-requests Python

使用 BeautifulSoup 获取属性值

我正在编写一个 python 脚本，它将在从网页解析后提取脚本位置.假设有两种情况: 和一些JS 我可以从第二个场景中获取 JS，也就是将 JS 写入标签中. 但是有什么办法，我可以从第一个场景中获取 src 的值(即提取脚本 ..

发布时间：2021-12-23 20:41:24 python python-2.7 beautifulsoup Python

BeautifulSoup 中 get_text() 的建议

我正在使用 BeautifulSoup 来解析 html 页面中的一些内容. 我可以从 html 中提取我想要的内容(即包含在 class myclass 定义的 span 中的文本). result = mycontent.find(attrs={'class':'myclass'}) 我得到了这个结果: Lorem ipsum d ..

发布时间：2021-12-23 20:41:16 python beautifulsoup Python

如何使用 Beautiful Soup 按文本内容选择 div?

试图从这样的东西中抓取一些 HTML.有时我需要的数据在div[0]，有时在div[1]等想象一下，每个人都上 3-5 节课.其中之一始终是生物学.他们的成绩单总是按字母顺序排列.我想要每个人的生物成绩. 我已经把所有这些 HTML 都刮成了一个文本，现在如何找出生物学成绩? 代数C- ..

发布时间：2021-12-23 20:41:07 html web-scraping beautifulsoup 前端开发

从 html 页面中删除所有样式、脚本和 html 标签

这是我目前所拥有的: from bs4 import BeautifulSoup定义清洁(html):汤 = BeautifulSoup(html) # 从加载的 html 数据创建一个新的 bs4 对象对于汤中的脚本([“脚本"]):脚本.extract()文本 = 汤.get_text()返回文本testhtml = "\n\n这是一个 ..

发布时间：2021-12-23 20:40:58 python html beautifulsoup 前端开发

使用 Python 2.7 解析 HTML - HTMLParser、SGMLParser 或 Beautiful Soup?

我想用 Python 2.7 做一些屏幕抓取，我没有关于 HTMLParser、SGMLParser 或 Beautiful Soup 之间差异的上下文. 这些都是为了解决同样的问题，还是出于不同的原因而存在?哪个最简单，哪个最健壮，哪个(如果有)是默认选择? 另外，如果我忽略了一个重要的选项，请告诉我. 编辑: 我应该提一下，我在 HTML 解析方面并不是特别有经验，而且我特别 ..

发布时间：2021-12-23 20:40:46 python html parsing beautifulsoup html-parsing 前端开发

python/beautifulsoup 查找所有 <a href>带有特定的锚文本

我正在尝试使用美丽的汤来解析 html 并找到具有特定锚标记的所有 href TEXTTEXTTEXT 我正在寻找的所有链接都具有完全相同的锚文本，在本例中为 TEXT.我不是在找 TEXT 这个词，我想用 TEXT 这个词来找到所有不同的 H ..

发布时间：2021-12-23 20:40:34 python beautifulsoup Python

在 Python 中使用 BeautifulSoup 获取直接父标签

我已经研究过这个问题，但还没有看到解决这个问题的实际解决方案.我在 Python 中使用 BeautifulSoup，我想要做的是从页面中获取所有图像标签，遍历每个标签并检查每个标签以查看它的直接父标签是否是锚标签. 这是一些伪代码: html = BeautifulSoup(responseHtml)对于 html.findAll('img') 中的图像:如果(image.parent. ..

发布时间：2021-12-23 20:40:24 python html beautifulsoup html-parsing 前端开发

我正在尝试从下载一堆 pdf 文件在这里使用请求和beautifulsoup4.这是我的代码: 导入请求从 bs4 导入 BeautifulSoup 作为 bs_ANO = '2013/'_MES = '01/'_材料 = 'matematica/'_CONTEXT = 'wp-content/uploads/' + _ANO + _MES_URL = 'http://www.desconve ..

发布时间：2021-12-23 20:40:11 python download beautifulsoup python-requests Python

如何用python和beautifulsoup解析html表并写入csv

我尝试解析 html 页面并获取货币值并写入 csv.我有以下代码: #!/usr/bin/env python导入 urllib2从 BeautifulSoup 导入 BeautifulSoupcontenturl = "http://www.bank.gov.ua/control/en/curmetal/detail/currency?period=daily"汤 = BeautifulSo ..

发布时间：2021-12-23 20:40:03 python beautifulsoup Python

抓取动态网站

抓取动态网站的最佳方法是什么，其中大部分内容是由似乎是 ajax 请求生成的?我以前有使用 Mechanize、BeautifulSoup 和 python 组合的经验，但我想尝试新的东西. --编辑--有关更多详细信息:我正在尝试抓取 CNN 主数据库.那里有丰富的信息，但似乎没有 api. 解决方案我发现的最佳解决方案是使用 Firebug 监控 XmlHttpRequests ..

发布时间：2021-12-23 20:39:50 python ajax screen-scraping beautifulsoup 前端开发

使用 Beautiful Soup 按类名获取内容

使用 Beautiful Soup 模块，如何获取类名为 feeditemcontent cxfeeditemcontent 的 div 标签的数据?是吗: soup.class['feeditemcontent cxfeeditemcontent'] 或: soup.find_all('class') 这是 HTML 源代码: ..

发布时间：2021-12-23 20:39:38 python beautifulsoup Python

使用 Python 将 HTML 渲染为纯文本

我正在尝试使用 BeautifulSoup 转换一段 HTML 文本.下面是一个例子: 一些文字更多文字更多文字列表项又一个列表项其他一些文字列表项又一个列表项我尝试做类似的事情: def parse_text(contents_string) ..

发布时间：2021-12-23 20:39:27 python beautifulsoup Python

使用 Beautiful Soup 抓取多个 URL

我正在尝试从多个 URL 中提取特定的类.标签和类保持不变，但我需要我的 Python 程序在我输入链接时抓取所有内容. 这是我的工作示例: from bs4 import BeautifulSoup进口请求导入打印进口重新导入 pyperclipurl = input('在此处插入网址:')#scrape 元素响应 = requests.get(url)汤 = BeautifulSoup ..

发布时间：2021-12-23 20:39:12 python beautifulsoup Python

在 Python 中使用 BeautifulSoup 解析数据

我正在尝试使用 BeautifulSoup 解析 DOM 树并提取作者姓名.下面是一段 HTML 代码，用于显示我将要抓取的代码的结构. 作者:林大成, ..

发布时间：2021-12-23 20:39:03 python html parsing beautifulsoup 前端开发

使用 BeautifulSoup 抓取两个标签之间的所有 HTML

我有一些看起来像这样的 HTML: Title //随机数量的 p/uls 或无标签文本下一个标题我想将所有 HTML 从第一个 h1 复制到下一个 h1.我怎样才能做到这一点? 解决方案这是一个清晰的 BeautifulSoup 方式，当第二个 h1 标签是第一个的兄弟时: html = u""用于soup.find("h1").next_siblings 中的标记 ..

发布时间：2021-12-23 20:37:30 python html beautifulsoup 前端开发

BeautifulSoup 查找包含特定单词的链接

我有这个链接: 加利福尼亚州圣克拉拉如何使用 BeautifulSoup 专门查找包含“位置"一词的此链接? 解决方案你可以用一个简单的 "包含" CSS 选择器: soup.select("a[href*=location]") 或者，如果只需要匹配一个链接，使用select_one(): soup.select_one("a[href*=location]") ..

发布时间：2021-12-23 20:37:17 python beautifulsoup Python

如何使用 phantomjs 抓取链接

可以使用 PhantomJS 替代美汤? 我正在尝试在 Etsy 上搜索并访问术语中的所有链接.在 Python 中，我知道如何做到这一点(使用 BeautifulSoup)，但今天我想看看我是否可以使用 PhantomJS 做到这一点.我不会走得很远. 此脚本应在 Etsy 上搜索“hello kitty"并返回所有产品 ..

发布时间：2021-12-23 20:36:58 javascript beautifulsoup phantomjs casperjs 前端开发

beautifulsoup相关内容