beautifulsoup相关内容
我正在尝试制作一个 python 脚本来从animefreak.tv 下载视频,这样我就可以在旅途中离线观看它们.另外,我认为这是学习一些网页抓取的好机会. 到目前为止我写这个是为了从这个链接下载 http://animefreak.tv/watch/hacklegend-twilight-bracelet-episode-1-english-dubbed-online-free URL
..
BeautifulSoup 解析 HTML 并提供各种在 HTML 中操作和搜索的方法.CSS 有没有类似的东西? 具体来说,我想知道给定的 HTML 文本是否呈现为粗体.它要么有一个祖先,即 或 标签(可以用 BeautifulSoup 完成),或者它有一个祖先(或它本身) 具有 font-weight: bold 的 CSS 属性. 这可能不会导致编写我自己的库吗? 解决方案
..
我需要从网站上抓取电子邮件.它在浏览器中可见,但是当我尝试用 requests\BeautifulSoup 抓取它时,我得到了这个:“[email protected]" 我可以用 Selenium 做到这一点,但需要更多时间,我想知道是否可以通过 requests\BeautifulSoup 抓取这些电子邮件?也许需要使用一些库来处理 js. 电子邮件标签:
..
我正在编写一个 python 脚本,它将在从网页解析后提取脚本位置.假设有两种情况: 和 一些JS 我可以从第二个场景中获取 JS,也就是将 JS 写入标签中. 但是有什么办法,我可以从第一个场景中获取 src 的值(即提取脚本
..
我正在使用 BeautifulSoup 来解析 html 页面中的一些内容. 我可以从 html 中提取我想要的内容(即包含在 class myclass 定义的 span 中的文本). result = mycontent.find(attrs={'class':'myclass'}) 我得到了这个结果: Lorem ipsum
d
..
试图从这样的东西中抓取一些 HTML.有时我需要的数据在div[0],有时在div[1]等 想象一下,每个人都上 3-5 节课.其中之一始终是生物学.他们的成绩单总是按字母顺序排列.我想要每个人的生物成绩. 我已经把所有这些 HTML 都刮成了一个文本,现在如何找出生物学成绩?
代数C-
..
这是我目前所拥有的: from bs4 import BeautifulSoup定义清洁(html):汤 = BeautifulSoup(html) # 从加载的 html 数据创建一个新的 bs4 对象对于汤中的脚本([“脚本"]):脚本.extract()文本 = 汤.get_text()返回文本testhtml = "\n\n这是一个
..
我想用 Python 2.7 做一些屏幕抓取,我没有关于 HTMLParser、SGMLParser 或 Beautiful Soup 之间差异的上下文. 这些都是为了解决同样的问题,还是出于不同的原因而存在?哪个最简单,哪个最健壮,哪个(如果有)是默认选择? 另外,如果我忽略了一个重要的选项,请告诉我. 编辑: 我应该提一下,我在 HTML 解析方面并不是特别有经验,而且我特别
..
我正在尝试使用美丽的汤来解析 html 并找到具有特定锚标记的所有 href TEXTTEXTTEXT 我正在寻找的所有链接都具有完全相同的锚文本,在本例中为 TEXT.我不是在找 TEXT 这个词,我想用 TEXT 这个词来找到所有不同的 H
..
我已经研究过这个问题,但还没有看到解决这个问题的实际解决方案.我在 Python 中使用 BeautifulSoup,我想要做的是从页面中获取所有图像标签,遍历每个标签并检查每个标签以查看它的直接父标签是否是锚标签. 这是一些伪代码: html = BeautifulSoup(responseHtml)对于 html.findAll('img') 中的图像:如果(image.parent.
..
我正在尝试从 下载一堆 pdf 文件在这里使用请求和beautifulsoup4.这是我的代码: 导入请求从 bs4 导入 BeautifulSoup 作为 bs_ANO = '2013/'_MES = '01/'_材料 = 'matematica/'_CONTEXT = 'wp-content/uploads/' + _ANO + _MES_URL = 'http://www.desconve
..
我尝试解析 html 页面并获取货币值并写入 csv.我有以下代码: #!/usr/bin/env python导入 urllib2从 BeautifulSoup 导入 BeautifulSoupcontenturl = "http://www.bank.gov.ua/control/en/curmetal/detail/currency?period=daily"汤 = BeautifulSo
..
抓取动态网站的最佳方法是什么,其中大部分内容是由似乎是 ajax 请求生成的?我以前有使用 Mechanize、BeautifulSoup 和 python 组合的经验,但我想尝试新的东西. --编辑--有关更多详细信息:我正在尝试抓取 CNN 主数据库.那里有丰富的信息,但似乎没有 api. 解决方案 我发现的最佳解决方案是使用 Firebug 监控 XmlHttpRequests
..
使用 Beautiful Soup 模块,如何获取类名为 feeditemcontent cxfeeditemcontent 的 div 标签的数据?是吗: soup.class['feeditemcontent cxfeeditemcontent'] 或: soup.find_all('class') 这是 HTML 源代码:
..
我正在尝试使用 BeautifulSoup 转换一段 HTML 文本.下面是一个例子:
一些文字更多文字更多文字
列表项
又一个列表项
其他一些文字
列表项
又一个列表项
我尝试做类似的事情: def parse_text(contents_string)
..
我正在尝试从多个 URL 中提取特定的类.标签和类保持不变,但我需要我的 Python 程序在我输入链接时抓取所有内容. 这是我的工作示例: from bs4 import BeautifulSoup进口请求导入打印进口重新导入 pyperclipurl = input('在此处插入网址:')#scrape 元素响应 = requests.get(url)汤 = BeautifulSoup
..
我正在尝试使用 BeautifulSoup 解析 DOM 树并提取作者姓名.下面是一段 HTML 代码,用于显示我将要抓取的代码的结构.
作者:林大成,
..
我有一些看起来像这样的 HTML: Title //随机数量的 p/uls 或无标签文本
下一个标题 我想将所有 HTML 从第一个 h1 复制到下一个 h1.我怎样才能做到这一点? 解决方案 这是一个清晰的 BeautifulSoup 方式,当第二个 h1 标签是第一个的兄弟时: html = u""用于soup.find("h1").next_siblings 中的标记
..
我有这个链接: 加利福尼亚州圣克拉拉 如何使用 BeautifulSoup 专门查找包含“位置"一词的此链接? 解决方案 你可以用一个简单的 "包含" CSS 选择器: soup.select("a[href*=location]") 或者,如果只需要匹配一个链接,使用select_one(): soup.select_one("a[href*=location]")
..
可以使用 PhantomJS 替代 美汤? 我正在尝试在 Etsy 上搜索并访问术语中的所有链接.在 Python 中,我知道如何做到这一点(使用 BeautifulSoup),但今天我想看看我是否可以使用 PhantomJS 做到这一点.我不会走得很远. 此脚本应在 Etsy 上搜索“hello kitty"并返回所有产品
..