html-parsing相关内容
我有一堆 HTML 正在用 BeautifulSoup 进行解析,除了一个小问题外,一切进展顺利.我想将输出保存为单行字符串,以下是我当前的输出: Zazzafooky 但一二三!
Zazzafooky2
..
我正在使用 python + BeautifulSoup 来解析 HTML 文档. 现在我需要用
替换 HTML 文档中的所有
元素. 如何更改标签名称而不更改文档中的任何其他内容? 解决方案 我不知道你是如何访问 tag 但以下对我有用: 导入 BeautifulSoup如果 __n
..
我正在下载以下列方式定义了数据的 HTML 页面: ... window.blog.data = {"activity":{"type":"read"}};... 我想提取'window.blog.data'中定义的JSON对象.有没有比手动解析更简单的方法?(我正在研究 Beautiful Soap,但似乎无法找到一种无需解析即可返回确切对象的方法) 谢谢 编辑:使用 pytho
..
我想解析网页 http://dcsd.nutrislice.com/menu/meadow-view/lunch/ 获取今天的午餐菜单.(我已经构建了一个 Adafruit #IoT 热敏打印机,我想每天自动打印菜单.) 我最初使用 BeautifulSoup 来解决这个问题,但结果证明大部分数据是在 JavaScript 中加载的,我不确定 BeautifulSoup 是否可以处理它.如果
..
我想用Python解析一个HTML文件,我使用的模块是BeautifulSoup. 据说函数find_all和findAll是一样的.我已经尝试过它们,但我相信它们是不同的: 导入 urllib、urllib2、cookielib从 BeautifulSoup 进口 *site = "http://share.dmhy.org/topics/list?keyword=TARI+TARI+t
..
我想从网站上抓取项目列表,并保留它们的显示顺序.这些项目组织在一个表格中,但它们可以是两个不同类别之一(以随机顺序). 有没有办法提供多个类并让 BeautifulSoup4 找到任何给定类中的所有项目? 我需要实现这段代码的功能,除了保留源代码中的项目顺序: items = soup.findAll(True,{'class':'class1'})items += soup.fin
..
据我所知,Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup.我为我正在从事的项目选择了 BeautifulSoup,但我选择它并没有特别的原因,只是发现语法更易于学习和理解.但是我看到很多人似乎更喜欢 lxml,而且我听说 lxml 更快. 所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml,什么时候最好使用 BeautifulSoup?还
..
我们其中一台服务器中的文件可以通过 http 访问.因此,当我们调出类似于以下内容的 url 时,我们会得到该位置的文件/目录列表: http://mytestserver/files/ 从这个列表中,我只需要选择那些匹配正则表达式格式的文件. 如果这是磁盘中的一个位置,我可以使用 eachFileMatch 方法并过滤我需要的文件. 有人可以帮助我如何从 http URL 执行此
..
显然,如果您有一个
结束标记,并且 body 元素中没有匹配的开始标记,那么大多数浏览器(如果不是全部)都会生成一个空段落取而代之:
..
我的要求是从网页中提取所需的内容.该页面有一个部分正在使用 ajax 进行填充.当我在页面源中查看时,它没有显示使用 ajax 加载的内容.部分内容将根据选中的复选框而变化.如果我们选中“印度"复选框,则该部分将显示印度的所有详细信息.页面源将只显示默认内容,而不是使用 ajax 显示的内容.选中复选框后我检查了页面源,它仍然只显示默认值.如何获取该部分内容, 解决方案 在 C# 中可
..
我是 WebScraping/Python 和 BeautifulSoup 的新手,很难让我的代码正常工作. 我想抓取网址:http://m.imdb.com/feature/bornondate" 得到: 名人姓名 名人形象 职业 最佳作品 该页面上的十位名人.我不确定我做错了什么. 这是我的代码: 导入 urllib2从 bs4 导入 BeautifulSoup
..
我想使用 CURL 解析 XHTML 内容.如何在 标签之间废弃交易号、重量、高度、宽度.如何使用 CURL 仅从该 HTML 文档中删除内容并将其作为数组获取? transactions.php
..
我正在使用 BeautifulSoup 从 IMDb 获取 HTML 页面,我想从页面中提取海报图像.我已经获得了基于其中一个属性的图像,但我不知道如何提取其中的数据. 这是我的代码: url = 'http://www.imdb.com/title/tt%s/' % (id)汤 = BeautifulSoup(urllib2.urlopen(url).read())打印(“在 FOR 之
..
我正在使用 Html Agility Pack 从网站获取数据(抓取) 我的问题是我正在获取数据的网站在页面加载几秒钟后加载了一些内容. 所以每当我试图从特定 Div 读取特定数据时,它都会给我空值. 但在 var page 我只是没有得到部门 reviewBox ..因为它尚未加载. public void FetchAllLinks(String Url){网址 = "ht
..
我用漂亮的汤解析了一些页面.但是我有 js 代码: var utag_data = {customer_id : "_PHL2883198554",客户类型:“新",忠诚度 ID : "N",denied_loyalty_interstitial :“假",site_version : "桌面站点",site_currency: "de_DE_EURO",站点区域:“英国",site_langu
..
我正在尝试使用 BeautifulSoup 创建一个表格.我写了这个 Python 代码: 导入 urllib2从 bs4 导入 BeautifulSoupurl = "http://dofollow.netsons.org/table1.htm" # 改成你的url页面 = urllib2.urlopen(url).read()汤 = BeautifulSoup(页面)对于我在soup.fin
..
这是一个页面示例,其中列出了所选球员的棒球统计数据,默认为最近一年(2014 年,很快将是 2015 年)http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 下拉列表允许用户选择回溯到 2010 年的年份,但不会更改显示的 url.如何从下拉列表中的每个值中抓取所有可用年份?
..
所以我使用 python 和 beautifulsoup4(我没有绑定)来抓取一个网站.问题是当我使用 urlib 抓取页面的 html 时,它不是整个页面,因为其中一些是通过 javascript 生成的.有什么办法可以解决这个问题吗? 解决方案 基本上有两个主要选项可以进行: 使用浏览器开发人员工具,查看将要加载页面的 ajax 请求并在脚本中模拟它们,您可能需要使用 json
..
我正在运行这个课程网站的抓取工具,我想知道是否有一种更快的方法可以在我将它放入 beautifulsoup 后抓取页面.花费的时间比我预期的要长. 提示? from selenium import webdriver从 selenium.webdriver.common.keys 导入密钥从 selenium.webdriver.support.ui 导入选择从 selenium.webd
..
我正在尝试从 http://www.basketball-reference 中抓取.com/teams/CHI/2015.html 使用 rvest.我使用了 selectorgadget 并发现我想要的表的标签是#advanced.但是,我注意到它没有捡起来.查看页面源代码,我注意到表格位于 html 注释标签
..