html-parsing 第4页 - IT屋-程序员软件开发技术分享社区

如何去除 BeautifulSoup 中的空格

我有一堆 HTML 正在用 BeautifulSoup 进行解析，除了一个小问题外，一切进展顺利.我想将输出保存为单行字符串，以下是我当前的输出: Zazzafooky 但一二三！ Zazzafooky2 ..

如何使用 BeautifulSoup 更改标签名称?

我正在使用 python + BeautifulSoup 来解析 HTML 文档. 现在我需要用替换 HTML 文档中的所有元素. 如何更改标签名称而不更改文档中的任何其他内容? 解决方案我不知道你是如何访问 tag 但以下对我有用: 导入 BeautifulSoup如果 __n ..

发布时间：2021-12-23 19:50:28 python html-parsing beautifulsoup Python

如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象?

我正在下载以下列方式定义了数据的 HTML 页面: ... window.blog.data = {"activity":{"type":"read"}};... 我想提取'window.blog.data'中定义的JSON对象.有没有比手动解析更简单的方法?(我正在研究 Beautiful Soap，但似乎无法找到一种无需解析即可返回确切对象的方法) 谢谢编辑:使用 pytho ..

发布时间：2021-12-23 19:48:45 python html-parsing beautifulsoup headless-browser Python

解析从 BeautifulSoup 返回的 JavaScript

我想解析网页 http://dcsd.nutrislice.com/menu/meadow-view/lunch/ 获取今天的午餐菜单.(我已经构建了一个 Adafruit #IoT 热敏打印机，我想每天自动打印菜单.) 我最初使用 BeautifulSoup 来解决这个问题，但结果证明大部分数据是在 JavaScript 中加载的，我不确定 BeautifulSoup 是否可以处理它.如果 ..

发布时间：2021-12-23 19:47:38 javascript python beautifulsoup html-parsing 前端开发

“findAll"和“findAll"之间的区别和“find_all"在美汤

我想用Python解析一个HTML文件，我使用的模块是BeautifulSoup. 据说函数find_all和findAll是一样的.我已经尝试过它们，但我相信它们是不同的: 导入 urllib、urllib2、cookielib从 BeautifulSoup 进口 *site = "http://share.dmhy.org/topics/list?keyword=TARI+TARI+t ..

发布时间：2021-12-23 19:45:35 python xml-parsing html-parsing beautifulsoup Python

BeautifulSoup findAll() 给出了多个类?

我想从网站上抓取项目列表，并保留它们的显示顺序.这些项目组织在一个表格中，但它们可以是两个不同类别之一(以随机顺序). 有没有办法提供多个类并让 BeautifulSoup4 找到任何给定类中的所有项目? 我需要实现这段代码的功能，除了保留源代码中的项目顺序: items = soup.findAll(True,{'class':'class1'})items += soup.fin ..

发布时间：2021-12-23 19:45:01 python html beautifulsoup html-parsing 前端开发

在 python 中解析 HTML - lxml 或 BeautifulSoup?哪些更适合用于哪些目的?

据我所知，Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup.我为我正在从事的项目选择了 BeautifulSoup，但我选择它并没有特别的原因，只是发现语法更易于学习和理解.但是我看到很多人似乎更喜欢 lxml，而且我听说 lxml 更快. 所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml，什么时候最好使用 BeautifulSoup?还 ..

发布时间：2021-12-23 19:44:37 python beautifulsoup html-parsing lxml Python

Groovy - 从 http URL 处理文件

我们其中一台服务器中的文件可以通过 http 访问.因此，当我们调出类似于以下内容的 url 时，我们会得到该位置的文件/目录列表: http://mytestserver/files/ 从这个列表中，我只需要选择那些匹配正则表达式格式的文件. 如果这是磁盘中的一个位置，我可以使用 eachFileMatch 方法并过滤我需要的文件. 有人可以帮助我如何从 http URL 执行此 ..

发布时间：2021-12-23 16:50:00 url groovy html-parsing 其他开发

为什么流浪 </p>结束标签生成一个空段落?

显然，如果您有一个结束标记，并且 body 元素中没有匹配的开始标记，那么大多数浏览器(如果不是全部)都会生成一个空段落取而代之: ..

发布时间：2021-12-18 13:39:44 html dom syntax html-parsing 前端开发

如何从网页中提取动态ajax内容

我的要求是从网页中提取所需的内容.该页面有一个部分正在使用 ajax 进行填充.当我在页面源中查看时，它没有显示使用 ajax 加载的内容.部分内容将根据选中的复选框而变化.如果我们选中“印度"复选框，则该部分将显示印度的所有详细信息.页面源将只显示默认内容，而不是使用 ajax 显示的内容.选中复选框后我检查了页面源，它仍然只显示默认值.如何获取该部分内容，解决方案在 C# 中可 ..

发布时间：2021-12-17 14:12:07 c# parsing c#-4.0 html-parsing web-scraping C#/.NET

使用 BeautifulSoup 抓取 IMDb 页面

我是 WebScraping/Python 和 BeautifulSoup 的新手，很难让我的代码正常工作. 我想抓取网址:http://m.imdb.com/feature/bornondate" 得到: 名人姓名名人形象职业最佳作品该页面上的十位名人.我不确定我做错了什么. 这是我的代码: 导入 urllib2从 bs4 导入 BeautifulSoup ..

发布时间：2021-12-17 14:11:32 python html web-scraping beautifulsoup html-parsing 前端开发

如何使用 CURL 解析 html 文件中的内容?

我想使用 CURL 解析 XHTML 内容.如何在标签之间废弃交易号、重量、高度、宽度.如何使用 CURL 仅从该 HTML 文档中删除内容并将其作为数组获取? transactions.php ..

发布时间：2021-12-17 14:08:02 php html curl html-parsing web-scraping PHP

使用 BeautifulSoup 根据属性提取图像 src

我正在使用 BeautifulSoup 从 IMDb 获取 HTML 页面，我想从页面中提取海报图像.我已经获得了基于其中一个属性的图像，但我不知道如何提取其中的数据. 这是我的代码: url = 'http://www.imdb.com/title/tt%s/' % (id)汤 = BeautifulSoup(urllib2.urlopen(url).read())打印(“在 FOR 之 ..

发布时间：2021-12-17 14:00:21 python html-parsing web-scraping beautifulsoup Python

Html-Agility-Pack 未加载包含完整内容的页面?

我正在使用 Html Agility Pack 从网站获取数据(抓取) 我的问题是我正在获取数据的网站在页面加载几秒钟后加载了一些内容. 所以每当我试图从特定 Div 读取特定数据时，它都会给我空值. 但在 var page 我只是没有得到部门 reviewBox ..因为它尚未加载. public void FetchAllLinks(String Url){网址 = "ht ..

发布时间：2021-12-17 13:54:48 asp.net html-parsing web-scraping html-agility-pack scrape C#/.NET

用美丽的汤解析 JS

我用漂亮的汤解析了一些页面.但是我有 js 代码: var utag_data = {customer_id : "_PHL2883198554",客户类型:“新"，忠诚度 ID : "N",denied_loyalty_interstitial :“假"，site_version : "桌面站点",site_currency: "de_DE_EURO",站点区域:“英国"，site_langu ..

发布时间：2021-12-17 13:54:30 python web-scraping html-parsing beautifulsoup Python

Python BeautifulSoup 刮表

我正在尝试使用 BeautifulSoup 创建一个表格.我写了这个 Python 代码: 导入 urllib2从 bs4 导入 BeautifulSoupurl = "http://dofollow.netsons.org/table1.htm" # 改成你的url页面 = urllib2.urlopen(url).read()汤 = BeautifulSoup(页面)对于我在soup.fin ..

发布时间：2021-12-17 13:45:13 python html web-scraping beautifulsoup html-parsing 前端开发

从下拉列表中的选定选项中抓取响应

这是一个页面示例，其中列出了所选球员的棒球统计数据，默认为最近一年(2014 年，很快将是 2015 年)http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 下拉列表允许用户选择回溯到 2010 年的年份，但不会更改显示的 url.如何从下拉列表中的每个值中抓取所有可用年份? ..

发布时间：2021-12-17 13:39:59 python drop-down-menu web-scraping beautifulsoup html-parsing Python

网页抓取带有动态 javascript 内容的网站

所以我使用 python 和 beautifulsoup4(我没有绑定)来抓取一个网站.问题是当我使用 urlib 抓取页面的 html 时，它不是整个页面，因为其中一些是通过 javascript 生成的.有什么办法可以解决这个问题吗? 解决方案基本上有两个主要选项可以进行: 使用浏览器开发人员工具，查看将要加载页面的 ajax 请求并在脚本中模拟它们，您可能需要使用 json ..

发布时间：2021-12-17 13:33:25 javascript python web-scraping beautifulsoup html-parsing 前端开发

加速beautifulsoup

我正在运行这个课程网站的抓取工具，我想知道是否有一种更快的方法可以在我将它放入 beautifulsoup 后抓取页面.花费的时间比我预期的要长. 提示? from selenium import webdriver从 selenium.webdriver.common.keys 导入密钥从 selenium.webdriver.support.ui 导入选择从 selenium.webd ..

发布时间：2021-12-17 13:29:26 python selenium web-scraping html-parsing beautifulsoup Python

如何使用 R 在 html 中的注释标签内抓取表格?

我正在尝试从 http://www.basketball-reference 中抓取.com/teams/CHI/2015.html 使用 rvest.我使用了 selectorgadget 并发现我想要的表的标签是#advanced.但是，我注意到它没有捡起来.查看页面源代码，我注意到表格位于 html 注释标签 ..

发布时间：2021-12-17 13:24:35 r web-scraping html-parsing scrape rvest 其他开发

html-parsing相关内容