html-parsing相关内容

如何使用 BeautifulSoup 更改标签名称?

我正在使用 python + BeautifulSoup 来解析 HTML 文档. 现在我需要用 替换 HTML 文档中的所有 元素. 如何更改标签名称而不更改文档中的任何其他内容? 解决方案 我不知道你是如何访问 tag 但以下对我有用: 导入 BeautifulSoup如果 __n ..
发布时间:2021-12-23 19:50:28 Python

如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象?

我正在下载以下列方式定义了数据的 HTML 页面: ... window.blog.data = {"activity":{"type":"read"}};... 我想提取'window.blog.data'中定义的JSON对象.有没有比手动解析更简单的方法?(我正在研究 Beautiful Soap,但似乎无法找到一种无需解析即可返回确切对象的方法) 谢谢 编辑:使用 pytho ..
发布时间:2021-12-23 19:48:45 Python

解析从 BeautifulSoup 返回的 JavaScript

我想解析网页 http://dcsd.nutrislice.com/menu/meadow-view/lunch/ 获取今天的午餐菜单.(我已经构建了一个 Adafruit #IoT 热敏打印机,我想每天自动打印菜单.) 我最初使用 BeautifulSoup 来解决这个问题,但结果证明大部分数据是在 JavaScript 中加载的,我不确定 BeautifulSoup 是否可以处理它.如果 ..
发布时间:2021-12-23 19:47:38 前端开发

BeautifulSoup findAll() 给出了多个类?

我想从网站上抓取项目列表,并保留它们的显示顺序.这些项目组织在一个表格中,但它们可以是两个不同类别之一(以随机顺序). 有没有办法提供多个类并让 BeautifulSoup4 找到任何给定类中的所有项目? 我需要实现这段代码的功能,除了保留源代码中的项目顺序: items = soup.findAll(True,{'class':'class1'})items += soup.fin ..
发布时间:2021-12-23 19:45:01 前端开发

在 python 中解析 HTML - lxml 或 BeautifulSoup?哪些更适合用于哪些目的?

据我所知,Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup.我为我正在从事的项目选择了 BeautifulSoup,但我选择它并没有特别的原因,只是发现语法更易于学习和理解.但是我看到很多人似乎更喜欢 lxml,而且我听说 lxml 更快. 所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml,什么时候最好使用 BeautifulSoup?还 ..
发布时间:2021-12-23 19:44:37 Python

Groovy - 从 http URL 处理文件

我们其中一台服务器中的文件可以通过 http 访问.因此,当我们调出类似于以下内容的 url 时,我们会得到该位置的文件/目录列表: http://mytestserver/files/ 从这个列表中,我只需要选择那些匹配正则表达式格式的文件. 如果这是磁盘中的一个位置,我可以使用 eachFileMatch 方法并过滤我需要的文件. 有人可以帮助我如何从 http URL 执行此 ..
发布时间:2021-12-23 16:50:00 其他开发

如何从网页中提取动态ajax内容

我的要求是从网页中提取所需的内容.该页面有一个部分正在使用 ajax 进行填充.当我在页面源中查看时,它没有显示使用 ajax 加载的内容.部分内容将根据选中的复选框而变化.如果我们选中“印度"复选框,则该部分将显示印度的所有详细信息.页面源将只显示默认内容,而不是使用 ajax 显示的内容.选中复选框后我检查了页面源,它​​仍然只显示默认值.如何获取该部分内容, 解决方案 在 C# 中可 ..
发布时间:2021-12-17 14:12:07 C#/.NET

Html-Agility-Pack 未加载包含完整内容的页面?

我正在使用 Html Agility Pack 从网站获取数据(抓取) 我的问题是我正在获取数据的网站在页面加载几秒钟后加载了一些内容. 所以每当我试图从特定 Div 读取特定数据时,它都会给我空值. 但在 var page 我只是没有得到部门 reviewBox ..因为它尚未加载. public void FetchAllLinks(String Url){网址 = "ht ..
发布时间:2021-12-17 13:54:48 C#/.NET

用美丽的汤解析 JS

我用漂亮的汤解析了一些页面.但是我有 js 代码: var utag_data = {customer_id : "_PHL2883198554",客户类型:“新",忠诚度 ID : "N",denied_loyalty_interstitial :“假",site_version : "桌面站点",site_currency: "de_DE_EURO",站点区域:“英国",site_langu ..
发布时间:2021-12-17 13:54:30 Python

从下拉列表中的选定选项中抓取响应

这是一个页面示例,其中列出了所选球员的棒球统计数据,默认为最近一年(2014 年,很快将是 2015 年)http://www.koreabaseball.com/Record/Player/HitterDetail/Game.aspx?playerId=76325 下拉列表允许用户选择回溯到 2010 年的年份,但不会更改显示的 url.如何从下拉列表中的每个值中抓取所有可用年份? ..
发布时间:2021-12-17 13:39:59 Python

网页抓取带有动态 javascript 内容的网站

所以我使用 python 和 beautifulsoup4(我没有绑定)来抓取一个网站.问题是当我使用 urlib 抓取页面的 html 时,它不是整个页面,因为其中一些是通过 javascript 生成的.有什么办法可以解决这个问题吗? 解决方案 基本上有两个主要选项可以进行: 使用浏览器开发人员工具,查看将要加载页面的 ajax 请求并在脚本中模拟它们,您可能需要使用 json ..

加速beautifulsoup

我正在运行这个课程网站的抓取工具,我想知道是否有一种更快的方法可以在我将它放入 beautifulsoup 后抓取页面.花费的时间比我预期的要长. 提示? from selenium import webdriver从 selenium.webdriver.common.keys 导入密钥从 selenium.webdriver.support.ui 导入选择从 selenium.webd ..
发布时间:2021-12-17 13:29:26 Python