html-parsing相关内容

如何在不使用 XmlService 的情况下解析 Google Apps Script 中的 HTML 字符串?

我想使用 Google 电子表格和 Google Apps 脚本创建一个抓取工具.我知道这是可能的,而且我看过一些关于它的教程和主题. 主要思想是使用: var html = UrlFetchApp.fetch('http://en.wikipedia.org/wiki/Document_Object_Model').getContentText();var doc = XmlServi ..

批处理脚本获取 html 站点并解析内容(无需 wget、curl 或其他外部应用程序)

我只需要使用 windows cmd 功能.我需要来自网站的两个变量/字符串在批处理脚本中使用它来验证操作.为了不让它太简单,这个网站还需要进行身份验证. 我在某处找到了这个: @set @x=0/*:: ChkHTTP.cmd@回声关闭设置本地设置“URL=http://www.google.com"cscript/nologo/e:jscript "%~f0" %URL% |找到“20 ..
发布时间:2021-12-13 17:33:28 其他开发

在 VBA 中将 html 转换为纯文本

我有一个 Excel 工作表,其中包含包含 html 的单元格.如何将它们批量转换为纯文本?目前有这么多无用的标签和样式.我想从头开始写,但如果我能把纯文本写出来会容易得多. 我可以编写一个脚本来将 html 转换为 PHP 中的纯文本,所以如果您想不出 VBA 中的解决方案,那么也许您可以建议我如何将单元格数据传递到网站并检索数据. 解决方案 设置对“Microsoft HTML ..
发布时间:2021-12-13 00:07:12 前端开发

将 HTML 文件解析为 PHP

这是将 html 文件解析为 php 的正确方法吗? RemoveHandler .html .htm添加类型应用程序/x-httpd-php .php .htm .html 保存在我的根文件夹中的 .htaccess 文件中? 我添加了一个通过 php 调用的导航栏,这样可以省去重命名我所有的 html 文件! 谢谢 解决方案 RewriteEngine on重写规则 ^ ..
发布时间:2021-12-12 23:58:37 PHP

如果不使用正则表达式,HTML 解析如何工作?

我每天都会看到一些问题,询问如何从一些 HTML 字符串中解析或提取某些内容,而第一个答案/评论总是“不要使用 RegEx 来解析 HTML,以免您感到愤怒!"(最后一部分有时会被省略). 这让我很困惑,我一直认为一般来说,解析任何复杂字符串的最佳方法是使用正则表达式.那么 HTML 解析器是如何工作的呢?是不是用正则表达式来解析. 使用正则表达式的一个特殊论点是并不总是有解析替代方案 ..
发布时间:2021-12-12 23:29:30 前端开发

如何使用 Java 高效解析 HTML?

我在我的工作中做了很多 HTML 解析.到目前为止,我一直在使用 HtmlUnit 无头浏览器进行解析和浏览器自动化. 现在,我想把这两个任务分开. 我想使用一个轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载一个页面,然后获取源代码然后解析它需要很多时间. 我想知道哪个HTML解析器可以高效解析HTML.我需要 速度 通过其“id"轻松定位任何 Html ..
发布时间:2021-12-12 23:08:26 Java开发

perl 中的 HTML 解析

我正在尝试使用 perl 解析以下 HTML 结构.我需要选择包含类消息和 id 的所有 dd 元素.我想让脚本做的就是遍历所有 dd 元素并打印出 dd 元素的 id 但它需要忽略第一个 dd 元素,因为它是静态的,不会改变. 它可以与任何 perl 模块一起使用,只要它可以从 cpan 安装,这对我来说很容易.我在 perl 和解析 html 方面没有太多经验,所以任何指针都会非常有帮助 ..
发布时间:2021-12-10 18:11:21 前端开发

使用正则表达式解析 HTML:为什么不呢?

似乎在 stackoverflow 上提问者使用正则表达式从 HTML 中获取一些信息的每个问题都不可避免地会有一个“答案",即不使用正则表达式来解析 HTML. 为什么不呢?我知道有引用-取消引用“真正的"HTML 解析器,例如 Beautiful Soup,而且我确信它们功能强大且有用,但是如果您只是在做一些简单、快速或肮脏的事情,那么当一些正则表达式语句可以正常工作时,为什么还要使用如 ..
发布时间:2021-12-02 23:06:31 其他开发

在 VBA 中解析 HTML 内容

我有一个关于 HTML 解析的问题.我有一个包含一些产品的网站,我想将页面中的文本捕获到我当前的电子表格中.这个电子表格很大,但在第 3 列中包含 ItemNbr,我希望第 14 列中的文本和一行对应一个产品(项目). 我的想法是在网页上获取标签后的 Innertext 内的“材料".id 号从一页到另一页变化(有时). 这是网站的结构: ..
发布时间:2021-12-02 22:46:43 其他开发

带有标记的 HTML 文本,用于 Excel 单元格中的格式化文本

有没有办法将 HTML 导入到 Excel 中,以便将其格式化为富文本(最好使用 VBA)?基本上,当我粘贴到 Excel 单元格时,我正在寻找: 这是一个测试.这段文字会是粗体吗?或斜体 进入这个: 这是一个测试.这段文字是粗体还是斜体 解决方案 是的,这是可能的 :) 事实上,让 Internet Explorer 为你做那 ..
发布时间:2021-12-02 22:10:39 其他开发

如何使用 Node.js 解析 HTML 页面

我需要解析(服务器端)大量的 HTML 页面. 我们都同意 regexp 不适合这里. 在我看来,javascript 是解析 HTML 页面的本机方式,但这种假设依赖于具有 javascript 在浏览器中的所有 DOM 能力的服务器端代码. Node.js 是否内置了这种能力? 有没有更好的办法解决这个问题,在服务器端解析HTML? 解决方案 您可以使用 npm 模块 js ..
发布时间:2021-12-01 22:01:56 其他开发

HTML 抓取的选项?

我正在考虑尝试 Beautiful Soup,这是一个用于 HTML 抓取的 Python 包.我应该查看其他任何 HTML 抓取包吗?Python 不是必需的,我实际上也有兴趣了解其他语言. 到目前为止的故事: 蟒蛇 美汤 lxml HTQL Scrapy 机械化 红宝石 Nokogiri Hpricot 机械化 scrAPI scRUBYt! womba ..

你是如何解析和处理 PHP 中的 HTML/XML 的?

在 PHP 中解析 HTML/XML 以从中提取信息有哪些好的选择? 解决方案 Native XML Extensions 我更喜欢使用其中一种 原生 XML 扩展,因为它们是捆绑的使用 PHP,通常比所有 3rd 方库都快,并为我提供对标记所需的所有控制. DOM DOM 扩展允许您使用 PHP 5 通过 DOM API 操作 XML 文档.它是 W3C 文档对象模型核 ..
发布时间:2021-12-01 10:06:42 PHP

用 JS 解析 HTML 字符串

我想解析一个包含 HTML 文本的字符串.我想用 JavaScript 来做. 我尝试了 Pure JavaScript HTML Parser library 但似乎它解析我当前页面的 HTML,而不是从字符串.因为当我尝试下面的代码时,它会更改我的页面标题: var parser = new HTMLtoDOM("titleTest ..
发布时间:2021-11-30 22:38:12 前端开发

Android HTML ImageGetter 作为 AsyncTask

好吧,我对这个失去了理智.我的程序中有一个解析 HTML 的方法.我想包含内嵌图像,我的印象是使用 Html.fromHtml(string, Html.ImageGetter, Html.TagHandler) 将允许这种情况发生. 由于 Html.ImageGetter 没有实现,所以由我来编写.但是,由于将 URL 解析为 Drawables 需要网络访问,因此我无法在主线程上执行此操 ..
发布时间:2021-11-27 14:09:35 移动开发