html-parsing相关内容

使用正则表达式解析 HTML:为什么不呢?

似乎在 stackoverflow 上提问者使用正则表达式从 HTML 中获取一些信息的每个问题都不可避免地会有一个“答案",即不使用正则表达式来解析 HTML. 为什么不呢?我知道有引用-取消引用“真正的"HTML 解析器,例如 Beautiful Soup,而且我确信它们功能强大且有用,但是如果您只是在做一些简单、快速或肮脏的事情,那么当一些正则表达式语句可以正常工作时,为什么还要使用如 ..
发布时间:2021-12-02 23:06:31 其他开发

在 VBA 中解析 HTML 内容

我有一个关于 HTML 解析的问题.我有一个包含一些产品的网站,我想将页面中的文本捕获到我当前的电子表格中.这个电子表格很大,但在第 3 列中包含 ItemNbr,我希望第 14 列中的文本和一行对应一个产品(项目). 我的想法是在网页上获取标签后的 Innertext 内的“材料".id 号从一页到另一页变化(有时). 这是网站的结构: ..
发布时间:2021-12-02 22:46:43 其他开发

带有标记的 HTML 文本,用于 Excel 单元格中的格式化文本

有没有办法将 HTML 导入到 Excel 中,以便将其格式化为富文本(最好使用 VBA)?基本上,当我粘贴到 Excel 单元格时,我正在寻找: 这是一个测试.这段文字会是粗体吗?或斜体 进入这个: 这是一个测试.这段文字是粗体还是斜体 解决方案 是的,这是可能的 :) 事实上,让 Internet Explorer 为你做那 ..
发布时间:2021-12-02 22:10:39 其他开发

如何使用 Node.js 解析 HTML 页面

我需要解析(服务器端)大量的 HTML 页面. 我们都同意 regexp 不适合这里. 在我看来,javascript 是解析 HTML 页面的本机方式,但这种假设依赖于具有 javascript 在浏览器中的所有 DOM 能力的服务器端代码. Node.js 是否内置了这种能力? 有没有更好的办法解决这个问题,在服务器端解析HTML? 解决方案 您可以使用 npm 模块 js ..
发布时间:2021-12-01 22:01:56 其他开发

HTML 抓取的选项?

我正在考虑尝试 Beautiful Soup,这是一个用于 HTML 抓取的 Python 包.我应该查看其他任何 HTML 抓取包吗?Python 不是必需的,我实际上也有兴趣了解其他语言. 到目前为止的故事: 蟒蛇 美汤 lxml HTQL Scrapy 机械化 红宝石 Nokogiri Hpricot 机械化 scrAPI scRUBYt! womba ..
发布时间:2021-12-01 13:13:30 前端开发

如何使用php从html中提取img src、title和alt?

我想创建一个页面,其中列出了驻留在我网站上的所有图像以及标题和替代表示. 我已经写了一个小程序来查找和加载所有 HTML 文件,但现在我被困在如何提取 src、title 和 alt 来自此 HTML: 我想这应该用一些正则表达式 ..
发布时间:2021-12-01 10:38:38 前端开发

你是如何解析和处理 PHP 中的 HTML/XML 的?

在 PHP 中解析 HTML/XML 以从中提取信息有哪些好的选择? 解决方案 Native XML Extensions 我更喜欢使用其中一种 原生 XML 扩展,因为它们是捆绑的使用 PHP,通常比所有 3rd 方库都快,并为我提供对标记所需的所有控制. DOM DOM 扩展允许您使用 PHP 5 通过 DOM API 操作 XML 文档.它是 W3C 文档对象模型核 ..
发布时间:2021-12-01 10:06:42 前端开发

用 JS 解析 HTML 字符串

我想解析一个包含 HTML 文本的字符串.我想用 JavaScript 来做. 我尝试了 Pure JavaScript HTML Parser library 但似乎它解析我当前页面的 HTML,而不是从字符串.因为当我尝试下面的代码时,它会更改我的页面标题: var parser = new HTMLtoDOM("titleTest ..
发布时间:2021-11-30 22:38:12 前端开发

Android HTML ImageGetter 作为 AsyncTask

好吧,我对这个失去了理智.我的程序中有一个解析 HTML 的方法.我想包含内嵌图像,我的印象是使用 Html.fromHtml(string, Html.ImageGetter, Html.TagHandler) 将允许这种情况发生. 由于 Html.ImageGetter 没有实现,所以由我来编写.但是,由于将 URL 解析为 Drawables 需要网络访问,因此我无法在主线程上执行此操 ..
发布时间:2021-11-27 14:09:35 移动开发

Jsoup Java HTML 解析器:执行 Javascript 事件

我可以在 Jsoup 中填写表格、执行事件和 Javascript 函数吗?如果是,我该怎么办?或者我应该换一个解析器. 解决方案 JSoup 只是一个 HTML 解析器/“tidyfier"——而不是浏览器模拟器.要与 HTML 页面交互(执行 javascript、填写表单等),您应该使用类似 HtmlUnit 或硒. ..
发布时间:2021-11-25 13:48:36 Java Web开发

哪个 HTML 解析器是最好的?

我编写了很多解析器.到目前为止,我一直使用 HtmlUnit 无头浏览器进行解析和浏览器自动化. 现在,我想把这两个任务分开. 由于我 80% 的工作只涉及解析,我想使用轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载页面,然后获取源代码然后解析它需要很多时间. 我想知道哪个 HTML 解析器最好.解析器如果接近HtmlUnit解析器会更好. 编辑: ..
发布时间:2021-11-25 12:32:21 Java Web开发

在 Python 3.2 中使用 HTMLParser

我一直在使用 HTML Parser 从网站上抓取数据并在这样做的同时剥离 html 编码.我知道各种模块,例如 Beautiful Soup,但决定走不依赖“外部"模块的道路.Eloff 提供了一段代码代码:在 Python 中从字符串中剥离 HTML from HTMLParser import HTMLParser类 MLStripper(HTMLParser):def __init__( ..
发布时间:2021-11-17 05:34:27 其他开发

在 Python 中高效地使用 HTMLParser

为了响应 Python 正则表达式,我尝试使用 HTMLParser 实现 HTML 解析器: 导入 HTMLParser类 ExtractHeadings(HTMLParser.HTMLParser):def __init__(self):HTMLParser.HTMLParser.__init__(self)self.text = 无self.headings = []def is_rele ..
发布时间:2021-11-15 03:32:03 其他开发

从字符串中临时删除 Google Translate API 的 HTML 以降低成本

我必须使用我们付费的 Google API 翻译一些细节.详细信息包含 HTML,Google 会按每个字符收费.我不想发送完整的内容,而只想发送英文文本,并删除 HTML.我可以使用 PHP 函数删除 HTML 标签和实体,但我必须在翻译后将英文内容放回 HTML 标签中才能正确显示.它还将包括 CSS. 示例: 这是一个测试   ..
发布时间:2021-11-15 01:37:08 其他开发

使用 Apache Tika 解析 HTML 问题

我正在抓取一个网页,在抓取它之后从该网页中提取所有链接,然后我尝试使用 Apache Tika 和 BoilerPipe 通过使用以下代码解析所有 url,因此对于某些 url,它解析得很好,但对于某些我得到这样的错误.它在 HTMLParser.java 上显示了一些错误:第 102 行.这是 HTMLParser.java 中的第 102 行 String parsedText = tika ..
发布时间:2021-11-14 23:46:51 其他开发

如何使用 Tika 从 html 中提取主要文本

我只想知道如何使用 Tika 从 html 中提取主要文本和纯文本? 也许一种可能的解决方案是使用 BoilerPipeContentHandler,但您是否有一些示例/演示代码来展示它? 非常感谢 解决方案 这是一个示例: public String[] tika_autoParser() {字符串 [] 结果 = 新字符串 [3];尝试 {InputStream inpu ..
发布时间:2021-11-14 23:45:26 其他开发

如何在 angular.js 中的 ng-repeat 中解析 HTML

我需要在 ng-repeat 中从我的模型中解析可选的 HTML. 我在 .jade 模板中有一个中继器,如下所示: tr(ng-repeat='car in cars')td(class='arrived-{{car.arrived}}') {{car.number}}td(class='arrived-{{car.arrived}}') {{car.location}} 我的 car ..
发布时间:2021-11-10 00:05:26 其他开发

使用 AngularJS 将 HTML 插入并解析到视图中

我知道当我想将 HTML 插入视图时,我使用 'ng-bind-html' 或 'ng-bind-html-unsafe'. 我不知道的是如何插入 HTML 并使 Angular 解析其内容 即如果有'ng-repeat',我想让Angular解析它? 更新 1: 示例: HTML: ..
发布时间:2021-11-09 03:11:08 其他开发

将自动换行应用于 html 内容,不包括 html 属性

我不习惯正则表达式,所以这对我来说似乎很容易但很棘手. 基本上,我将自动换行应用于包含经典 html 标签的内容:、... $text = wordwrap($text, $cutLength, " ", $wordCut);$text = nl2br(bbcode_parser($text));返回 $text; 如您所见,我的问题非常简单:我只想将 wordwrap() 应用于我的 ..
发布时间:2021-09-28 19:58:41 其他开发