html-parsing相关内容

Jsoup Java HTML 解析器:执行 Javascript 事件

我可以在 Jsoup 中填写表格、执行事件和 Javascript 函数吗?如果是,我该怎么办?或者我应该换一个解析器. 解决方案 JSoup 只是一个 HTML 解析器/“tidyfier"——而不是浏览器模拟器.要与 HTML 页面交互(执行 javascript、填写表单等),您应该使用类似 HtmlUnit 或硒. ..
发布时间:2021-11-25 13:48:36 Java开发

哪个 HTML 解析器是最好的?

我编写了很多解析器.到目前为止,我一直使用 HtmlUnit 无头浏览器进行解析和浏览器自动化. 现在,我想把这两个任务分开. 由于我 80% 的工作只涉及解析,我想使用轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载页面,然后获取源代码然后解析它需要很多时间. 我想知道哪个 HTML 解析器最好.解析器如果接近HtmlUnit解析器会更好. 编辑: ..
发布时间:2021-11-25 12:32:21 Java开发

在 Python 中高效地使用 HTMLParser

为了响应 Python 正则表达式,我尝试使用 HTMLParser 实现 HTML 解析器: 导入 HTMLParser类 ExtractHeadings(HTMLParser.HTMLParser):def __init__(self):HTMLParser.HTMLParser.__init__(self)self.text = 无self.headings = []def is_rele ..
发布时间:2021-11-15 03:32:03 Python

从字符串中临时删除 Google Translate API 的 HTML 以降低成本

我必须使用我们付费的 Google API 翻译一些细节.详细信息包含 HTML,Google 会按每个字符收费.我不想发送完整的内容,而只想发送英文文本,并删除 HTML.我可以使用 PHP 函数删除 HTML 标签和实体,但我必须在翻译后将英文内容放回 HTML 标签中才能正确显示.它还将包括 CSS. 示例: 这是一个测试   ..
发布时间:2021-11-15 01:37:08 PHP

如何使用 Tika 从 html 中提取主要文本

我只想知道如何使用 Tika 从 html 中提取主要文本和纯文本? 也许一种可能的解决方案是使用 BoilerPipeContentHandler,但您是否有一些示例/演示代码来展示它? 非常感谢 解决方案 这是一个示例: public String[] tika_autoParser() {字符串 [] 结果 = 新字符串 [3];尝试 {InputStream inpu ..
发布时间:2021-11-14 23:45:26 其他开发

将自动换行应用于 html 内容,不包括 html 属性

我不习惯正则表达式,所以这对我来说似乎很容易但很棘手. 基本上,我将自动换行应用于包含经典 html 标签的内容:、... $text = wordwrap($text, $cutLength, " ", $wordCut);$text = nl2br(bbcode_parser($text));返回 $text; 如您所见,我的问题非常简单:我只想将 wordwrap() 应用于我的 ..
发布时间:2021-09-28 19:58:41 PHP

PHP - 从 HTML 中提取文本,翻译并放回原处

我正在使用 API 来翻译我的博客,但它有时会使我的 html 混乱,这让我有更多的工作来修复所有问题. 我现在要做的是从 html 中提取内容,进行翻译并将其放回原处. 我首先尝试使用 preg_replace 执行此操作,我将用 ##a_number## 之类的内容替换每个标签,然后在翻译文本后恢复到原始标签.不幸的是,它很难管理,因为我需要用唯一值替换每个标签. 然后我用“ ..
发布时间:2021-09-06 19:44:23 PHP

具有多个表的PHP简单HTML DOM解析器

我正在尝试从本地气象频道站点解析html数据,以获取本地区附近学校,企业和教堂的关闭信息. 我遇到了一个问题,尽管信息包含在没有ID的表中,我无法使用该ID来识别它们.下面,我提供了一个有关其html表外观的示例.是否可以解析多个HTML表,并使用带有PHP的HTML DOM Parser提取包含的数据.我已阅读此文档,但似乎找不到适用的解决方案. 谢谢! 编辑:我可能还应该指定 ..
发布时间:2021-05-15 18:40:18 PHP

如何在网络抓取的html表中包含属性

我正在使用rvest从内部网站的HTML表中抓取数据.行的颜色是有意义的,因此我想将 BGCOLOR 属性提取为最终表中的一列,但是当然 html_table()仅提取内容. 这是我到目前为止所拥有的.以下是html表的代码段.如何添加颜色列? html_nodes(样本页,“表格")tbl_content%html_nodes(“表格")%>%html_table(fil ..
发布时间:2021-05-15 18:40:14 其他开发

如何使用Jsoup解析HTML文本?

如何使用Jsoup解析库来解析html文件,以使Tag与空白具有相同的作用? 例如. 如果我使用Jsoup解析函数解析以下字符串 word 一个 是一个 单词 我应该得到 单词一是一个单词 而不是 wordoneisoneword 解决方案 请在此处查看: 最终字符串html =“单词一个单词是一个单词";文档doc = Jsoup.parse(html); ..
发布时间:2021-05-15 18:40:07 Java开发