html-parsing 第6页 - IT屋-程序员软件开发技术分享社区

Jsoup Java HTML 解析器:执行 Javascript 事件

我可以在 Jsoup 中填写表格、执行事件和 Javascript 函数吗?如果是，我该怎么办?或者我应该换一个解析器. 解决方案 JSoup 只是一个 HTML 解析器/“tidyfier"——而不是浏览器模拟器.要与 HTML 页面交互(执行 javascript、填写表单等)，您应该使用类似 HtmlUnit 或硒. ..

发布时间：2021-11-25 13:48:36 java jsoup html-parsing dom-events Java开发

哪个 HTML 解析器是最好的?

我编写了很多解析器.到目前为止，我一直使用 HtmlUnit 无头浏览器进行解析和浏览器自动化. 现在，我想把这两个任务分开. 由于我 80% 的工作只涉及解析，我想使用轻量级的 HTML 解析器，因为在 HtmlUnit 中首先加载页面，然后获取源代码然后解析它需要很多时间. 我想知道哪个 HTML 解析器最好.解析器如果接近HtmlUnit解析器会更好. 编辑: ..

发布时间：2021-11-25 12:32:21 java html parsing html-parsing web-scraping Java开发

我一直在使用 HTML Parser 从网站上抓取数据并在这样做的同时剥离 html 编码.我知道各种模块，例如 Beautiful Soup，但决定走不依赖“外部"模块的道路.Eloff 提供了一段代码代码:在 Python 中从字符串中剥离 HTML from HTMLParser import HTMLParser类 MLStripper(HTMLParser):def __init__( ..

发布时间：2021-11-17 05:34:27 python-3.x html-parsing arguments web-scraping stripping 其他开发

在 Python 中高效地使用 HTMLParser

为了响应 Python 正则表达式，我尝试使用 HTMLParser 实现 HTML 解析器: 导入 HTMLParser类 ExtractHeadings(HTMLParser.HTMLParser):def __init__(self):HTMLParser.HTMLParser.__init__(self)self.text = 无self.headings = []def is_rele ..

发布时间：2021-11-15 03:32:03 python api html-parsing Python

从字符串中临时删除 Google Translate API 的 HTML 以降低成本

我必须使用我们付费的 Google API 翻译一些细节.详细信息包含 HTML，Google 会按每个字符收费.我不想发送完整的内容，而只想发送英文文本，并删除 HTML.我可以使用 PHP 函数删除 HTML 标签和实体，但我必须在翻译后将英文内容放回 HTML 标签中才能正确显示.它还将包括 CSS. 示例: 这是一个测试 ..

发布时间：2021-11-15 01:37:08 php api html-parsing translation google-translate PHP

如何使用 Tika 从 html 中提取主要文本

我只想知道如何使用 Tika 从 html 中提取主要文本和纯文本? 也许一种可能的解决方案是使用 BoilerPipeContentHandler，但您是否有一些示例/演示代码来展示它? 非常感谢解决方案这是一个示例: public String[] tika_autoParser() {字符串 [] 结果 = 新字符串 [3];尝试 {InputStream inpu ..

发布时间：2021-11-14 23:45:26 html-parsing apache-tika boilerpipe 其他开发

如何在 angular.js 中的 ng-repeat 中解析 HTML

我需要在 ng-repeat 中从我的模型中解析可选的 HTML. 我在 .jade 模板中有一个中继器，如下所示: tr(ng-repeat='car in cars')td(class='arrived-{{car.arrived}}') {{car.number}}td(class='arrived-{{car.arrived}}') {{car.location}} 我的 car ..

发布时间：2021-11-10 00:05:26 angularjs html-parsing ng-repeat 其他开发

使用 AngularJS 将 HTML 插入并解析到视图中

我知道当我想将 HTML 插入视图时，我使用 'ng-bind-html' 或 'ng-bind-html-unsafe'. 我不知道的是如何插入 HTML 并使 Angular 解析其内容即如果有'ng-repeat'，我想让Angular解析它? 更新 1: 示例: HTML: ..

发布时间：2021-11-09 03:11:08 angularjs html-parsing 其他开发

保存 <br>解析 HTML 文本内容时的标签

我有一个小问题. 我想用 PHP 解析一个简单的 HTML 文档.这是简单的 HTML: 科伦坡库库 30 晴天汉班托塔 33 晴天 ..

发布时间：2021-10-02 19:41:47 php dom xpath html-parsing PHP

将自动换行应用于 html 内容，不包括 html 属性

我不习惯正则表达式，所以这对我来说似乎很容易但很棘手. 基本上，我将自动换行应用于包含经典 html 标签的内容:、... $text = wordwrap($text, $cutLength, " ", $wordCut);$text = nl2br(bbcode_parser($text));返回 $text; 如您所见，我的问题非常简单:我只想将 wordwrap() 应用于我的 ..

发布时间：2021-09-28 19:58:41 php regex html-parsing word-wrap PHP

使用 BeautifulSoup，如何仅从特定选择器中获取文本而没有孩子中的文本?

我不知道如何编码 BeautifulSoup 以便它只给我来自所选标签的文本.我得到了更多诸如它的孩子(们)的文字！例如: from bs4 import BeautifulSoup汤 = BeautifulSoup(' ..

发布时间：2021-09-24 18:50:00 python web-scraping beautifulsoup html-parsing Python

如何在 Beautifulsoup 标签中插入一个空格(&nbsp)?

我正在尝试将“ "添加到 Beautifulsoup 标签中.BS 将 tag.string 转换为 \ 而不是 .这一定是一些编码问题，但我无法弄清楚. 请注意:忽略后面的“\"字符.我必须添加它，这样 stackoverflow 才能正确格式化我的问题. 将 bs4 导入为 Beautifulsouphtml = " ..

发布时间：2021-09-23 19:32:14 python html html-parsing beautifulsoup 前端开发

PHP - 从 HTML 中提取文本，翻译并放回原处

我正在使用 API 来翻译我的博客，但它有时会使我的 html 混乱，这让我有更多的工作来修复所有问题. 我现在要做的是从 html 中提取内容，进行翻译并将其放回原处. 我首先尝试使用 preg_replace 执行此操作，我将用 ##a_number## 之类的内容替换每个标签，然后在翻译文本后恢复到原始标签.不幸的是，它很难管理，因为我需要用唯一值替换每个标签. 然后我用“ ..

发布时间：2021-09-06 19:44:23 php html-parsing text-parsing PHP

使用纯JavaScript获取HTML表中特定单元格的值

我有React应用程序，该应用程序使用HTTP请求获取一些数据.响应内容包含一个格式化的HTML表，如下所示: 地理服务器GetFeatureInfo输出table.featureInfo，table.featureInfo td，table.featureInfo th ..

发布时间：2021-05-15 18:40:21 javascript html reactjs html-parsing 前端开发

具有多个表的PHP简单HTML DOM解析器

我正在尝试从本地气象频道站点解析html数据，以获取本地区附近学校，企业和教堂的关闭信息. 我遇到了一个问题，尽管信息包含在没有ID的表中，我无法使用该ID来识别它们.下面，我提供了一个有关其html表外观的示例.是否可以解析多个HTML表，并使用带有PHP的HTML DOM Parser提取包含的数据.我已阅读此文档，但似乎找不到适用的解决方案. 谢谢！编辑:我可能还应该指定 ..

发布时间：2021-05-15 18:40:18 php html json parsing html-parsing PHP

如何在网络抓取的html表中包含属性

我正在使用rvest从内部网站的HTML表中抓取数据.行的颜色是有意义的，因此我想将 BGCOLOR 属性提取为最终表中的一列，但是当然 html_table()仅提取内容. 这是我到目前为止所拥有的.以下是html表的代码段.如何添加颜色列? html_nodes(样本页，“表格")tbl_content％html_nodes(“表格")％>％html_table(fil ..

发布时间：2021-05-15 18:40:14 r html-parsing rvest 其他开发

HTML Dom解析器获取第一个元素

嗨，我正在使用 simple_html_dom php库从其他网站获取内容. 我具有以下html结构，数码单反相机D7100 ..

发布时间：2021-05-15 18:40:10 php html-parsing simple-html-dom PHP

如何使用Jsoup解析HTML文本?

如何使用Jsoup解析库来解析html文件，以使Tag与空白具有相同的作用? 例如. 如果我使用Jsoup解析函数解析以下字符串 word 一个是一个单词我应该得到单词一是一个单词而不是 wordoneisoneword 解决方案请在此处查看: 最终字符串html =“单词一个单词是一个单词"；文档doc = Jsoup.parse(html); ..

发布时间：2021-05-15 18:40:07 java html-parsing jsoup Java开发

为什么我在Angular中收到此模板解析错误

我学习了Angular，现在我在调试时遇到了Angular Template解析错误:我认为这与丢失导入无关，也许还有一些错误的命名.我使用Visual Studio作为编辑器错误:模板解析错误:无法绑定到"formGroup"，因为它不是"form"的已知属性.("t-card>新联系人 ..

发布时间：2021-05-15 18:40:04 angular visual-studio html-parsing 其他开发

从简单HTML DOM中排除不需要的html-PHP

我正在将HTML Simple Dom Parser与PHP结合使用，以从网站获取标题，描述和图像.我面临的问题是我收到了我不想要的html以及如何排除这些html标签.下面是解释. 这是一个正在解析的示例html结构. 一些文本值1 值2 值3 ..

发布时间：2021-05-15 18:40:01 php parsing web-scraping html-parsing simple-html-dom PHP

html-parsing相关内容