html-parsing相关内容
我可以在 Jsoup 中填写表格、执行事件和 Javascript 函数吗?如果是,我该怎么办?或者我应该换一个解析器. 解决方案 JSoup 只是一个 HTML 解析器/“tidyfier"——而不是浏览器模拟器.要与 HTML 页面交互(执行 javascript、填写表单等),您应该使用类似 HtmlUnit 或硒.
..
我编写了很多解析器.到目前为止,我一直使用 HtmlUnit 无头浏览器进行解析和浏览器自动化. 现在,我想把这两个任务分开. 由于我 80% 的工作只涉及解析,我想使用轻量级的 HTML 解析器,因为在 HtmlUnit 中首先加载页面,然后获取源代码然后解析它需要很多时间. 我想知道哪个 HTML 解析器最好.解析器如果接近HtmlUnit解析器会更好. 编辑:
..
我一直在使用 HTML Parser 从网站上抓取数据并在这样做的同时剥离 html 编码.我知道各种模块,例如 Beautiful Soup,但决定走不依赖“外部"模块的道路.Eloff 提供了一段代码代码:在 Python 中从字符串中剥离 HTML from HTMLParser import HTMLParser类 MLStripper(HTMLParser):def __init__(
..
为了响应 Python 正则表达式,我尝试使用 HTMLParser 实现 HTML 解析器: 导入 HTMLParser类 ExtractHeadings(HTMLParser.HTMLParser):def __init__(self):HTMLParser.HTMLParser.__init__(self)self.text = 无self.headings = []def is_rele
..
我必须使用我们付费的 Google API 翻译一些细节.详细信息包含 HTML,Google 会按每个字符收费.我不想发送完整的内容,而只想发送英文文本,并删除 HTML.我可以使用 PHP 函数删除 HTML 标签和实体,但我必须在翻译后将英文内容放回 HTML 标签中才能正确显示.它还将包括 CSS. 示例: 这是一个测试
..
我只想知道如何使用 Tika 从 html 中提取主要文本和纯文本? 也许一种可能的解决方案是使用 BoilerPipeContentHandler,但您是否有一些示例/演示代码来展示它? 非常感谢 解决方案 这是一个示例: public String[] tika_autoParser() {字符串 [] 结果 = 新字符串 [3];尝试 {InputStream inpu
..
我需要在 ng-repeat 中从我的模型中解析可选的 HTML. 我在 .jade 模板中有一个中继器,如下所示: tr(ng-repeat='car in cars')td(class='arrived-{{car.arrived}}') {{car.number}}td(class='arrived-{{car.arrived}}') {{car.location}} 我的 car
..
我知道当我想将 HTML 插入视图时,我使用 'ng-bind-html' 或 'ng-bind-html-unsafe'. 我不知道的是如何插入 HTML 并使 Angular 解析其内容 即如果有'ng-repeat',我想让Angular解析它? 更新 1: 示例: HTML:
..
我有一个小问题. 我想用 PHP 解析一个简单的 HTML 文档.这是简单的 HTML: 科伦坡
库库 30 晴天
汉班托塔 33 晴天
..
我不习惯正则表达式,所以这对我来说似乎很容易但很棘手. 基本上,我将自动换行应用于包含经典 html 标签的内容:、... $text = wordwrap($text, $cutLength, " ", $wordCut);$text = nl2br(bbcode_parser($text));返回 $text; 如您所见,我的问题非常简单:我只想将 wordwrap() 应用于我的
..
我不知道如何编码 BeautifulSoup 以便它只给我来自所选标签的文本.我得到了更多诸如它的孩子(们)的文字! 例如: from bs4 import BeautifulSoup汤 = BeautifulSoup('
..
我正在尝试将“ "添加到 Beautifulsoup 标签中.BS 将 tag.string 转换为 \ 而不是  .这一定是一些编码问题,但我无法弄清楚. 请注意:忽略后面的“\"字符.我必须添加它,这样 stackoverflow 才能正确格式化我的问题. 将 bs4 导入为 Beautifulsouphtml = "
..
我正在使用 API 来翻译我的博客,但它有时会使我的 html 混乱,这让我有更多的工作来修复所有问题. 我现在要做的是从 html 中提取内容,进行翻译并将其放回原处. 我首先尝试使用 preg_replace 执行此操作,我将用 ##a_number## 之类的内容替换每个标签,然后在翻译文本后恢复到原始标签.不幸的是,它很难管理,因为我需要用唯一值替换每个标签. 然后我用“
..
我有React应用程序,该应用程序使用HTTP请求获取一些数据.响应内容包含一个格式化的HTML表,如下所示: 地理服务器GetFeatureInfo输出table.featureInfo,table.featureInfo td,table.featureInfo th
..
我正在尝试从本地气象频道站点解析html数据,以获取本地区附近学校,企业和教堂的关闭信息. 我遇到了一个问题,尽管信息包含在没有ID的表中,我无法使用该ID来识别它们.下面,我提供了一个有关其html表外观的示例.是否可以解析多个HTML表,并使用带有PHP的HTML DOM Parser提取包含的数据.我已阅读此文档,但似乎找不到适用的解决方案. 谢谢! 编辑:我可能还应该指定
..
我正在使用rvest从内部网站的HTML表中抓取数据.行的颜色是有意义的,因此我想将 BGCOLOR 属性提取为最终表中的一列,但是当然 html_table()仅提取内容. 这是我到目前为止所拥有的.以下是html表的代码段.如何添加颜色列? html_nodes(样本页,“表格")tbl_content%html_nodes(“表格")%>%html_table(fil
..
嗨,我正在使用 simple_html_dom php库从其他网站获取内容. 我具有以下html结构,
数码单反相机D7100
..
如何使用Jsoup解析库来解析html文件,以使Tag与空白具有相同的作用? 例如. 如果我使用Jsoup解析函数解析以下字符串 word 一个 是一个 单词 我应该得到 单词一是一个单词 而不是 wordoneisoneword 解决方案 请在此处查看: 最终字符串html =“单词一个单词是一个单词";文档doc = Jsoup.parse(html);
..
我学习了Angular,现在我在调试时遇到了Angular Template解析错误:我认为这与丢失导入无关,也许还有一些错误的命名.我使用Visual Studio作为编辑器 错误:模板解析错误:无法绑定到"formGroup",因为它不是"form"的已知属性.("t-card>新联系人
..
我正在将HTML Simple Dom Parser与PHP结合使用,以从网站获取标题,描述和图像.我面临的问题是我收到了我不想要的html以及如何排除这些html标签.下面是解释. 这是一个正在解析的示例html结构.
一些文本
值1
值2
值3
..