使用Java将HTML文件读入DOM树 [英] Reading HTML file to DOM tree using Java

查看:217
本文介绍了使用Java将HTML文件读入DOM树的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

有没有解析器/库能够使用Java将HTML文档读入DOM树?我想使用Java提供的标准的 DOM / Xpath API。



大多数库似乎都有自定义API来解决这个任务。此外,转换HTML到XML-DOM似乎不被大多数可用的解析器支持。



任何想法或经验与一个好的HTML DOM解析器?

解决方案

JTidy ,由将流处理到XHTML,然后使用您最喜欢的DOM实现来重新解析,或者使用parseDOM,如果有限的DOM imp给出足够的话。



或者 Neko


Is there a parser/library which is able to read an HTML document into a DOM tree using Java? I'd like to use the standard DOM/Xpath API that Java provides.

Most libraries seem have custom API's to solve this task. Furthermore the conversion HTML to XML-DOM seems unsupported by the most of the available parsers.

Any ideas or experience with a good HTML DOM parser?

解决方案

JTidy, either by processing the stream to XHTML then using your favourite DOM implementation to re-parse, or using parseDOM if the limited DOM imp that gives you is enough.

Alternatively Neko.

这篇关于使用Java将HTML文件读入DOM树的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆