JSoup使用未关闭的标记解析无效的HTML [英] JSoup parsing invalid HTML with unclosed tags

查看：161 发布时间：2018/12/12 18:53:10 java html-parsing web-crawler jsoup

本文介绍了JSoup使用未关闭的标记解析无效的HTML的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

使用JSoup（包括最后一个版本1.7.2），使用未关闭标记解析无效 HTML时出错。

Using JSoup inclusive the last release 1.7.2 there is a bug parsing invalid HTML with unclosed tags.

示例：

String tmp = "<a href='www.google.com'>Link<p>Error link</a>";
Jsoup.parse(tmp);

生成的凭证是：

<html>
 <head></head>
 <body>
  <a href="www.google.com">Link</a>
  <p><a>Error link</a></p>
 </body>
</html>

浏览器会生成以下内容：

The browsers would generate something as:

<html>
 <head></head>
 <body>
  <a href="www.google.com">Link</a>
  <p><a href="www.google.com">Error link</a></p>
 </body>
</html>

Jsoup应该作为浏览器或源代码。

Jsoup should works as browsers or as source code.

有什么解决方案吗？查看API我没有找到任何内容。

There is any solution? Looking into the API I didn't find anything.