Java中如何使用正则表达式解析HTML? [英] How to use regular expressions to parse HTML in Java?

查看:19
本文介绍了Java中如何使用正则表达式解析HTML?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

请有人告诉我一种使用 Java 中的正则表达式在 html 文件中查找 href 和 src 标签的简单方法吗?
然后,如何获取与标签关联的 URL?

Please can someone tell me a simple way to find href and src tags in an html file using regular expressions in Java?
And then, how do I get the URL associated with the tag?

感谢您的任何建议.

推荐答案

使用正则表达式从 HTML 中提取值总是一个错误.HTML 语法比它最初出现时要复杂得多,而且即使是非常复杂的正则表达式,页面也很容易识别出来.

Using regular expressions to pull values from HTML is always a mistake. HTML syntax is a lot more complex that it may first appear and it's very easy for a page to catch out even a very complex regular expression.

改用 HTML 解析器.另请参阅优缺点是什么领先的 Java HTML 解析器?

这篇关于Java中如何使用正则表达式解析HTML?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆