正则表达式,2 个 html 标签之间的所有内容 vb.net [英] Regex, everything between 2 html tags vb.net
本文介绍了正则表达式,2 个 html 标签之间的所有内容 vb.net的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我正在尝试通过 Visual Basic 2010 上的正则表达式获取网页的一些信息
i'm trying to get some information of a webpage via regex on visual basic 2010
是这样的:
<SPAN CLASS="clear"></SPAN>
<h2> blabla </h2>
<h2> blabla </h2>
<b> blabla </b>
etc etc
<SPAN CLASS="clear"></SPAN>
我想要的是两者之间的一切还有 h2 标签和其他所有存在的 html 标签.
what i want is everything between the 2 also the h2 tags and every other html tag that exists.
这可能吗?
我已经尝试过 (.?) 和 . 和 \w* 但它没有返回任何东西...
i've already tried (.?) and . and \w* but it doesn't return anything...
推荐答案
为此最好使用 XML 解析器,但我假设它是一次性的或类似的.
It's probably best to use an XML parser for that, but I'm assuming it's a one-off scrape or similar.
如果我理解正确的话,这应该会得到标签之间的所有数据:
If I understand you correctly, this should get all the data between the tags:
Dim regex As New Text.RegularExpressions.Regex("<.*?>", RegexOptions.Singleline)
Dim result As String = regex.Replace(yourHtml, String.Empty)
您可以使用它来获取 H2 标签和数据:
You could use this to get just the H2 tags and data:
Dim regex As New Text.RegularExpressions.Regex("<\s*h2[^>]*>(.*?)<\s*/\s*h2>", RegexOptions.Singleline)
Dim results As New Text.StringBuilder
For Each m As Text.RegularExpressions.Match In regex.Matches(yourHtml)
results.Append(m.Value)
Next
这篇关于正则表达式,2 个 html 标签之间的所有内容 vb.net的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文