正则表达式,2 个 html 标签之间的所有内容 vb.net [英] Regex, everything between 2 html tags vb.net

查看:24
本文介绍了正则表达式,2 个 html 标签之间的所有内容 vb.net的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试通过 Visual Basic 2010 上的正则表达式获取网页的一些信息

i'm trying to get some information of a webpage via regex on visual basic 2010

是这样的:

<SPAN CLASS="clear"></SPAN>
<h2> blabla </h2>
<h2> blabla </h2>
<b> blabla </b>

etc etc

<SPAN CLASS="clear"></SPAN>

我想要的是两者之间的一切还有 h2 标签和其他所有存在的 html 标签.

what i want is everything between the 2 also the h2 tags and every other html tag that exists.

这可能吗?

我已经尝试过 (.?) 和 . 和 \w* 但它没有返回任何东西...

i've already tried (.?) and . and \w* but it doesn't return anything...

推荐答案

为此最好使用 XML 解析器,但我假设它是一次性的或类似的.

It's probably best to use an XML parser for that, but I'm assuming it's a one-off scrape or similar.

如果我理解正确的话,这应该会得到标签之间的所有数据:

If I understand you correctly, this should get all the data between the tags:

Dim regex As New Text.RegularExpressions.Regex("<.*?>", RegexOptions.Singleline)
Dim result As String = regex.Replace(yourHtml, String.Empty)

您可以使用它来获取 H2 标签和数据:

You could use this to get just the H2 tags and data:

Dim regex As New Text.RegularExpressions.Regex("<\s*h2[^>]*>(.*?)<\s*/\s*h2>", RegexOptions.Singleline)
Dim results As New Text.StringBuilder
For Each m As Text.RegularExpressions.Match In regex.Matches(yourHtml)
    results.Append(m.Value)
Next

这篇关于正则表达式,2 个 html 标签之间的所有内容 vb.net的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆