如何在C#中使用正则表达式解析HTML? [英] How do I parse HTML using regular expressions in C#?

查看:105
本文介绍了如何在C#中使用正则表达式解析HTML?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

如何在C#中使用正则表达式解析HTML?

例如,给定的HTML代码

 < S2> t1< / s2> < img src ='1.gif'/> <跨度> span1< span /> 

我试图获得

  1。 < S2> 
2. t1
3.< / s2>
4.< img src ='1.gif'/>
5.< span>
6. span1
7.< span />

如何在C#中使用正则表达式执行此操作?



就我而言,HTML输入不像XHTML那样格式良好的XML。因此,我不能使用XML解析器来执行此操作。

解决方案

我在C#中使用了这个regx,它工作正常。

 <([^ <] *)> |([^ <] * )


How do I parse HTML using regular expressions in C#?

For example, given HTML code

<s2> t1 </s2>  <img src='1.gif' />  <span> span1 <span/>

I am trying to obtain

1.  <s2>
2.  t1
3. </s2>
4. <img src='1.gif' />
5. <span>
6. span1
7. <span/>

How do I do this using regular expressions in C#?

In my case, the HTML input is not well-formed XML like XHTML. Therefore I can not use XML parsers to do this.

解决方案

I used this regx in C#, and it works. Thanks for all your answers.

<([^<]*)>|([^<]*)

这篇关于如何在C#中使用正则表达式解析HTML?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆