C#-使用HTML Agility Pack获取标签内的文本 [英] C# - Get the text inside tags using HTML Agility Pack

查看:98
本文介绍了C#-使用HTML Agility Pack获取标签内的文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我已使用以下代码来解析HTML文档&将其存储为CSV文件.

I have used the following code to parse HTML document & store it as CSV file.

string actuald=null;
string data1 = File.ReadAllText("E://text.html");
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(data1);
HtmlNodeCollection col = doc.DocumentNode.SelectNodes("//pre");

foreach (HtmlNode node in col)
{
     actuald=node.Attributes[""].Value;
}
File.WriteAllText("E://text.csv",actuald);
Console.WriteLine("Data Converted");
Console.ReadKey();

在html文档中,我需要提取的内容位于<之间; pre>< /pre>. 我文件的内容看起来像

in the html document, the content i need to extract lies between < pre > < /pre > . the content of my file looks like

<HTML><HEAD><TITLE>NCEDC_Search_Results</TITLE></HEAD><BODY>Your search parameters are:<ul>
<li>start_time=1973/01/01,00:00:00
<li>end_time=2037/01/01,00:00:00
<li>minimum_magnitude=3.0
<li>maximum_magnitude=10
<li>etype=E
<li>rflag=A,F,H,I
<li>system=selected
<li>format=ncread
</ul>
<PRE>
Date       Time             Lat       Lon  Depth   Mag Magt  Nst Gap  Clo  RMS  SRC   Event ID
----------------------------------------------------------------------------------------------
1973/01/01 06:59:19.23  36.8037 -121.5087   5.65  3.60   Md   28  35    6 0.09 NCSN    1013957 
1973/01/01 07:57:39.65  37.0925 -121.5055   9.19  3.10   ML   45  90    5 0.07 NCSN    1013959 
</pre></html>

但是在html doc中,我没有在任何html标记下指定任何类吗?我应该在属性中提供什么内容["]?

but in the html doc I have no class specified under any of the html tags? What content should I give in the attributes[""]?

推荐答案

要在节点内获取文本:

actuald = node.InnerText;

获取包含HTML标签的文本

To get text including the HTML tags

actuald = node.InnerHtml;

这篇关于C#-使用HTML Agility Pack获取标签内的文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆