使用Html Agility Pack从HTML BODY节点提取内部文本 [英] Extracting Inner text from HTML BODY node with Html Agility Pack

查看:119
本文介绍了使用Html Agility Pack从HTML BODY节点提取内部文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述



基本上我想抓住纯文本与HTML的主体节点。
到目前为止,我已经在vb.net中尝试过这种方式,并且它无法返回意味着
的无意义内容,从我所能看到的内容看,至少是这样。

  Dim htmldoc As HtmlDocument = New HtmlDocument 
htmldoc.LoadHtml(html)

Dim paragraph As HtmlNodeCollection = htmldoc.DocumentNode.SelectNodes( // body)

如果不是htmldoc是Nothing那么
对于每个节点在段落
node.ParentNode.RemoveChild(node,True)
Next
结束如果

返回htmldoc.DocumentNode.WriteContentTo

我已经试过了:

 返回htmldoc.DocumentNode.InnerText 

但仍然没有运气!



任何建议???

解决方案

如何:

 返回htmldoc.DocumentNode.SelectSingleNode(// body) .InnerText 


Need a bit of help with HTML Agility Pack!

Basically I want to grab plain-text withing the body node of the HTML. So far I have tried this in vb.net and it fails to return the innertext meaning no change is seen, well atleast from what I can see.

Dim htmldoc As HtmlDocument = New HtmlDocument
htmldoc.LoadHtml(html)

Dim paragraph As HtmlNodeCollection = htmldoc.DocumentNode.SelectNodes("//body")

If Not htmldoc Is Nothing Then
   For Each node In paragraph
       node.ParentNode.RemoveChild(node, True)
   Next
End If

Return htmldoc.DocumentNode.WriteContentTo

I have tried this:

Return htmldoc.DocumentNode.InnerText

But still no luck!

Any advice???

解决方案

How about:

Return htmldoc.DocumentNode.SelectSingleNode("//body").InnerText

这篇关于使用Html Agility Pack从HTML BODY节点提取内部文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆