使用Html Agility Pack从HTML BODY节点提取内部文本 [英] Extracting Inner text from HTML BODY node with Html Agility Pack
本文介绍了使用Html Agility Pack从HTML BODY节点提取内部文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
基本上我想抓住纯文本与HTML的主体节点。
到目前为止,我已经在vb.net中尝试过这种方式,并且它无法返回意味着
的无意义内容,从我所能看到的内容看,至少是这样。
Dim htmldoc As HtmlDocument = New HtmlDocument
htmldoc.LoadHtml(html)
Dim paragraph As HtmlNodeCollection = htmldoc.DocumentNode.SelectNodes( // body)
如果不是htmldoc是Nothing那么
对于每个节点在段落
node.ParentNode.RemoveChild(node,True)
Next
结束如果
返回htmldoc.DocumentNode.WriteContentTo
我已经试过了:
返回htmldoc.DocumentNode.InnerText
但仍然没有运气!
任何建议???
解决方案
如何:
返回htmldoc.DocumentNode.SelectSingleNode(// body) .InnerText
Need a bit of help with HTML Agility Pack!
Basically I want to grab plain-text withing the body node of the HTML. So far I have tried this in vb.net and it fails to return the innertext meaning no change is seen, well atleast from what I can see.
Dim htmldoc As HtmlDocument = New HtmlDocument
htmldoc.LoadHtml(html)
Dim paragraph As HtmlNodeCollection = htmldoc.DocumentNode.SelectNodes("//body")
If Not htmldoc Is Nothing Then
For Each node In paragraph
node.ParentNode.RemoveChild(node, True)
Next
End If
Return htmldoc.DocumentNode.WriteContentTo
I have tried this:
Return htmldoc.DocumentNode.InnerText
But still no luck!
Any advice???
解决方案
How about:
Return htmldoc.DocumentNode.SelectSingleNode("//body").InnerText
这篇关于使用Html Agility Pack从HTML BODY节点提取内部文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文