通过将网页内容(不是html代码)获取到任何容器中进行网络抓取 [英] web crawling through get webpage content(not html code) in to any container

查看:66
本文介绍了通过将网页内容(不是html代码)获取到任何容器中进行网络抓取的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

大家好

目前,我正在从事.Net Web爬网.
我的第一个要求是

如何将网页内容(不是HTML代码)放入任何本地容器(如Datatable等)中.


就像任何网页都包含表格一样,该表格没有任何记录,例如名称,地址等.
所以我只想从那里的网页中获取姓名地址.


请帮助我........

Hi all

currently i am working on .Net web crawling .
my first requirement is

how to get webpage content (not HTML code) into any local container like Datatable etc.


like any web page contains table and this table having no of records for e.g name ,address etc.
so i want to fetch only name address from there web page.


kindly help me ........

推荐答案

try:

HtmlAgilityPack:
http://htmlagilitypack.codeplex.com/ [ ^ ]
try:

HtmlAgilityPack:
http://htmlagilitypack.codeplex.com/[^]
HtmlAgilityPack now supporting Linq :

HtmlDocument doc = ...
var myTable = doc.DocumentNode
                 .Descendants("table")
                 .Where(t =>t.Attributes["id"].Value == someTableId)
                 .FirstOrDefault();

if(myTable != null)
{
    ///further parsing here
}



另请参阅CP文章:

使用正则表达式匹配和XML的ASP.NET中的Web抓取转换 [ ^ ]



Also see CP article:

Web Scraping in ASP.NET with Regular Expression Matching and XML Transformation[^]


这篇关于通过将网页内容(不是html代码)获取到任何容器中进行网络抓取的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆