如何使用Asp.Net机器人Linq到Html页面 [英] How I Can Linq To Html Page With Asp.Net Robots

查看:82
本文介绍了如何使用Asp.Net机器人Linq到Html页面的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

hi
i会写一个asp.net程序收集

特殊新闻网站的数据。

我该怎么办?

如何访问此页面的html标签,如(

hi i will write a asp.net programs that To Collect
data of special news site.
how can i it?
how can i access this page html tags such as (

推荐答案

Linq2Html 是一个直截了当的库从HTML页面中抓取数据。



一个稍微更难的替代方案 - 但绝不是困难替代方案 - 正在使用 HTML Agility Pack 。稍微有些困难,因为它需要你学习执行XPath查询的语法。



这项工作中最棘手的部分是编写查询来识别HTML元素( s)在您正在抓取数据的页面上。如果您使用HTML Agility Pack,我建议您使用Firefox开发人员工具来检查页面元素 - 它可以很好地支持通过他们的开发人员工具IDE生成XSL / XSLT路径查询。



我在CodeProject上提到的两个库上都有一些示例文章。
Linq2Html is a straight-forward library for scraping data from HTML pages.

A slightly harder alternative - but by no means 'difficult' alternative - is using HTML Agility Pack. It is slightly harder only in that it requires you to learn the syntax for executing XPath queries.

The trickiest part of the work involves writing queries which identify what HTML Element(s) on a page you are scraping data from. If you use HTML Agility Pack, i would suggest also using Firefox developer tools for inspecting page elements - it has good support for generating an XSL/XSLT path queries via their Developer Tools IDE.

There are already a few sample articles on both libraries I mentioned present on CodeProject.


这篇关于如何使用Asp.Net机器人Linq到Html页面的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆