C#Web和FTP爬虫库 [英] C# web and ftp crawler library

查看:257
本文介绍了C#Web和FTP爬虫库的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我需要一个库(希望能在C#!),它可以作为一个网络爬虫访问HTTP文件和FTP文件。原则上,我很高兴有阅读HTML,我希望把它扩大到PDF,WORD等。

I need a library (hopefully in C#!) which works as a web crawler to access HTTP files and FTP files. In principle, Im happy with reading HTML, I want to extend it to PDF, WORD, etc..

我很高兴有一个启动器的开源软件或至少任何指示对于文档。

Im happy with a starter's open source software or at least any directions for documentation.

最好的问候,
大卫

Best regards, David

推荐答案

NCrawler 项目

简单,非常高效的多线程网络爬虫用C#编写的基于流水线处理。包含HTML,文本,PDF和IFilter的文档处理器和语言检测(谷歌)。轻松添加管道步骤提取,使用和修改的信息。

Simple and very efficient multithreaded web crawler with pipeline based processing written in C#. Contains HTML, Text, PDF, and IFilter document processors and language detection(Google). Easy to add pipeline steps to extract, use and alter information.

这篇关于C#Web和FTP爬虫库的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆