C#Web和FTP爬虫库 [英] C# web and ftp crawler library
问题描述
我需要一个库(希望能在C#!),它可以作为一个网络爬虫访问HTTP文件和FTP文件。原则上,我很高兴有阅读HTML,我希望把它扩大到PDF,WORD等。
I need a library (hopefully in C#!) which works as a web crawler to access HTTP files and FTP files. In principle, Im happy with reading HTML, I want to extend it to PDF, WORD, etc..
我很高兴有一个启动器的开源软件或至少任何指示对于文档。
Im happy with a starter's open source software or at least any directions for documentation.
最好的问候,
大卫
Best regards, David
推荐答案
NCrawler 项目
简单,非常高效的多线程网络爬虫用C#编写的基于流水线处理。包含HTML,文本,PDF和IFilter的文档处理器和语言检测(谷歌)。轻松添加管道步骤提取,使用和修改的信息。
Simple and very efficient multithreaded web crawler with pipeline based processing written in C#. Contains HTML, Text, PDF, and IFilter document processors and language detection(Google). Easy to add pipeline steps to extract, use and alter information.
这篇关于C#Web和FTP爬虫库的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!