如何抓取一些网站 [英] How to web crawl some sites

查看:26
本文介绍了如何抓取一些网站的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在启动一个新的网站抓取项目,以使用网络服务在内部检索和存储数据.我查了一些资料,发现了 Scrapy 和 Beevolve 网络爬虫服务.

I am starting a new project of crawling websites to retrieve and store data internally using a web service. I looked up some information and came across Scrapy and Beevolve web crawling services.

我的问题是最好在没有任何经验的情况下创建自己的爬虫还是租用网络爬虫服务?

My question is is it best to just create my own crawler with no prior experience or rent a web crawling service?

我遇到的一个问题是,有些网站需要先登录才能获取任何数据.

One issue that I came across is, some of the websites require a log in before getting any data.

推荐答案

如果您想用 Java 创建自己的网络爬虫,您可能需要查看 这个

If you want to create your own web crawler in Java you may want to look at this

你也可以看看 jSpiderjsoup.

You could also take a look at jSpider and jsoup.

这也可以:crawler4j

这篇关于如何抓取一些网站的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆