java - 求教：怎样解决Jsoup翻页问题？

查看：142 发布时间：2017/9/6 12:22:22 crawler jsoup java

本文介绍了java - 求教：怎样解决Jsoup翻页问题？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题

请教一个问题哈：

Jsoup官方文档里，重点讲了怎么解析网页，但没很好的讲解怎么download这个问题。
载入一个网页，就这么干巴巴一句：

Document doc = Jsoup.connect("http://example.com/").get();

更别没有提到翻页、判断是否重复爬去等问题。

这个是不是说，用其他的爬虫，比如crawler4j或者HttpClient，先爬取网页，然后再使用Jsoup来解析？

还是说Jsoup能强大到先爬取再解析？

还有，对于这个问题，能否推荐几个英文关键词，我去google上搜一下？
水平不高，连关键词是什么都不知道，请见谅。

解决方案

JSoup帮你发送http请求，获取返回的HTML内容，保存到Document对象中，再提供一套类jQuery的API查询解析HTML文档内的信息

翻页每个站点有特定的URL请求，或JSON、JSONP请求，这个需要你自己组织处理

你可以使用HttpClient等爬虫类库，获取HTML原始内容，构建成JSOUP的Document对象，让JSOUP解析出内容，然后保存到你期望的持久化方案中（本地文件，数据库，内存...）

是否爬虫了，是否需要通过代理去爬（如何反爬）不是JSOUP应该干的活，就像HttpClient负责爬取内容，但不会解析内容一样....

这篇关于java - 求教：怎样解决Jsoup翻页问题？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文