crawler4j - IT屋-程序员软件开发技术分享社区

使用java解析robot.txt并识别是否允许url

我目前在应用程序中使用 jsoup 来解析和分析网页.但我想确保我遵守 robots.txt 规则并且只访问允许的页面. 我很确定 jsoup 不是为此而制作的，它完全是关于网页抓取和解析的.所以我计划有一个函数/模块，它应该读取域/站点的robot.txt，并确定我要访问的url是否被允许. 我做了一些研究并发现了以下内容.但我不确定这些，所以如果有人做同样类型的项目，其中涉及到 r ..

发布时间：2021-12-17 14:04:06 java web-scraping jsoup crawler4j Java开发

在 Crawler4j 中循环调用 Controller.Start?

我在这里问了一个问题.但这是另一个听起来相似的问题. 使用crawler4j，我想抓取多个限制域名的种子网址(即shouldVisit中的域名检查).这里是一个如何操作的示例.简而言之，您使用 customData 设置域名列表，然后将其传递给爬虫类(来自控制器)，在 shouldVisit 函数中，我们循环遍历此数据(这是一个列表，请参阅链接的 url)以查看域名是否在列表，如果是，则返回 ..

发布时间：2021-09-22 20:32:23 java web-crawler crawler4j Java开发

使用crawler4j下载js文件

我正在尝试使用 crawler4j 下载一些网站.我遇到的唯一问题是，即使我在 shouldVisit 函数中为所有 .js 文件返回 true，它们也永远不会被下载. @Override公共布尔应该访问(WebURL url){返回真；}@覆盖公共无效访问(页面页面){String url = page.getWebURL().getURL();System.out.println("网址:" ..

发布时间：2021-09-22 20:30:11 java web-crawler crawler4j Java开发

crawler4j 获取数据的步骤顺序是什么?

我想学习， crawler4j 是如何工作的? 它是否获取网页，然后下载其内容并提取它? .db 和 .cvs 文件及其结构怎么样? 一般来说，它遵循什么顺序? 拜托，我想要一个描述性的内容谢谢解决方案通用爬虫流程一个典型的多线程爬虫的流程如下: 我们有一个队列数据结构，称为frontier.新发现的 URL(或起点，所谓的种子)被添加到这个 ..

发布时间：2021-09-22 20:29:35 java web-crawler crawler4j Java开发

crawler4j CrawelController类中的NoSuchMethodError

我使用的示例是此处，并从[here](http://code.google.com/p/我的构建路径和运行路径中的crawler4j/downloads/list). 我收到此错误: Exception in thread "main" java.lang.NoSuchMethodError: com.sleepycat.je.EnvironmentConfig.setAllowCre ..

发布时间：2020-07-18 19:57:04 java berkeley-db-je crawler4j Java开发

改善crawler4j的性能

我需要编写一个网络抓取器，在大约100万个网站上抓取并将其标题，描述和关键字保存到1个大文件中(包含抓取的URL和相关单词).网址应从大文件中提取. 我已经在1M URL文件上运行了Crawler4j，并使用以下代码启动了网络爬虫:controller.start(MyCrawler.class, 20). 20是任意数字.每个搜寻器将结果单词传递到阻塞队列中，以供单个线程将这些单词和URL ..

发布时间：2020-05-13 22:59:54 java multithreading optimization web-scraping crawler4j Java开发

Groovy中的Crawler(JSoup VS Crawler4j)

我希望在Groovy(使用Grails框架和MongoDB数据库)中开发一个Web爬网程序，该爬网程序具有爬网网站，创建站点URL及其资源类型，内容，响应时间和重定向次数的列表的功能.涉及. 我正在就JSoup与Crawler4j进行辩论.我已经阅读了它们的基本操作，但是我无法清楚地了解两者之间的区别.任何人都可以建议使用上述功能哪个更好?还是将两者进行比较是完全不正确的? 谢谢. ..

发布时间：2020-04-24 09:55:02 jsoup web-crawler crawler4j 其他开发

限制URL仅限种子URL域crawler4j

我希望crawler4j以这样的方式访问页面，使它们只属于种子中的域。种子中有多个域。我该怎么办？假设我要添加种子网址： www.google.com www.yahoo.com www.wikipedia.com 现在我开始抓取，但我希望我的抓取工具仅在以上三个域中访问页面（就像 shouldVisit（））。显然有外部链接，但我希望我的抓取工具仅限于这些域。子域，子文件 ..

发布时间：2019-01-09 22:48:40 java web-crawler crawler4j Java开发

语法错误，插入" ... VariableDeclaratorId"完成FormalParameterList

我在使用此代码时遇到一些问题： import edu.uci.ics.crawler4j.crawler.CrawlConfig; import edu.uci.ics.crawler4j.crawler.CrawlController; import edu.uci.ics.crawler4j.fetcher.PageFetcher; import edu.uci.ics.c ..

发布时间：2019-01-07 16:25:25 java web-crawler crawler4j Java开发

Crawler4j与Jsoup一起用于Java中的页面爬行和解析

我想获取页面的内容并提取其中的特定部分。据我所知，这项任务至少有两种解决方案： Crawler4j 和 ..

发布时间：2018-12-28 14:34:58 java web-crawler html-parsing jsoup crawler4j Java开发

在循环内调用控制器（crawler4j-3.5）

您好我在 for-loop 中调用控制器，因为我有超过100个网址，所以我我有所有列表，我将迭代和抓取页面，我也设置了setCustomData的url，因为它不应该离开域。 for（Iterator iterator = ifList.listIterator（）; iterator.hasNext（）;）{ String str = iterator.next（）; ..

发布时间：2018-12-20 01:51:13 java web-crawler crawler4j Java开发

使用java解析robot.txt并确定是否允许使用url

我目前在应用程序中使用jsoup来解析和分析网页。但我想确保我遵守robot.txt规则并且只访问允许的页面。我很确定jsoup不是为此制作的，而是关于网页抓取和解析。所以我计划让函数/模块读取域/站点的robot.txt，并确定我是否允许访问的URL。我做了一些研究，发现了以下内容。但是我不确定这些，所以如果有人做同样的项目，其中涉及到robot.txt解析，请分享你的想法和 ..

发布时间：2018-12-12 19:36:21 java web-scraping jsoup crawler4j Java开发

使用java进行Web爬网（使用Ajax / JavaScript的页面）

我对此网络抓取非常新。我正在使用 crawler4j 来抓取网站。我通过抓取这些网站来收集所需的信息。我的问题是我无法抓取以下网站的内容。 http://www.sciencedirect.com/science/article/pii/S1568494612005741 。我想从上述网站抓取以下信息（请查看随附的屏幕截图）。如果您观察到附加的屏幕截图，则它有三个名称（在红色框中突出显示） ..

发布时间：2018-12-06 14:11:16 java web-crawler crawler4j Java开发

crawler4j相关内容