crawler4j相关内容

使用java解析robot.txt并识别是否允许url

我目前在应用程序中使用 jsoup 来解析和分析网页.但我想确保我遵守 robots.txt 规则并且只访问允许的页面. 我很确定 jsoup 不是为此而制作的,它完全是关于网页抓取和解析的.所以我计划有一个函数/模块,它应该读取域/站点的robot.txt,并确定我要访问的url是否被允许. 我做了一些研究并发现了以下内容.但我不确定这些,所以如果有人做同样类型的项目,其中涉及到 r ..
发布时间:2021-12-17 14:04:06 Java开发

在 Crawler4j 中循环调用 Controller.Start?

我在这里问了一个问题.但这是另一个听起来相似的问题. 使用crawler4j,我想抓取多个限制域名的种子网址(即shouldVisit中的域名检查).这里是一个如何操作的示例.简而言之,您使用 customData 设置域名列表,然后将其传递给爬虫类(来自控制器),在 shouldVisit 函数中,我们循环遍历此数据(这是一个列表,请参阅链接的 url)以查看域名是否在列表,如果是,则返回 ..
发布时间:2021-09-22 20:32:23 Java开发

使用crawler4j下载js文件

我正在尝试使用 crawler4j 下载一些网站.我遇到的唯一问题是,即使我在 shouldVisit 函数中为所有 .js 文件返回 true,它们也永远不会被下载. @Override公共布尔应该访问(WebURL url){返回真;}@覆盖公共无效访问(页面页面){String url = page.getWebURL().getURL();System.out.println("网址:" ..
发布时间:2021-09-22 20:30:11 Java开发

crawler4j 获取数据的步骤顺序是什么?

我想学习, crawler4j 是如何工作的? 它是否获取网页,然后下载其内容并提取它? .db 和 .cvs 文件及其结构怎么样? 一般来说,它遵循什么顺序? 拜托,我想要一个描述性的内容 谢谢 解决方案 通用爬虫流程 一个典型的多线程爬虫的流程如下: 我们有一个队列数据结构,称为frontier.新发现的 URL(或起点,所谓的种子)被添加到这个 ..
发布时间:2021-09-22 20:29:35 Java开发

改善crawler4j的性能

我需要编写一个网络抓取器,在大约100万个网站上抓取并将其标题,描述和关键字保存到1个大文件中(包含抓取的URL和相关单词).网址应从大文件中提取. 我已经在1M URL文件上运行了Crawler4j,并使用以下代码启动了网络爬虫:controller.start(MyCrawler.class, 20). 20是任意数字.每个搜寻器将结果单词传递到阻塞队列中,以供单个线程将这些单词和URL ..
发布时间:2020-05-13 22:59:54 Java开发

Groovy中的Crawler(JSoup VS Crawler4j)

我希望在Groovy(使用Grails框架和MongoDB数据库)中开发一个Web爬网程序,该爬网程序具有爬网网站,创建站点URL及其资源类型,内容,响应时间和重定向次数的列表的功能.涉及. 我正在就JSoup与Crawler4j进行辩论.我已经阅读了它们的基本操作,但是我无法清楚地了解两者之间的区别.任何人都可以建议使用上述功能哪个更好?还是将两者进行比较是完全不正确的? 谢谢. ..
发布时间:2020-04-24 09:55:02 其他开发

限制URL仅限种子URL域crawler4j

我希望crawler4j以这样的方式访问页面,使它们只属于种子中的域。种子中有多个域。我该怎么办? 假设我要添加种子网址: www.google.com www.yahoo.com www.wikipedia.com 现在我开始抓取,但我希望我的抓取工具仅在以上三个域中访问页面(就像 shouldVisit())。显然有外部链接,但我希望我的抓取工具仅限于这些域。子域,子文件 ..
发布时间:2019-01-09 22:48:40 Java开发

在循环内调用控制器(crawler4j-3.5)

您好我在 for-loop 中调用控制器,因为我有超过100个网址,所以我我有所有列表,我将迭代和抓取页面,我也设置了setCustomData的url,因为它不应该离开域。 for(Iterator iterator = ifList.listIterator(); iterator.hasNext();){ String str = iterator.next(); ..
发布时间:2018-12-20 01:51:13 Java开发

使用java解析robot.txt并确定是否允许使用url

我目前在应用程序中使用jsoup来解析和分析网页。但我想确保我遵守robot.txt规则并且只访问允许的页面。 我很确定jsoup不是为此制作的,而是关于网页抓取和解析。 所以我计划让函数/模块读取域/站点的robot.txt,并确定我是否允许访问的URL。 我做了一些研究,发现了以下内容。但是我不确定这些,所以如果有人做同样的项目,其中涉及到robot.txt解析,请分享你的想法和 ..
发布时间:2018-12-12 19:36:21 Java开发

使用java进行Web爬网(使用Ajax / JavaScript的页面)

我对此网络抓取非常新。我正在使用 crawler4j 来抓取网站。我通过抓取这些网站来收集所需的信息。我的问题是我无法抓取以下网站的内容。 http://www.sciencedirect.com/science/article/pii/S1568494612005741 。我想从上述网站抓取以下信息(请查看随附的屏幕截图)。 如果您观察到附加的屏幕截图,则它有三个名称(在红色框中突出显示) ..
发布时间:2018-12-06 14:11:16 Java开发