stormcrawler - IT屋-程序员软件开发技术分享社区

StormCrawler 无法连接到 ElasticSearch

运行命令时: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 我收到一条错误消息: 8710 [Thread-26-status-executor[4 4]] 错误 c.d.s.e.p.StatusUpdate ..

发布时间：2021-11-14 23:43:11 java elasticsearch web-crawler apache-storm stormcrawler Java开发

StormCrawler 无法连接到 ElasticSearch

运行命令时: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 我收到一条错误消息: 8710 [Thread-26-status-executor[4 4]] 错误 c.d.s.e.p.StatusUpdate ..

发布时间：2021-11-14 23:42:59 java elasticsearch web-crawler apache-storm stormcrawler Java开发

java.util.ConcurrentModificationException 在 Stormcrawler 中向元数据添加一些键时发生

我在元数据中添加了一个字段，用于在状态索引中传输和持久化.该字段是一个字符串列表，其名称为 input_keywords.在 Strom 集群中运行拓扑后，拓扑停止并显示以下日志: java.lang.RuntimeException: com.esotericsoftware.kryo.KryoException: java.util.ConcurrentModificationExcepti ..

发布时间：2021-11-14 23:41:20 serialization apache-storm kryo stormcrawler 其他开发

在本地模式下运行 StormCrawler 还是安装 Apache Storm?

所以我想弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler，如此处. 我从来没有在我的本地机器上安装过 Storm，因为我以前用过 Nutch，而且我从来没有在本地安装过 Hadoop……我认为 Storm 可能也一样(也许不是?). 我现在想开始用 Stormcrawler 而不是 Nutch 爬行. 看来，如果我只是下载一个版本并将/b ..

发布时间：2021-11-14 23:39:09 web-crawler apache-storm stormcrawler 其他开发

在Stormcrawler中向元数据添加一些键时出现java.util.ConcurrentModificationException

我已经在元数据中添加了一个字段，用于传输和保留状态索引.该字段为字符串列表，名称为 input_keywords .在Strom群集中运行拓扑之后，拓扑停止，并显示以下日志: java.lang.RuntimeException:com.esotericsoftware.kryo.KryoException:java.util.ConcurrentModificationException序列 ..

发布时间：2021-04-08 20:32:50 serialization apache-storm kryo stormcrawler 其他开发

Java 11的Storm Crawler

尝试将Java版本从Java 8更新到Java 11以编译和运行StromCrawler. 我的问题- Java 11是否支持Storm Crawler?. 当我在POM中更新Java版本并构建项目时，我已经成功构建了项目，但是当我尝试运行该项目时，在运行InjectorTopology时出现以下错误- 560 [main] INFO c.a.h.c.InjectorTopo ..

发布时间：2021-02-10 18:41:07 java-11 stormcrawler 其他开发

StormCrawler:超时等待来自池的连接

增加线程数量或Fetcher螺栓执行器的数量时，我们始终会遇到以下错误. org.apache.http.conn.ConnectionPoolTimeoutException: Timeout waiting for connection from pool at org.apache.http.impl.conn.PoolingHttpClientConnectionManager.le ..

发布时间：2020-07-10 01:39:54 web-crawler stormcrawler 其他开发

StormCrawler无法连接到ElasticSearch

在运行命令时: storm jar target/crawlIndexer-1.0-SNAPSHOT.jar org.apache.storm.flux.Flux --local es-injector.flux --sleep 86400000 我收到一条错误消息: 8710 [Thread-26-status-executor[4 4]] ERROR c.d.s.e.p.St ..

发布时间：2020-07-10 01:39:52 java elasticsearch web-crawler apache-storm stormcrawler Java开发

爬网时显式显示特殊字符

使用Storm Crawler 1.13和弹性搜索6.5.2.如何限制搜寻器不搜寻/索引特殊字符� � � � � �� • 解决方案一种简单的方法是编写这样的ParseFilter ParseData pd = parse.get(URL); String text = pd.getText(); // remove c ..

发布时间：2020-07-10 01:39:50 web-crawler stormcrawler 其他开发

StormCrawler发现并获取网站，但文档中没有保存任何内容

有一个我要搜寻的网站，搜寻器发现并捕获URL，但是文档中没有任何内容.这是网站https://cactussara.ir.问题出在哪儿?！这是该网站的robots.txt: User-agent: * Disallow: / 这是我的 urlfilters.json : { "com.digitalpebble.stormcrawler.filtering.URLFil ..

发布时间：2020-07-10 01:39:45 stormcrawler 其他开发

带SQL外部模块的Stormcrawl在抓取Sage时获得ParseFilters异常

我将Stromcrawler与SQL外部模块一起使用.我已使用以下命令更新了pop.xml: com.digitalpebble.stormcrawler storm-crawler-sql 1.8 ..

发布时间：2020-07-10 01:39:43 web-crawler stormcrawler 其他开发

Stormcrawler没有使用Elasticsearch索引内容

使用Stormcrawler时，它会索引到Elasticsearch，而不是内容. Stormcrawler是最新的'origin/master' https://github. com/DigitalPebble/storm-crawler.git 使用elasticsearch-5.6.4 crawler-conf.yaml具有 indexer.url.fieldnam ..

发布时间：2020-07-10 01:39:40 web-crawler stormcrawler 其他开发

在本地模式下运行StormCrawler还是安装Apache Storm?

因此，我试图找出如何使用我以前从未在本地计算机上安装过Storm，因为我以前曾与Nutch合作过，所以我从来没有在本地安装Hadoop ...以为与Storm可能是一样的(也许不是吗?). 我现在想开始使用Stormcrawler而不是Nutch进行爬网. 看来，如果我只是下载一个发行版并将/bin添加到我的PATH中，我就可以仅与远程集群通信. 似乎我需要根据 this ，使我 ..

发布时间：2020-07-10 01:39:38 web-crawler apache-storm stormcrawler 其他开发

我可以在Storm crawler中存储网页的html内容吗?

我正在使用 strom-crawler-elastic .我可以看到获取的网址和状态. ES_IndexInit.sh文件中的配置更改仅提供url，标题，主机，文本.但是我可以用html标签存储整个html内容吗? 解决方案 ES IndexerBolt从ParseFilter中获取页面的内容，但不对其进行任何处理.一种选择是修改代码，以使其从传入的元组中提取 content 字段并对其进 ..

发布时间：2020-07-10 01:39:36 web-crawler elasticsearch-5 stormcrawler 其他开发

为什么在状态和索引上有不同的文档计数?

因此，我正在关注Storm-Crawler-ElasticSearch教程，并开始使用它. 使用Kibana进行搜索时，我注意到索引名称“状态"的命中数远远大于“索引". 示例: 在左上角，您可以看到针对索引的 846次点击，我认为这意味着它已经爬过846页. 现在具有'索引'索引，表明只有 31个匹配项. 我了解功能上索引和状态是不同的，因为状态仅负责链接元数据. ..

发布时间：2020-04-26 09:39:35 elasticsearch web-crawler kibana stormcrawler 其他开发

stormcrawler相关内容