stormcrawler相关内容

java.util.ConcurrentModificationException 在 Stormcrawler 中向元数据添加一些键时发生

我在元数据中添加了一个字段,用于在状态索引中传输和持久化.该字段是一个字符串列表,其名称为 input_keywords.在 Strom 集群中运行拓扑后,拓扑停止并显示以下日志: java.lang.RuntimeException: com.esotericsoftware.kryo.KryoException: java.util.ConcurrentModificationExcepti ..
发布时间:2021-11-14 23:41:20 其他开发

在本地模式下运行 StormCrawler 还是安装 Apache Storm?

所以我想弄清楚如何使用 ES 和 Kibana 安装和设置 Storm/Stormcrawler,如 此处. 我从来没有在我的本地机器上安装过 Storm,因为我以前用过 Nutch,而且我从来没有在本地安装过 Hadoop……我认为 Storm 可能也一样(也许不是?). 我现在想开始用 Stormcrawler 而不是 Nutch 爬行. 看来,如果我只是下载一个版本并将/b ..
发布时间:2021-11-14 23:39:09 其他开发

在Stormcrawler中向元数据添加一些键时出现java.util.ConcurrentModificationException

我已经在元数据中添加了一个字段,用于传输和保留状态索引.该字段为字符串列表,名称为 input_keywords .在Strom群集中运行拓扑之后,拓扑停止,并显示以下日志: java.lang.RuntimeException:com.esotericsoftware.kryo.KryoException:java.util.ConcurrentModificationException序列 ..
发布时间:2021-04-08 20:32:50 其他开发

Java 11的Storm Crawler

尝试将Java版本从Java 8更新到Java 11以编译和运行StromCrawler. 我的问题- Java 11是否支持Storm Crawler?. 当我在POM中更新Java版本并构建项目时,我已经成功构建了项目,但是当我尝试运行该项目时,在运行InjectorTopology时出现以下错误- 560 [main] INFO c.a.h.c.InjectorTopo ..
发布时间:2021-02-10 18:41:07 其他开发

爬网时显式显示特殊字符

使用Storm Crawler 1.13和弹性搜索6.5.2.如何限制搜寻器不搜寻/索引特殊字符� � � � � ��� �� � • 解决方案 一种简单的方法是编写 这样的ParseFilter ParseData pd = parse.get(URL); String text = pd.getText(); // remove c ..
发布时间:2020-07-10 01:39:50 其他开发

在本地模式下运行StormCrawler还是安装Apache Storm?

因此,我试图找出如何使用我以前从未在本地计算机上安装过Storm,因为我以前曾与Nutch合作过,所以我从来没有在本地安装Hadoop ...以为与Storm可能是一样的(也许不是吗?). 我现在想开始使用Stormcrawler而不是Nutch进行爬网. 看来,如果我只是下载一个发行版并将/bin添加到我的PATH中,我就可以仅与远程集群通信. 似乎我需要根据 this ,使我 ..
发布时间:2020-07-10 01:39:38 其他开发

我可以在Storm crawler中存储网页的html内容吗?

我正在使用 strom-crawler-elastic .我可以看到获取的网址和状态. ES_IndexInit.sh文件中的配置更改仅提供url,标题,主机,文本.但是我可以用html标签存储整个html内容吗? 解决方案 ES IndexerBolt从ParseFilter中获取页面的内容,但不对其进行任何处理.一种选择是修改代码,以使其从传入的元组中提取 content 字段并对其进 ..
发布时间:2020-07-10 01:39:36 其他开发

为什么在状态和索引上有不同的文档计数?

因此,我正在关注Storm-Crawler-ElasticSearch教程,并开始使用它. 使用Kibana进行搜索时,我注意到索引名称“状态"的命中数远远大于“索引". 示例: 在左上角,您可以看到针对索引的 846次点击 ,我认为这意味着它已经爬过846页. 现在具有'索引'索引,表明只有 31个匹配项. 我了解功能上索引和状态是不同的,因为状态仅负责链接元数据. ..
发布时间:2020-04-26 09:39:35 其他开发