elasticsearch-hadoop相关内容

有没有办法在风暴中应用多个分组?

我想对我的拓扑应用“字段分组"以及“本地或随机分组",这样每个 spout 只将数据发送到本地螺栓,但也使用我文档中的字段来决定它应该使用哪些本地螺栓 因此,如果有两个工作进程,每个进程有 1 个 Kafka-Spout 和 2 个弹性搜索螺栓,则 local-or-shuffle 分组给我以下内容: 每个KS --->两个本地 ES 螺栓 fields-grouping 给了我以下内容 ..
发布时间:2021-11-14 23:40:43 其他开发

Pypsark - 使用 collect_list 时保留空值

根据pyspark collect_set 或 collect_list with groupby,当你在某列上做一个 collect_list 时,该列中的 null 值会被删除.我已经检查过,这是真的. 但就我而言,我需要保留空列——我怎样才能做到这一点? 我没有找到任何关于这种 collect_list 函数变体的信息. 解释为什么我想要空值的背景上下文: 我有一个数 ..

Elasticsearch + Spark:使用自定义文档_id编写json

我试图在Spark中的Elasticsearch中编写对象的集合.我必须满足两个要求: 文档已使用JSON序列化,应原样编写 应提供Elasticsearch文档 _id 这是我到目前为止尝试过的. saveJsonToEs() 我尝试使用 saveJsonToEs() 像这样(序列化的文档包含具有所需Elasticsearch ID的字段 _id ): val rd ..

有没有办法在Storm中应用多个分组?

我想对拓扑应用“字段分组"以及“本地或随机分组",这样每个喷口仅将数据发送到本地螺栓,而且还使用我文档中的字段来决定应该使用的本地螺栓 因此,如果有两个工作进程每个都有1个Kafka-Spout和2个Elastic-Search-bolt,则local-or-shuffle分组将为我提供以下信息: Each KS ---> Two local ES-Bolts fields-gro ..
发布时间:2020-09-04 22:47:37 其他开发

如何使用spark和elasticsearch-hadoop从不同的ElasticSearch集群读写数据?

我很高兴使用spark和elasticsearch (带有elasticsearch-hadoop驱动程序)与几个巨大的集群。 不时,我想拉出整个数据集群,处理每个文档,并把他们都进入了一个不同的Elasticsearch(ES)集群(是的,数据迁移也是如此)。 目前,无法将ES数据从集群读取到RDD中,并且使用spark + elasticsearch-hadoop将RDD编写到另一 ..

什么是ElasticSearch-Hadoop(es-hadoop)及其对HBase的实时Web应用程序的好处?

我不清楚es-hadoop是从说明。 这只是一个“连接器”,将数据从您的ES集群移动到HDFS进行Hadoop分析?如果是这样,为什么不用HBase进行低延迟的文本查询? es-Hadoop与常规ES不同的安装? 请详细说明。 谢谢。 解决方案 ES-Hadoop更接近于Hadoop生态系统与ES之间的连接。它不是ES的单独版本。 基本上它改进了Hadoop生 ..