elasticsearch-hadoop - IT屋-程序员软件开发技术分享社区

有没有办法在风暴中应用多个分组?

我想对我的拓扑应用“字段分组"以及“本地或随机分组"，这样每个 spout 只将数据发送到本地螺栓，但也使用我文档中的字段来决定它应该使用哪些本地螺栓因此，如果有两个工作进程，每个进程有 1 个 Kafka-Spout 和 2 个弹性搜索螺栓，则 local-or-shuffle 分组给我以下内容: 每个KS --->两个本地 ES 螺栓 fields-grouping 给了我以下内容 ..

发布时间：2021-11-14 23:40:43 apache-storm elasticsearch-hadoop 其他开发

Pypsark - 使用 collect_list 时保留空值

根据pyspark collect_set 或 collect_list with groupby，当你在某列上做一个 collect_list 时，该列中的 null 值会被删除.我已经检查过，这是真的. 但就我而言，我需要保留空列——我怎样才能做到这一点? 我没有找到任何关于这种 collect_list 函数变体的信息. 解释为什么我想要空值的背景上下文: 我有一个数 ..

发布时间：2021-11-14 22:57:05 nested pyspark-sql collect elasticsearch-hadoop elasticsearch-mapping 其他开发

将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

我设计了一个简单的作业来从 MySQL 读取数据并将其保存在 Elasticsearch 中. 代码如下: JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("MySQLtoEs").set("es.index.auto.create", "true").set("es.nodes", "127.0. ..

发布时间：2021-11-12 05:41:47 elasticsearch apache-spark elasticsearch-hadoop apache-spark-1.5 其他开发

火花是懒惰的吧?那么 load()的作用是什么? start = timeit.default_timer()df = sqlContext.read.option("es.resource"，索引).format("org.elasticsearch.spark.sql")结束= timeit.default_timer()print('without load:'，end-start)#几 ..

发布时间：2021-04-08 20:13:35 apache-spark elasticsearch-hadoop 其他开发

Elasticsearch + Spark:使用自定义文档_id编写json

我试图在Spark中的Elasticsearch中编写对象的集合.我必须满足两个要求: 文档已使用JSON序列化，应原样编写应提供Elasticsearch文档 _id 这是我到目前为止尝试过的. saveJsonToEs() 我尝试使用 saveJsonToEs() 像这样(序列化的文档包含具有所需Elasticsearch ID的字段 _id ): val rd ..

发布时间：2021-04-08 20:02:53 scala apache-spark elasticsearch elasticsearch-hadoop 其他开发

有没有办法在Storm中应用多个分组?

我想对拓扑应用“字段分组"以及“本地或随机分组"，这样每个喷口仅将数据发送到本地螺栓，而且还使用我文档中的字段来决定应该使用的本地螺栓因此，如果有两个工作进程每个都有1个Kafka-Spout和2个Elastic-Search-bolt，则local-or-shuffle分组将为我提供以下信息: Each KS ---> Two local ES-Bolts fields-gro ..

发布时间：2020-09-04 22:47:37 apache-storm elasticsearch-hadoop 其他开发

Python将Dataframe激发到Elasticsearch

我不知道如何使用Spark中的python将数据帧写入elasticsearch.我遵循了这是我的代码: # Read file df = sqlContext.read \ .format('com.databricks.spark.csv') \ .options(header='true') \ .load('/vagrant/data/input/input. ..

发布时间：2020-09-04 08:23:58 elasticsearch apache-spark pyspark elasticsearch-hadoop 其他开发

Spark Scala-如何从嵌套JSON构造Scala Map?

我有一个嵌套的json数据，其中包含要提取和构造Scala Map的嵌套字段. 这里有示例JSON: "nested_field": [ { "airport": "sfo", "score": 1.0 }, { "airport": "phx", "score": 1.0 }, { "airport": "sjc", ..

发布时间：2020-09-04 05:20:32 scala apache-spark elasticsearch-hadoop 其他开发

Pypsark-使用collect_list时保留空值

根据但就我而言，我需要保留null列-如何实现此目的? 我没有找到有关collect_list函数这种变体的任何信息. 背景信息来解释为什么我想要空值: 我有一个数据框df，如下所示: cId | eId | amount | city 1 | 2 | 20.0 | Paris 1 | 2 | 30.0 | ..

发布时间：2020-05-17 01:15:50 nested pyspark-sql collect elasticsearch-hadoop elasticsearch-mapping 其他开发

如何使用spark和elasticsearch-hadoop从不同的ElasticSearch集群读写数据？

我很高兴使用spark和elasticsearch （带有elasticsearch-hadoop驱动程序）与几个巨大的集群。不时，我想拉出整个数据集群，处理每个文档，并把他们都进入了一个不同的Elasticsearch（ES）集群（是的，数据迁移也是如此）。目前，无法将ES数据从集群读取到RDD中，并且使用spark + elasticsearch-hadoop将RDD编写到另一 ..

发布时间：2018-06-06 11:10:56 elasticsearch apache-spark hdfs dfs elasticsearch-hadoop 其他开发

什么是ElasticSearch-Hadoop（es-hadoop）及其对HBase的实时Web应用程序的好处？

我不清楚es-hadoop是从说明。这只是一个“连接器”，将数据从您的ES集群移动到HDFS进行Hadoop分析？如果是这样，为什么不用HBase进行低延迟的文本查询？ es-Hadoop与常规ES不同的安装？请详细说明。谢谢。解决方案 ES-Hadoop更接近于Hadoop生态系统与ES之间的连接。它不是ES的单独版本。基本上它改进了Hadoop生 ..

发布时间：2017-08-07 01:30:28 hadoop elasticsearch hbase elasticsearch-hadoop 分布式计算/Hadoop

将Spark Dataframe保存到Elasticsearch中 - 无法处理类型异常

我设计了一个简单的工作来从MySQL读取数据并将其保存在具有Spark的Elasticsearch中。这是代码： JavaSparkContext sc = new JavaSparkContext（ new SparkConf（）。setAppName（“MySQLtoEs”） .set（“es.index.auto .create“，”true“） .set（”es.no ..

发布时间：2017-08-06 22:29:40 elasticsearch apache-spark elasticsearch-hadoop apache-spark-1.5 分布式计算/Hadoop

ElasticSearch星火RDD

我是测试ElasticSearch和星火我的本地机器上的整合，利用elasticsearch加载一些测试数据。 VAL sparkConf =新SparkConf（）。setAppName（“测试”）。setMaster（“本地”） VAL SC =新SparkContext（sparkConf） VAL的conf =新JobConf（） conf.set（“spark.serializer” ..

发布时间：2016-05-22 15:50:57 serialization elasticsearch apache-spark elasticsearch-hadoop 其他开发

星火保存到数据框Elasticsearch - 无法处理的异常类型

我设计了一个简单的工作，从MySQL中读取数据，并将其与星火保存Elasticsearch。下面是code： JavaSparkContext SC =新JavaSparkContext（新SparkConf（）。setAppName（“MySQLtoEs”） .SET（“es.index.auto.create”，“真”） ..

发布时间：2016-05-22 15:15:18 elasticsearch apache-spark elasticsearch-hadoop apache-spark-1.5 其他开发

elasticsearch-hadoop相关内容