apache-spark相关内容

Spark(Scala)从驱动程序写入(和读取)到本地文件系统

第一个问题: 我有一个2节点的虚拟群集和hadoop。 我有一个运行spark工作的jar。 这个jar接受为cli参数:指向commands.txt文件的路径,它告诉jar要运行哪些命令。 我用spark -submit,我注意到我的从属节点没有运行,因为它找不到主服务器上本地的commands.txt文件。 这是我用来运行它的命令: ./ spark-1.6.1-bi ..
发布时间:2018-06-06 11:16:26 其他开发

如何保存群集上的文件

我使用 ssh 连接到集群,并使用 spark-submit --master yarn myProgram.py 我想将结果保存在文本文件中,然后尝试使用以下几行: counts.write.json(“hdfs:// home / myDir / text_file.txt“) counts.write.csv(”hdfs://home/myDir/text_file.c ..
发布时间:2018-06-06 11:14:34 Python

Spark从Kafka流式传输并以Avro格式写入HDFS

我基本上想要使用来自Kafka的数据并将其写入HDFS。但发生的情况是,它不是在hdfs中编写任何文件。它会创建空文件。 如果我想在hdfs中以avro格式编写,请指导我如何修改代码。 为了简单起见,我写了本地C盘。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization. ..
发布时间:2018-06-06 11:14:31 其他开发

保存并从本地二进制文件加载Spark RDD - 最小的工作示例

我正在开发一个Spark应用程序,其中首先计算RDD,然后需要将其存储到磁盘,然后再次加载到Spark中。为此,我正在寻找将RDD保存到本地文件然后加载它的最小工作示例。 文件格式不适合文本转换,所以 saveAsTextFile 不会飞。 RDD可以是简单的RDD或Pair RDD,它不是关键。文件格式可以是HDFS或不是。 这个例子可以用Java或Scala。 Than ..
发布时间:2018-06-06 11:13:12 其他开发

为什么在一个运行在HDFS上的Spark wordcount应用程序中,局部性级别都是任意的?

我运行了一个包含12个节点(8G内存和8个内核)的Spark集群,用于某些测试。 我试图弄清楚为什么数据本地“地图”阶段的一个简单的wordcount应用程序都是“任何”。 14GB数据集存储在HDFS中。 解决方案 我今天遇到同样的问题。这是我的情况: 当我设置时,我的集群有9名工人(每个设置一个执行器) - total-executor-cores 9 ,Locality杠 ..
发布时间:2018-06-06 11:12:54 其他开发

如何使用spark和elasticsearch-hadoop从不同的ElasticSearch集群读写数据?

我很高兴使用spark和elasticsearch (带有elasticsearch-hadoop驱动程序)与几个巨大的集群。 不时,我想拉出整个数据集群,处理每个文档,并把他们都进入了一个不同的Elasticsearch(ES)集群(是的,数据迁移也是如此)。 目前,无法将ES数据从集群读取到RDD中,并且使用spark + elasticsearch-hadoop将RDD编写到另一 ..

我如何将RDD保存到HDFS中,然后再读回它?

我有一个RDD,其元素是类型(Long,String)。出于某种原因,我想将整个RDD保存到HDFS中,并且稍后还将该RDD读回到Spark程序中。有可能这样做吗?如果是这样,怎么样? 解决方案 这是可能的。在RDD中,您有 saveAsObjectFile 和 saveAsTextFile 函数。元组被存储为(value1,value2),所以您可以稍后解析它。 可以用 textF ..
发布时间:2018-06-06 11:08:52 其他开发

在带有其他文件的YARN群集上运行Spark作业

我正在编写一个简单的Spark应用程序,它使用一些输入RDD,通过管道将其发送到外部脚本,并将该脚本的输出写入文件。驱动程序代码如下所示: val input = args(0) val scriptPath = args(1) val output = args(2) val sc = getSparkContext if(args.length == 4){ //在这里我传 ..
发布时间:2018-06-06 11:04:00 其他开发

Spark分区(ing)如何在HDFS中的文件上工作?

我正在使用HDFS的集群上使用Apache Spark。据我所知,HDFS正在数据节点上分发文件。所以如果在文件系统上放置一个“file.txt”,它将被分割成多个分区。 现在我打电话给 $ b $ pre $ rdd = SparkContext()。textFile(“hdfs://.../文件.txt“) 来自Apache Spark。 现在rdd自动将与文件系统上的“file. ..
发布时间:2018-06-06 10:58:01 其他开发

Hbase地区数量持续增长

我们正在使用hbase版本1.1.4。 DB有大约40个表格,每个表格数据都有一个指定的TimeToLive。它部署在5个节点的集群上,以下是hbase-site.xml phoenix.query.threadPoolSize 2048 hbase ..
发布时间:2018-06-05 13:29:27 其他开发

使用Scala将SparkRDD写入HBase表

我试图用Scala写一个SparkRDD到HBase表(以前没用过)。整个代码如下: import org.apache.hadoop.hbase.client。{HBaseAdmin,Result} import org.apache.hadoop.hbase。{HBaseConfiguration,HTableDescriptor} import org.apache.hado ..
发布时间:2018-06-05 13:26:33 其他开发

Spark Streaming数据将数据放入HBase

我是这个领域的初学者,所以我无法理解它...... HBase ver:0.98。 24-hadoop2 Spark版本:2.1.0 以下代码试图将接收来自Spark Streming-Kafka制片人的数据转化为HBase。 Kafka输入数据格式如下: Line1, TAG1,123 Line1,TAG2,134 Spark流处理将接收线通过分隔符','然 ..
发布时间:2018-06-05 13:26:11 Java开发