apache-spark 第500页 - IT屋-程序员软件开发技术分享社区

在ALS Spark Scala中进行点校验

我只想问一下具体如何在Spark中成功使用checkpointInterval。你在ALS代码中的这个评论是什么意思： https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/recommendation/ALS。如果未在[[org.apache.spark.SparkConte ..

发布时间：2018-06-06 11:17:11 scala apache-spark hdfs apache-spark-mllib 其他开发

Spark（Scala）从驱动程序写入（和读取）到本地文件系统

第一个问题：我有一个2节点的虚拟群集和hadoop。我有一个运行spark工作的jar。这个jar接受为cli参数：指向commands.txt文件的路径，它告诉jar要运行哪些命令。我用spark -submit，我注意到我的从属节点没有运行，因为它找不到主服务器上本地的commands.txt文件。这是我用来运行它的命令： ./ spark-1.6.1-bi ..

发布时间：2018-06-06 11:16:26 scala hadoop apache-spark hdfs 其他开发

Spark SQL saveAsTable返回空结果

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： val sc = SparkSession .builder（） .appName（“App”） .master（“local [2]”） .config（“spark.sql.warehouse.dir”， “file：/// tmp / spark-warehouse”） .enableHiveSuppor ..

发布时间：2018-06-06 11:16:20 hadoop apache-spark hive hdfs apache-spark-sql 其他开发

如何保存群集上的文件

我使用 ssh 连接到集群，并使用 spark-submit --master yarn myProgram.py 我想将结果保存在文本文件中，然后尝试使用以下几行： counts.write.json（“hdfs：// home / myDir / text_file.txt“） counts.write.csv（”hdfs：//home/myDir/text_file.c ..

发布时间：2018-06-06 11:14:34 python apache-spark pyspark hdfs spark-submit Python

Spark从Kafka流式传输并以Avro格式写入HDFS

我基本上想要使用来自Kafka的数据并将其写入HDFS。但发生的情况是，它不是在hdfs中编写任何文件。它会创建空文件。如果我想在hdfs中以avro格式编写，请指导我如何修改代码。为了简单起见，我写了本地C盘。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization. ..

发布时间：2018-06-06 11:14:31 scala apache-spark hdfs spark-streaming avro 其他开发

保存并从本地二进制文件加载Spark RDD - 最小的工作示例

我正在开发一个Spark应用程序，其中首先计算RDD，然后需要将其存储到磁盘，然后再次加载到Spark中。为此，我正在寻找将RDD保存到本地文件然后加载它的最小工作示例。文件格式不适合文本转换，所以 saveAsTextFile 不会飞。 RDD可以是简单的RDD或Pair RDD，它不是关键。文件格式可以是HDFS或不是。这个例子可以用Java或Scala。 Than ..

发布时间：2018-06-06 11:13:12 apache-spark hdfs rdd 其他开发

为什么在一个运行在HDFS上的Spark wordcount应用程序中，局部性级别都是任意的？

我运行了一个包含12个节点（8G内存和8个内核）的Spark集群，用于某些测试。我试图弄清楚为什么数据本地“地图”阶段的一个简单的wordcount应用程序都是“任何”。 14GB数据集存储在HDFS中。解决方案我今天遇到同样的问题。这是我的情况：当我设置时，我的集群有9名工人（每个设置一个执行器） - total-executor-cores 9 ，Locality杠 ..

发布时间：2018-06-06 11:12:54 hadoop apache-spark hdfs 其他开发

如何使用spark和elasticsearch-hadoop从不同的ElasticSearch集群读写数据？

我很高兴使用spark和elasticsearch （带有elasticsearch-hadoop驱动程序）与几个巨大的集群。不时，我想拉出整个数据集群，处理每个文档，并把他们都进入了一个不同的Elasticsearch（ES）集群（是的，数据迁移也是如此）。目前，无法将ES数据从集群读取到RDD中，并且使用spark + elasticsearch-hadoop将RDD编写到另一 ..

发布时间：2018-06-06 11:10:56 elasticsearch apache-spark hdfs dfs elasticsearch-hadoop 其他开发

从spark作业访问HDFS HA（UnknownHostException错误）

我有Apache Mesos 0.22.1集群（3个主站和5个从站），在HA配置和Spark 1.5.1框架中运行Cloudera HDFS（2.5.0-cdh5.3.1）。当我试图提交已编译的HdfsTest.scala示例应用程序（来自Spark 1.5.1源代码）时 - 它失败，出现 java.lang.IllegalArgumentException：java.net.Unknow ..

发布时间：2018-06-06 11:09:02 scala apache-spark hdfs mesos mesosphere 其他开发

我如何将RDD保存到HDFS中，然后再读回它？

我有一个RDD，其元素是类型（Long，String）。出于某种原因，我想将整个RDD保存到HDFS中，并且稍后还将该RDD读回到Spark程序中。有可能这样做吗？如果是这样，怎么样？解决方案这是可能的。在RDD中，您有 saveAsObjectFile 和 saveAsTextFile 函数。元组被存储为（value1，value2），所以您可以稍后解析它。可以用 textF ..

发布时间：2018-06-06 11:08:52 scala apache-spark hdfs rdd bigdata 其他开发

在带有其他文件的YARN群集上运行Spark作业

我正在编写一个简单的Spark应用程序，它使用一些输入RDD，通过管道将其发送到外部脚本，并将该脚本的输出写入文件。驱动程序代码如下所示： val input = args（0） val scriptPath = args（1） val output = args（2） val sc = getSparkContext if（args.length == 4）{ //在这里我传 ..

发布时间：2018-06-06 11:04:00 apache-spark hdfs yarn 其他开发

SparkSQL - 直接读取实验文件

我从Impala迁移到SparkSQL，使用以下代码读取表： my_data = sqlContext.read。 parquet（'hdfs：//my_hdfs_path/my_db.db/my_table'）如何调用SparkSQL以上，所以它可以返回类似于： 'select col_A，col_B from my_table' code> s ..

发布时间：2018-06-06 11:01:16 scala apache-spark hdfs apache-spark-sql parquet 其他开发

Spark分区（ing）如何在HDFS中的文件上工作？

我正在使用HDFS的集群上使用Apache Spark。据我所知，HDFS正在数据节点上分发文件。所以如果在文件系统上放置一个“file.txt”，它将被分割成多个分区。现在我打电话给 $ b $ pre $ rdd = SparkContext（）。textFile（“hdfs：//.../文件.txt“）来自Apache Spark。现在rdd自动将与文件系统上的“file. ..

发布时间：2018-06-06 10:58:01 apache-spark hdfs 其他开发

Spark Hbase连接问题

在HDP 2.4.2中尝试通过spark连接hbase（使用 newhadoopAPIRDD ），打开followiong错误。已尝试增加hbase站点xml中的RPC时间文件，仍然相同。任何想法如何解决？线程“main”中的异常org.apache.hadoop.hbase.client.RetriesExhaustedException：失败后尝试= 36，例外： Wed Nov 1 ..

发布时间：2018-06-05 13:31:55 apache-spark hbase apache-spark-sql hortonworks-data-platform 其他开发

在Kerberos environement失败时Spark连接到Hbase

我正在使用 Spark 1.6.0（ spark-1.2.0-cdh5.10.2 code $） cloudera vm（ spark-1.2.0-cdh5.10.2 ） Hbase（1.2.0来自cloudera） Scala 2.10 启用Kerberos 我正在运行的步骤是： kinit spark-shell - 主线 - 执行程序内存256m --jars / ..

发布时间：2018-06-05 13:31:12 apache-spark hbase kerberos cloudera-quickstart-vm 其他开发

Spark SqlContext和Hbase：java.lang.NoClassDefFoundError：org / apache / hadoop / hbase / util / Bytes

$ b sqlContext.sql（“select * from尽管我已经包含了所有必需的jar，比如这个 export HADOOP_CLASSPATH = $ HADOOP_CLASSPATH：$（hbase classpath）以及在HDP 2.5中启动Hive hbase处理程序的Spark shell（Spark 1.6.3 ） spark-shell --mas ..

发布时间：2018-06-05 13:30:40 apache-spark dataframe hbase 其他开发

Hbase地区数量持续增长

我们正在使用hbase版本1.1.4。 DB有大约40个表格，每个表格数据都有一个指定的TimeToLive。它部署在5个节点的集群上，以下是hbase-site.xml phoenix.query.threadPoolSize 2048 hbase ..

发布时间：2018-06-05 13:29:27 hadoop apache-spark hbase 其他开发

为什么在Spark Streaming中读取广播变量在运行几天后得到异常？

我在我的项目中使用了Spark Streaming（Spark V1.6.0）以及HBase，HBase（HBase V1.1.2）配置在具有广播变量的执行器之间传输。 Spark Streaming应用程序最初运行，大约2天后出现异常。 val hBaseContext：HBaseContext = new HBaseContext（sc，HBaseCock.hBaseConfigu ..

发布时间：2018-06-05 13:27:14 apache-spark hbase broadcast spark-streaming 其他开发

使用Scala将SparkRDD写入HBase表

我试图用Scala写一个SparkRDD到HBase表（以前没用过）。整个代码如下： import org.apache.hadoop.hbase.client。{HBaseAdmin，Result} import org.apache.hadoop.hbase。{HBaseConfiguration，HTableDescriptor} import org.apache.hado ..

发布时间：2018-06-05 13:26:33 scala apache-spark hbase rdd 其他开发

Spark Streaming数据将数据放入HBase

我是这个领域的初学者，所以我无法理解它...... HBase ver：0.98。 24-hadoop2 Spark版本：2.1.0 以下代码试图将接收来自Spark Streming-Kafka制片人的数据转化为HBase。 Kafka输入数据格式如下： Line1， TAG1,123 Line1，TAG2,134 Spark流处理将接收线通过分隔符'，'然 ..

发布时间：2018-06-05 13:26:11 java apache-spark hbase spark-streaming Java开发

apache-spark相关内容