apache-spark相关内容
我只想问一下具体如何在Spark中成功使用checkpointInterval。你在ALS代码中的这个评论是什么意思: https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/recommendation/ALS。如果未在[[org.apache.spark.SparkConte
..
第一个问题: 我有一个2节点的虚拟群集和hadoop。 我有一个运行spark工作的jar。 这个jar接受为cli参数:指向commands.txt文件的路径,它告诉jar要运行哪些命令。 我用spark -submit,我注意到我的从属节点没有运行,因为它找不到主服务器上本地的commands.txt文件。 这是我用来运行它的命令: ./ spark-1.6.1-bi
..
我使用以下代码在Spark SQL中创建/插入数据到Hive表中: val sc = SparkSession .builder() .appName(“App”) .master(“local [2]”) .config(“spark.sql.warehouse.dir”, “file:/// tmp / spark-warehouse”) .enableHiveSuppor
..
我使用 ssh 连接到集群,并使用 spark-submit --master yarn myProgram.py 我想将结果保存在文本文件中,然后尝试使用以下几行: counts.write.json(“hdfs:// home / myDir / text_file.txt“) counts.write.csv(”hdfs://home/myDir/text_file.c
..
我基本上想要使用来自Kafka的数据并将其写入HDFS。但发生的情况是,它不是在hdfs中编写任何文件。它会创建空文件。 如果我想在hdfs中以avro格式编写,请指导我如何修改代码。 为了简单起见,我写了本地C盘。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization.
..
我正在开发一个Spark应用程序,其中首先计算RDD,然后需要将其存储到磁盘,然后再次加载到Spark中。为此,我正在寻找将RDD保存到本地文件然后加载它的最小工作示例。 文件格式不适合文本转换,所以 saveAsTextFile 不会飞。 RDD可以是简单的RDD或Pair RDD,它不是关键。文件格式可以是HDFS或不是。 这个例子可以用Java或Scala。 Than
..
我运行了一个包含12个节点(8G内存和8个内核)的Spark集群,用于某些测试。 我试图弄清楚为什么数据本地“地图”阶段的一个简单的wordcount应用程序都是“任何”。 14GB数据集存储在HDFS中。 解决方案 我今天遇到同样的问题。这是我的情况: 当我设置时,我的集群有9名工人(每个设置一个执行器) - total-executor-cores 9 ,Locality杠
..
我很高兴使用spark和elasticsearch (带有elasticsearch-hadoop驱动程序)与几个巨大的集群。 不时,我想拉出整个数据集群,处理每个文档,并把他们都进入了一个不同的Elasticsearch(ES)集群(是的,数据迁移也是如此)。 目前,无法将ES数据从集群读取到RDD中,并且使用spark + elasticsearch-hadoop将RDD编写到另一
..
我有Apache Mesos 0.22.1集群(3个主站和5个从站),在HA配置和Spark 1.5.1框架中运行Cloudera HDFS(2.5.0-cdh5.3.1)。 当我试图提交已编译的HdfsTest.scala示例应用程序(来自Spark 1.5.1源代码)时 - 它失败,出现 java.lang.IllegalArgumentException:java.net.Unknow
..
我有一个RDD,其元素是类型(Long,String)。出于某种原因,我想将整个RDD保存到HDFS中,并且稍后还将该RDD读回到Spark程序中。有可能这样做吗?如果是这样,怎么样? 解决方案 这是可能的。在RDD中,您有 saveAsObjectFile 和 saveAsTextFile 函数。元组被存储为(value1,value2),所以您可以稍后解析它。 可以用 textF
..
我正在编写一个简单的Spark应用程序,它使用一些输入RDD,通过管道将其发送到外部脚本,并将该脚本的输出写入文件。驱动程序代码如下所示: val input = args(0) val scriptPath = args(1) val output = args(2) val sc = getSparkContext if(args.length == 4){ //在这里我传
..
我从Impala迁移到SparkSQL,使用以下代码读取表: my_data = sqlContext.read。 parquet('hdfs://my_hdfs_path/my_db.db/my_table') 如何调用SparkSQL以上,所以它可以返回类似于: 'select col_A,col_B from my_table' code> s
..
我正在使用HDFS的集群上使用Apache Spark。据我所知,HDFS正在数据节点上分发文件。所以如果在文件系统上放置一个“file.txt”,它将被分割成多个分区。 现在我打电话给 $ b $ pre $ rdd = SparkContext()。textFile(“hdfs://.../文件.txt“) 来自Apache Spark。 现在rdd自动将与文件系统上的“file.
..
在HDP 2.4.2中尝试通过spark连接hbase(使用 newhadoopAPIRDD ),打开followiong错误。已尝试增加hbase站点xml中的RPC时间文件,仍然相同。任何想法如何解决? 线程“main”中的异常org.apache.hadoop.hbase.client.RetriesExhaustedException:失败后尝试= 36,例外: Wed Nov 1
..
我正在使用 Spark 1.6.0( spark-1.2.0-cdh5.10.2 code $) cloudera vm( spark-1.2.0-cdh5.10.2 ) Hbase(1.2.0来自cloudera) Scala 2.10 启用Kerberos 我正在运行的步骤是: kinit spark-shell - 主线 - 执行程序内存256m --jars /
..
$ b sqlContext.sql(“select * from尽管我已经包含了所有必需的jar,比如这个 export HADOOP_CLASSPATH = $ HADOOP_CLASSPATH:$(hbase classpath) 以及在HDP 2.5中启动Hive hbase处理程序的Spark shell(Spark 1.6.3 ) spark-shell --mas
..
我们正在使用hbase版本1.1.4。 DB有大约40个表格,每个表格数据都有一个指定的TimeToLive。它部署在5个节点的集群上,以下是hbase-site.xml phoenix.query.threadPoolSize 2048 hbase
..
我在我的项目中使用了Spark Streaming(Spark V1.6.0)以及HBase,HBase(HBase V1.1.2)配置在具有广播变量的执行器之间传输。 Spark Streaming应用程序最初运行,大约2天后出现异常。 val hBaseContext:HBaseContext = new HBaseContext(sc,HBaseCock.hBaseConfigu
..
我试图用Scala写一个SparkRDD到HBase表(以前没用过)。整个代码如下: import org.apache.hadoop.hbase.client。{HBaseAdmin,Result} import org.apache.hadoop.hbase。{HBaseConfiguration,HTableDescriptor} import org.apache.hado
..
我是这个领域的初学者,所以我无法理解它...... HBase ver:0.98。 24-hadoop2 Spark版本:2.1.0 以下代码试图将接收来自Spark Streming-Kafka制片人的数据转化为HBase。 Kafka输入数据格式如下: Line1, TAG1,123 Line1,TAG2,134 Spark流处理将接收线通过分隔符','然
..