apache-spark-1.5相关内容
我将 Spark 与 MongoDB 一起使用,因此依赖于 mongo-hadoop 驱动程序.由于对我的原始问题的输入这里. 我的 Spark 作业正在运行,但是,我收到了我不明白的警告.当我运行此命令时 $SPARK_HOME/bin/spark-submit --driver-class-path/usr/local/share/mongo-hadoop/build/libs/mon
..
我正在尝试弄清楚如何使用新的 DataFrameWriter 将数据写回 JDBC 数据库.我似乎找不到任何相关文档,尽管查看源代码似乎应该是可能的. 我正在尝试的一个简单示例如下所示: sqlContext.read.format("jdbc").options(Map(“网址"->"jdbc:mysql://localhost/foo", "dbtable" ->"foo.bar"))
..
我正在尝试使用我的 HiveContext 运行插入语句,如下所示: hiveContext.sql('insert into my_table (id, score) values (1, 10)') 1.5.2 Spark SQL 文档没有明确说明这是否是支持与否,虽然它确实支持“动态分区插入". 这会导致像 这样的堆栈跟踪 分析异常:查询中不支持的语言功能:插入 my_tabl
..
我想使用没有 Pivot 功能的 spark scala 转置下表 我使用的是 Spark 1.5.1,但 1.5.1 不支持 Pivot 功能.请推荐合适的方法来转置下表: 客户日销售额1 星期一 121 周二 101 周四 151 周五 22 日 102 星期三 52 周四 42 周五 3 输出表: 客户周日周一周二周三周四周五1 0 12 10 0 15 22 10 0 0 5
..
我有一个 Spark 数据框,其中一列是整数数组.该列可以为空,因为它来自左外连接.我想将所有空值转换为空数组,这样以后就不必处理空值了. 我以为我可以这样做: val myCol = df("myCol")df.withColumn("myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol)) 然而,这会导致以下异常: jav
..
假设我有一个这样的管道: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words")val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features")val idf = new
..
我设计了一个简单的作业来从 MySQL 读取数据并将其保存在 Elasticsearch 中. 代码如下: JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("MySQLtoEs").set("es.index.auto.create", "true").set("es.nodes", "127.0.
..
我有一个 Spark 数据框,其中一列是整数数组.该列可以为空,因为它来自左外连接.我想将所有空值转换为空数组,这样以后就不必处理空值了. 我以为我可以这样做: val myCol = df("myCol")df.withColumn("myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol)) 然而,这会导致以下异常: jav
..
我已经更新了CDH群集,以使用 spark 1.5.0 .当我提交Spark应用程序时,系统显示有关 spark.app.id 的警告 使用默认名称DAGScheduler作为源,因为未设置spark.app.id. 我搜索了有关 spark.app.id 的信息,但没有有关它的文档.我阅读了此链接,我认为它用于RestAPI调用. 我在 spark 1.4 中没有看到此警告.有人可
..
可能我有这样的管道: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = ne
..
我想使用不具有数据透视功能的spark scala转置下表 我正在使用Spark 1.5.1,并且1.5.1中不支持Pivot函数.请提出转置下表的合适方法: Customer Day Sales 1 Mon 12 1 Tue 10 1 Thu 15 1 Fri 2 2 Sun 1
..
我有一个Spark数据帧,其中一列是整数数组.该列可为空,因为它来自左外部联接.我想将所有null值都转换为一个空数组,这样以后就不必再处理null了. 我认为我可以这样做: val myCol = df("myCol") df.withColumn( "myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol) ) 但是,这
..
我在MongoDB中使用了Spark,因此依赖于 mongo-hadoop 驱动程序。我得到的东西感谢输入我的原始问题这里 。 我的Spark工作正在运行,但是,我收到了我不明白的警告。当我运行这个命令的时候 $ SPARK_HOME / bin / spark-submit --driver-class-path / usr / local / share /mongo-hadoo
..
我设计了一个简单的工作来从MySQL读取数据并将其保存在具有Spark的Elasticsearch中。 这是代码: JavaSparkContext sc = new JavaSparkContext( new SparkConf()。setAppName(“MySQLtoEs”) .set(“es.index.auto .create“,”true“) .set(”es.no
..
我想弄清楚如何使用新的 DataFrameWriter 来将数据写回JDBC数据库。我似乎无法找到这个任何文件,但查看源$ C $ C现在看来似乎应该是可能的。 的一个简单的例子是我想要这样的容貌: sqlContext.read.format(“JDBC”)。选项(图( “URL” - > “的jdbc:mysql的://本地主机/富”,“DBTABLE” - > “f
..
我想用我的HiveContext运行一个INSERT语句,像这样的: hiveContext.sql(“插入my_table的(ID,得分)值(1,10)') 借助 1.5.2星火SQL文档不明确指出这是否是支持或不,尽管它的确支持“动态分区插入。” 这导致堆栈跟踪像 AnalysisException: 不支持的语言功能的查询:插入my_table的(ID,得分)值(1,10) TOK_
..
我设计了一个简单的工作,从MySQL中读取数据,并将其与星火保存Elasticsearch。 下面是code: JavaSparkContext SC =新JavaSparkContext( 新SparkConf()。setAppName(“MySQLtoEs”) .SET(“es.index.auto.create”,“真”)
..