apache-spark-1.5 - IT屋-程序员软件开发技术分享社区

通过 spark-submit 将额外的 jars 传递给 Spark

我将 Spark 与 MongoDB 一起使用，因此依赖于 mongo-hadoop 驱动程序.由于对我的原始问题的输入这里. 我的 Spark 作业正在运行，但是，我收到了我不明白的警告.当我运行此命令时 $SPARK_HOME/bin/spark-submit --driver-class-path/usr/local/share/mongo-hadoop/build/libs/mon ..

发布时间：2021-12-15 18:36:23 mongodb hadoop jar apache-spark apache-spark-1.5 其他开发

将转换后的 DataFrame 保存/导出回 JDBC/MySQL

我正在尝试弄清楚如何使用新的 DataFrameWriter 将数据写回 JDBC 数据库.我似乎找不到任何相关文档，尽管查看源代码似乎应该是可能的. 我正在尝试的一个简单示例如下所示: sqlContext.read.format("jdbc").options(Map(“网址"->"jdbc:mysql://localhost/foo", "dbtable" ->"foo.bar")) ..

发布时间：2021-11-14 22:22:19 apache-spark apache-spark-sql apache-spark-1.5 其他开发

“插入……"使用 SparkSQL HiveContext

我正在尝试使用我的 HiveContext 运行插入语句，如下所示: hiveContext.sql('insert into my_table (id, score) values (1, 10)') 1.5.2 Spark SQL 文档没有明确说明这是否是支持与否，虽然它确实支持“动态分区插入". 这会导致像这样的堆栈跟踪分析异常:查询中不支持的语言功能:插入 my_tabl ..

发布时间：2021-11-14 22:18:58 apache-spark apache-spark-sql pyspark apache-spark-1.5 hivecontext 其他开发

如何在 Spark 1.5 中转置数据帧(没有可用的枢轴运算符)?

我想使用没有 Pivot 功能的 spark scala 转置下表我使用的是 Spark 1.5.1，但 1.5.1 不支持 Pivot 功能.请推荐合适的方法来转置下表: 客户日销售额1 星期一 121 周二 101 周四 151 周五 22 日 102 星期三 52 周四 42 周五 3 输出表: 客户周日周一周二周三周四周五1 0 12 10 0 15 22 10 0 0 5 ..

发布时间：2021-11-14 21:36:40 scala apache-spark apache-spark-sql apache-spark-1.5 其他开发

在 Spark DataFrame 中将空值转换为空数组

我有一个 Spark 数据框，其中一列是整数数组.该列可以为空，因为它来自左外连接.我想将所有空值转换为空数组，这样以后就不必处理空值了. 我以为我可以这样做: val myCol = df("myCol")df.withColumn("myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol)) 然而，这会导致以下异常: jav ..

发布时间：2021-11-14 21:21:38 apache-spark dataframe apache-spark-sql apache-spark-1.5 其他开发

如何使用 CrossValidator 获得精度/召回率以使用 Spark 训练 NaiveBayes 模型

假设我有一个这样的管道: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words")val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features")val idf = new ..

发布时间：2021-11-14 21:05:49 apache-spark apache-spark-mllib apache-spark-ml apache-spark-1.5 其他开发

将 Spark Dataframe 保存到 Elasticsearch - 无法处理类型异常

我设计了一个简单的作业来从 MySQL 读取数据并将其保存在 Elasticsearch 中. 代码如下: JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("MySQLtoEs").set("es.index.auto.create", "true").set("es.nodes", "127.0. ..

发布时间：2021-11-12 05:41:47 elasticsearch apache-spark elasticsearch-hadoop apache-spark-1.5 其他开发

在 Spark DataFrame 中将空值转换为空数组

我有一个 Spark 数据框，其中一列是整数数组.该列可以为空，因为它来自左外连接.我想将所有空值转换为空数组，这样以后就不必处理空值了. 我以为我可以这样做: val myCol = df("myCol")df.withColumn("myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol)) 然而，这会导致以下异常: jav ..

发布时间：2021-11-12 05:37:37 apache-spark dataframe apache-spark-sql apache-spark-1.5 其他开发

Spark 1.5.0 spark.app.id警告

我已经更新了CDH群集，以使用 spark 1.5.0 .当我提交Spark应用程序时，系统显示有关 spark.app.id 的警告使用默认名称DAGScheduler作为源，因为未设置spark.app.id. 我搜索了有关 spark.app.id 的信息，但没有有关它的文档.我阅读了此链接，我认为它用于RestAPI调用. 我在 spark 1.4 中没有看到此警告.有人可 ..

发布时间：2021-04-08 20:09:11 apache-spark apache-spark-1.5 其他开发

如何使用CrossValidator获得Precision/Recall以使用Spark训练NaiveBayes模型

可能我有这样的管道: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = ne ..

发布时间：2020-09-04 07:29:05 apache-spark apache-spark-mllib apache-spark-ml apache-spark-1.5 其他开发

如何在Spark 1.5中转置数据帧(没有可用的数据透视运算符)?

我想使用不具有数据透视功能的spark scala转置下表我正在使用Spark 1.5.1，并且1.5.1中不支持Pivot函数.请提出转置下表的合适方法: Customer Day Sales 1 Mon 12 1 Tue 10 1 Thu 15 1 Fri 2 2 Sun 1 ..

发布时间：2020-09-04 02:11:42 scala apache-spark apache-spark-sql apache-spark-1.5 其他开发

将空值转换为Spark DataFrame中的空数组

我有一个Spark数据帧，其中一列是整数数组.该列可为空，因为它来自左外部联接.我想将所有null值都转换为一个空数组，这样以后就不必再处理null了. 我认为我可以这样做: val myCol = df("myCol") df.withColumn( "myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol) ) 但是，这 ..

发布时间：2020-09-04 00:14:42 apache-spark dataframe apache-spark-sql apache-spark-1.5 其他开发

通过spark-submit将其他罐子传递给Spark

我在MongoDB中使用了Spark，因此依赖于 mongo-hadoop 驱动程序。我得到的东西感谢输入我的原始问题这里。我的Spark工作正在运行，但是，我收到了我不明白的警告。当我运行这个命令的时候 $ SPARK_HOME / bin / spark-submit --driver-class-path / usr / local / share /mongo-hadoo ..

发布时间：2018-05-31 18:32:09 mongodb hadoop jar apache-spark apache-spark-1.5 分布式计算/Hadoop

将Spark Dataframe保存到Elasticsearch中 - 无法处理类型异常

我设计了一个简单的工作来从MySQL读取数据并将其保存在具有Spark的Elasticsearch中。这是代码： JavaSparkContext sc = new JavaSparkContext（ new SparkConf（）。setAppName（“MySQLtoEs”） .set（“es.index.auto .create“，”true“） .set（”es.no ..

发布时间：2017-08-06 22:29:40 elasticsearch apache-spark elasticsearch-hadoop apache-spark-1.5 分布式计算/Hadoop

保存/导出数据框转换回JDBC / MySQL的

我想弄清楚如何使用新的 DataFrameWriter 来将数据写回JDBC数据库。我似乎无法找到这个任何文件，但查看源$ C $ C现在看来似乎应该是可能的。的一个简单的例子是我想要这样的容貌： sqlContext.read.format（“JDBC”）。选项（图（ “URL” - ＆GT; “的jdbc：mysql的：//本地主机/富”，“DBTABLE” - ＆GT; “f ..

发布时间：2016-05-22 15:54:47 apache-spark apache-spark-sql apache-spark-1.5 其他开发

＆QUOT; INSERT INTO ...＆QUOT;与SparkSQL HiveContext

我想用我的HiveContext运行一个INSERT语句，像这样的： hiveContext.sql（“插入my_table的（ID，得分）值（1,10）'）借助 1.5.2星火SQL文档不明确指出这是否是支持或不，尽管它的确支持“动态分区插入。” 这导致堆栈跟踪像 AnalysisException：不支持的语言功能的查询：插入my_table的（ID，得分）值（1，10） TOK_ ..

发布时间：2016-05-22 15:44:33 apache-spark apache-spark-sql pyspark apache-spark-1.5 hivecontext 其他开发

星火保存到数据框Elasticsearch - 无法处理的异常类型

我设计了一个简单的工作，从MySQL中读取数据，并将其与星火保存Elasticsearch。下面是code： JavaSparkContext SC =新JavaSparkContext（新SparkConf（）。setAppName（“MySQLtoEs”） .SET（“es.index.auto.create”，“真”） ..

发布时间：2016-05-22 15:15:18 elasticsearch apache-spark elasticsearch-hadoop apache-spark-1.5 其他开发

apache-spark-1.5相关内容