apache-spark-sql相关内容

Spark 从一行中提取值

我有以下数据框 val transactions_with_counts = sqlContext.sql("""SELECT user_id AS user_id, category_id AS category_id,COUNT(category_id) FROM 交易 GROUP BY user_id, category_id""") 我正在尝试将行转换为 Rating 对象,但由于 x ..
发布时间:2021-11-28 21:44:21 其他开发

对火花数据帧的同一列进行多个聚合操作

我有三个包含以下信息的字符串类型数组: groupBy 数组:包含我想要对数据进行分组的列的名称. 聚合数组:包含我要聚合的列的名称. operations 数组:包含我想要执行的聚合操作 我正在尝试使用 spark 数据框来实现这一点.Spark 数据帧提供了一个 agg(),您可以在其中传递 Map [String,String](列名和各自的聚合操作)作为输入,但是我想对数据 ..
发布时间:2021-11-28 21:44:12 其他开发

如何展平 Spark 数据帧中的结构?

我有一个具有以下结构的数据框: |-- data: struct (nullable = true)||-- id: long (nullable = true)||-- keyNote: struct (nullable = true)|||-- 键:字符串(可为空 = 真)|||-- 注意:字符串(可为空 = 真)||-- 详细信息:地图(可为空 = 真)|||-- 键:字符串|||-- ..
发布时间:2021-11-25 17:27:01 Java Web开发

选择数组中的一系列元素spark sql

我使用 spark-shell 进行以下操作. 最近在 spark-sql 中加载了一个包含数组列的表. 这是相同的 DDL: 创建表 test_emp_arr{dept_id 字符串,dept_nm 字符串,emp_details 数组} 数据看起来像这样 +-------+-------+----------------------------------+|dept_i ..
发布时间:2021-11-18 05:05:15 其他开发

从 Spark SQL 中的字符串列表创建文字和列数组

我试图在 Scala 中定义函数,将字符串列表作为输入,并将它们转换为传递给下面代码中使用的数据帧数组参数的列. val df = sc.parallelize(Array((1,1),(2,2),(3,3))).toDF("foo","bar")val df2 = df.withColumn("columnArray",array(df("foo").cast("String"),df("ba ..
发布时间:2021-11-18 04:57:47 其他开发

在 Spark 中访问数组列

Spark DataFrame 包含一个 Array[Double] 类型的列.当我尝试在 map() 函数中取回它时,它会抛出 ClassCastException 异常.以下 Scala 代码生成异常. case class Dummy( x:Array[Double] )val df = sqlContext.createDataFrame(Seq(Dummy(Array(1,2,3))) ..
发布时间:2021-11-18 02:45:33 其他开发

Spark DataFrame 过滤:保留属于列表的元素

我在 Zeppelin 笔记本上使用 Spark 1.5.1 和 Scala. 我有一个 DataFrame,其中有一列名为 userID 的 Long 类型. 我总共有大约 400 万行和 200,000 个唯一用户 ID. 我还有一个要排除的 50,000 个用户 ID 的列表. 我可以轻松构建要保留的用户 ID 列表. 删除属于要排除的用户的所有行的最佳方法是什么? ..
发布时间:2021-11-14 23:52:08 其他开发

Spark 1.6:过滤由 describe() 生成的 DataFrames

当我在 DataFrame 上调用 describe 函数时出现问题: val statsDF = myDataFrame.describe() 调用描述函数产生以下输出: statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string] 我可以通过调用statsDF.show() 正常显示statsDF ..
发布时间:2021-11-14 23:51:59 其他开发

Scala 和 Spark UDF 函数

我制作了一个简单的 UDF 来转换或从 spark 中临时表中的时间字段中提取一些值.我注册了该函数,但是当我使用 sql 调用该函数时,它会抛出 NullPointerException.下面是我的函数和执行过程.我正在使用齐柏林飞艇.奇怪的是,这是昨天工作,但今天早上停止工作. 功能 def convert( time:String ) : String = {val sdf = ne ..
发布时间:2021-11-14 23:51:56 其他开发

Apache Zeppelin &Spark Streaming:Twitter 示例仅适用于本地

我刚刚从 http://zeppelin-project.org/docs/tutorial/tutorial.html(“流数据教程"部分).我现在遇到的问题是该应用程序似乎只能在本地工作.如果我将 Spark 解释器设置“master"从“local[*]"更改为“spark://master:7077",当我执行相同的 SQL 语句时,应用程序将不再产生任何结果.我做错了什么吗?我已经重新启 ..
发布时间:2021-11-14 23:51:44 其他开发

apache zeppelin 已启动,但在 localhost:8080 中出现连接错误

在 Ubuntu 14 上成功构建 apache zepellin 后,我启动了 zeppelin 并显示已成功启动,但是当我转到 localhost:8080 时,Firefox 显示无法连接错误,就像它没有启动一样,但是当我从终端检查 Zeppelin 状态时,它说运行,而且我只是复制了配置文件模板,所以配置文件是默认的 更新 将端口更改为 8090 ,这是配置文件,但结果没有变化 ..
发布时间:2021-11-14 23:51:41 其他开发

SQL 中的 Zeppelin 动态表单下拉值

我的 Zeppelin 笔记本中有一个下拉元素 val instrument = z.select("Select Item", Seq(("A", "1"),("B", "2"),("C", "3"))) 我想在我的 sql 中使用这个变量 instrument 的值.例如,我在笔记本中的下一段包含 %sql select * from table_name where ite ..
发布时间:2021-11-14 23:51:23 其他开发

在 Spark 中读取 Avro 文件

我已将 avro 文件读入 spark RDD,需要将其转换为 sql 数据帧.我该怎么做. 这是我目前所做的. import org.apache.avro.generic.GenericRecord导入 org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}导入 org.apache.hadoop.io.NullWritableval ..
发布时间:2021-11-14 23:51:20 其他开发

Apache zeppelin 教程,错误“找不到 sql 解释器"

在“Zeppelin 教程"笔记本中,我无法使用 %sql 解释器.它将输出“sql interpreter not found".但是 spark 命令工作正常,以及 %md 和 %sh. 这是日志: ERROR [2015-10-20 10:13:35,045] ({qtp885851948-51} NotebookServer.java[runParagraph]:615) - ..
发布时间:2021-11-14 23:50:13 其他开发

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

我是 spark/zeppelin 的新手,我想完成一个简单的练习,我将把 csv 文件从 Pandas 转换为 Spark 数据框,然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化. 但我似乎在最后一步失败了. 我使用的是 Spark 1.6.1 这是我的代码: %pysparkspark_clean_df.registerTempTable("tabl ..
发布时间:2021-11-14 23:49:52 其他开发

从 Apache SQL Spark 中删除临时表

我在 Apache Spark 中有 registertemptable,使用下面的 Zeppelin: val hvacText = sc.textFile("...")case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String)val hvac ..
发布时间:2021-11-14 23:49:31 其他开发