apache-spark-sql相关内容

按日期从 Spark 中的 S3 读取多个文件

说明 我有一个应用程序,它将数据发送到 AWS Kinesis Firehose 并将数据写入我的 S3 存储桶.Firehose 使用“yyyy/MM/dd/HH"格式写入文件. 就像这个示例 S3 路径: s3://mybucket/2016/07/29/12 现在我有一个用 Scala 编写的 Spark 应用程序,我需要在其中读取特定时间段的数据.我有开始和结束日期.数据采 ..
发布时间:2021-12-15 20:18:23 其他开发

选择数据时 Hive 是否保留文件顺序

如果我这样做 select * from table1; 检索数据的顺序 文件顺序或随机顺序 解决方案 如果没有 ORDER BY,则无法保证顺序. 许多进程(映射器)并行读取数据,在计算拆分后,每个进程开始读取一些文件或几个文件,具体取决于计算的拆分. 所有的并行进程可以处理不同的数据量并运行在不同的节点上,每次的负载都不一样,所以它们开始返回行并在不同的时间完成,这取 ..
发布时间:2021-12-15 19:28:27 其他开发

Spark sql 每组前 n 个

如何在 spark-sql 中获得每个组的前 n(比如前 10 名或前 3 名)? http://www.xaprb.com/blog/2006/12/07/how-to-select-the-firstleastmax-row-per-group-in-sql/ 提供了一般教程SQL.但是,spark 并没有在 where 子句中实现子查询. 解决方案 可以使用 Spark 1.4 ..
发布时间:2021-12-09 23:48:45 其他开发

如何检查火花数据框是否为空?

现在,我必须使用 df.count >0 检查 DataFrame 是否为空.但这有点低效.有没有更好的方法来做到这一点? 谢谢. PS:我想检查它是否为空,以便我只保存 DataFrame 如果它不为空 解决方案 对于 Spark 2.1.0,我的建议是使用 head(n: Int) 或 take(n:Int) 和 isEmpty,以您最清楚的意图为准. df.head(1 ..
发布时间:2021-12-09 23:12:50 其他开发

Spark/Scala:前向填充最后一次观察

使用 Spark 1.4.0、Scala 2.10 我一直在想办法用最后一次已知的观察结果来向前填充空值,但我没有看到简单的方法.我认为这是很常见的事情,但找不到说明如何执行此操作的示例. 我看到了用一个值向前填充 NaN 的函数,或者用一个偏移量填充或移动数据的滞后/超前函数,但没有找到最后一个已知值. 在网上看,我在 R 中看到很多关于同一件事的问答,但在 Spark/Sca ..
发布时间:2021-12-07 12:59:19 其他开发

Spark 从一行中提取值

我有以下数据框 val transactions_with_counts = sqlContext.sql("""SELECT user_id AS user_id, category_id AS category_id,COUNT(category_id) FROM 交易 GROUP BY user_id, category_id""") 我正在尝试将行转换为 Rating 对象,但由于 x ..
发布时间:2021-11-28 21:44:21 其他开发

对火花数据帧的同一列进行多个聚合操作

我有三个包含以下信息的字符串类型数组: groupBy 数组:包含我想要对数据进行分组的列的名称. 聚合数组:包含我要聚合的列的名称. operations 数组:包含我想要执行的聚合操作 我正在尝试使用 spark 数据框来实现这一点.Spark 数据帧提供了一个 agg(),您可以在其中传递 Map [String,String](列名和各自的聚合操作)作为输入,但是我想对数据 ..
发布时间:2021-11-28 21:44:12 其他开发

Spark 错误:用于构建 ClassDict 的预期零参数(对于 numpy.core.multiarray._reconstruct)

我在 Spark 中有一个数据框,其中一列包含一个数组.现在,我编写了一个单独的 UDF,它将数组转换为另一个仅包含不同值的数组.请参见下面的示例: 例如:[24,23,27,23] 应该转换为 [24,23,27]代码: def uniq_array(col_array):x = np.unique(col_array)返回 xuniq_array_udf = udf(uniq_arra ..