spark-dataframe相关内容

自制 DataFrame 聚合/dropDuplicates Spark

我想对我的 DataFrame df 执行转换,以便我在最终 DataFrame 中只有每个键一次并且只有一次. 出于机器学习的目的,我不想在我的数据集中有偏差.这应该永远不会发生,但是我从数据源获得的数据包含这种“怪异".因此,如果我有具有相同键的行,我希望能够选择两者的组合(如平均值)或字符串连接(例如标签)或随机值集. 说我的 DataFrame df 看起来像这样: +--- ..
发布时间:2021-11-14 23:30:07 其他开发

获得 azure blob 存储的最佳方法是什么

我正在使用 scala 和 spark,需要访问 azure blob 存储并获取其文件列表.知道 Spark 版本是 2.11 的最佳方法是什么. 解决方案 对于在本地运行的 Spark,有一个官方的 博客 介绍了如何从 Spark 访问 Azure Blob 存储.关键是你需要在core-site.xml文件中将Azure Storage account配置为HDFS兼容的存储,并添加 ..

Spark 2 迭代分区以创建新分区

我一直在挠头,试图想出一种方法将 spark 中的数据帧减少到记录数据帧中的间隙的帧,最好不要完全杀死并行性.这是一个非常简化的示例(有点冗长,因为我希望它能够运行): import org.apache.spark.sql.SparkSessioncase class Record(typ: String, start: Int, end: Int);对象样本{def main(argv: A ..
发布时间:2021-11-14 23:29:56 其他开发

PySpark 2.1.1 groupby + approx_count_distinct 计数为 0

我正在使用 Spark 2.1.1 (pyspark),在一个大约有 14 亿行的 DataFrame 上进行 groupby 和 approx_count_distinct 聚合.groupby 操作导致大约 600 万个组对其执行 approx_count_distinct 操作.这些组的预期不同计数范围从个位数到数百万不等. 这是我正在使用的代码片段,其中包含项目 ID 的列“item ..
发布时间:2021-11-14 23:29:38 其他开发

持久化比非持久化调用慢

我的设置是:Spark 2.1 在 160 GB、48 个 vcore 的 3 节点 YARN 集群上.动态分配开启.spark.executor.memory=6G, spark.executor.cores=6 首先,我正在阅读 hive 表:订单 (329MB) 和 lineitems (1.43GB) 和做左外连接.接下来,我根据加入的条件应用 7 种不同的过滤条件数据集(类似于 v ..
发布时间:2021-11-14 23:29:32 其他开发

Spark 错误:线程“main"中的异常java.lang.UnsupportedOperationException

我正在编写一个 Scala/spark 程序,它可以找到员工的最高工资.员工数据在 CSV 文件中可用,薪水列有一个逗号分隔符,它还有一个 $ 前缀,例如74,628.00 美元. 为了处理这个逗号和美元符号,我在 Scala 中编写了一个解析器函数,它将在“,"上拆分每一行,然后将每一列映射到要分配给案例类的各个变量. 我的解析器程序如下所示.为了消除逗号和美元符号,我使用替换函数将 ..
发布时间:2021-11-14 23:29:18 其他开发

获得 azure blob 存储的最佳方法是什么

我正在使用 scala 和 spark,需要访问 azure blob 存储并获取其文件列表.知道 Spark 版本是 2.11 的最佳方法是什么. 解决方案 对于在本地运行的 Spark,有一个官方的 博客 介绍了如何从 Spark 访问 Azure Blob 存储.关键是你需要在core-site.xml文件中将Azure Storage account配置为HDFS兼容的存储,并添加 ..

Spark 2 迭代分区以创建新分区

我一直在挠头,试图想出一种方法将 spark 中的数据帧减少到记录数据帧中的间隙的帧,最好不要完全杀死并行性.这是一个非常简化的示例(有点冗长,因为我希望它能够运行): import org.apache.spark.sql.SparkSessioncase class Record(typ: String, start: Int, end: Int);对象样本{def main(argv: A ..
发布时间:2021-11-14 23:28:54 其他开发