apache-spark-sql相关内容

根据列值加入

我正在使用 spark-sql-2.4.1v如何进行各种连接取决于列的值 样本数据 val data = List((“20",“分数",“学校",14 ,12),(“21"、“分数"、“学校"、13、13),(“22"、“比率"、“学校"、11 ,14))val df = data.toDF(“id", “code", “entity", “value1", “value2")+---+ ..
发布时间:2021-11-14 23:33:05 其他开发

如何将计算的百分位数包含/映射到结果数据框?

我正在使用 spark-sql-2.4.1v,并且我正在尝试在给定数据的每一列上查找分位数,即百分位数 0、百分位数 25 等. 当我在做多个百分位数时,如何从结果中检索每个计算出的百分位数? 我的数据框df: +----+---------+------------+----------+-----------+|身份证|日期|收入|con_dist_1|con_dist_2|+- ..
发布时间:2021-11-14 23:32:59 其他开发

在 pyspark 中执行 NLTK

我对 pyspark 非常陌生,我开发了一个程序来对 HDFS 文件执行 NLTK,以下是执行步骤.我使用的是 spark 2.3.1 1.从 HDFS 获取文件 2.执行词形还原 3.删除标点符号. 4.将 RDD 转换为 DataFrame 5.执行分词器 6.删除停用词 7.分解列数据为每条记录创建唯一的行 8.我想将所有文件数据保存到一个文件 ..
发布时间:2021-11-14 23:32:56 其他开发

需要指导:后端 SQL 逻辑,用于前端用户动态选择字段

我有一个数据集如下: 国家、商品、年份、类型、数量美国,蔬菜,2010,收获,2.44美国,蔬菜,2010,产量,15.8美国,蔬菜,2010,生产,6.48美国,蔬菜,2011,收获,6美国,蔬菜,2011,产量,18美国,蔬菜,2011,生产,3阿根廷,蔬菜,2010,收获,15.2阿根廷,蔬菜,2010,产量,40.5阿根廷,蔬菜,2010,生产,2.6​​6阿根廷,蔬菜,2011,收获, ..
发布时间:2021-11-14 23:32:47 数据库

转换为数据帧错误

我想创建一个包含 110 列的数据框,因此当我尝试将 rdd 转换为数据框时,我创建了一个具有 110 个属性的类. case class Myclass(var cin_nb:String,...........,var last:String)导入 sqlContext.implicts._file2.map(_.split("\t")).map(a=>Myclass(a(0),a(1),a ..
发布时间:2021-11-14 23:32:44 其他开发

更改数据帧中的列值 spark scala

这就是我的数据框现在的样子 +------------+|日期 |+------------+|19931001||19930404||19930603||19930805|+------------+ 我正在尝试将此字符串值重新格式化为 yyyy-mm-dd hh:mm:ss.fff 并将其保留为字符串而不是日期类型或时间戳. 我将如何使用 withColumn 方法做到这一点? ..
发布时间:2021-11-14 23:32:31 其他开发

无法读取,稍后在 Apache Spark 中查询文本文件

所以我正在尝试实现示例 Spark 编程示例 使用我们提供的数据集.它是一个由 | 分隔的文件.但是,即使按照给定的说明进行操作,它也会引发以下错误. 我可以看到它无法将一个实例的对象“转换"到另一个实例中,关于如何处理这种情况的任何建议. Caused by: java.lang.ClassCastException: 无法将 scala.collection.immutable.Lis ..
发布时间:2021-11-14 23:32:10 其他开发