apache-spark-sql相关内容
我正在使用 spark-sql-2.4.1v如何进行各种连接取决于列的值 样本数据 val data = List((“20",“分数",“学校",14 ,12),(“21"、“分数"、“学校"、13、13),(“22"、“比率"、“学校"、11 ,14))val df = data.toDF(“id", “code", “entity", “value1", “value2")+---+
..
我在 DataFrame 中读取了一个巨大的文件,其中每一行都包含一个 JSON 对象,如下所示: {"userId": "12345",“变量":{"test_group": "group1",“品牌":“xband"},“模块":[{"id": "新"},{"id": "默认"},{“id":“最佳价值"},{"id": "评分"},{"id": "DeliveryMin"},{"id":
..
我正在使用 spark-sql-2.4.1v,并且我正在尝试在给定数据的每一列上查找分位数,即百分位数 0、百分位数 25 等. 当我在做多个百分位数时,如何从结果中检索每个计算出的百分位数? 我的数据框df: +----+---------+------------+----------+-----------+|身份证|日期|收入|con_dist_1|con_dist_2|+-
..
我对 pyspark 非常陌生,我开发了一个程序来对 HDFS 文件执行 NLTK,以下是执行步骤.我使用的是 spark 2.3.1 1.从 HDFS 获取文件 2.执行词形还原 3.删除标点符号. 4.将 RDD 转换为 DataFrame 5.执行分词器 6.删除停用词 7.分解列数据为每条记录创建唯一的行 8.我想将所有文件数据保存到一个文件
..
我有 2 个数据框 A(3500 万条记录)和 B(30000 条记录) A |正文 |-------|pqr |-------|xyz |------- B |标题 |-------||-------|乙 |-------|| |------- 下面的数据帧 C 是在 A 和 B 之间交叉连接后获得的. c = A.crossJoin(B, on = [A.text == B.T
..
我有一个数据集如下: 国家、商品、年份、类型、数量美国,蔬菜,2010,收获,2.44美国,蔬菜,2010,产量,15.8美国,蔬菜,2010,生产,6.48美国,蔬菜,2011,收获,6美国,蔬菜,2011,产量,18美国,蔬菜,2011,生产,3阿根廷,蔬菜,2010,收获,15.2阿根廷,蔬菜,2010,产量,40.5阿根廷,蔬菜,2010,生产,2.66阿根廷,蔬菜,2011,收获,
..
我想创建一个包含 110 列的数据框,因此当我尝试将 rdd 转换为数据框时,我创建了一个具有 110 个属性的类. case class Myclass(var cin_nb:String,...........,var last:String)导入 sqlContext.implicts._file2.map(_.split("\t")).map(a=>Myclass(a(0),a(1),a
..
我创建了一个分类器随机森林来预测某事.标签为“是"(=1.0) 或“否"(=0.0) 我将我的模型应用于测试.这是我的代码和 20 行的结果: import org.apache.spark.ml.tuning.CrossValidatorModel导入 org.apache.spark.sql.types._导入 org.apache.spark.sql._导入 org.apache.s
..
我有两个数据框,代表同一个人的两个不同时期.我想了解,对于每一行,两个数据框的第 5(固定)列是否有任何更改. 之前: +--+------+------+------+------+------+------+|身份证|运动|变量1|变量2|变量3|变量4|变量5|+---+------+------+------+------+------+------+|1|足球|330234|||
..
我有一张如图所示的表格: 我想使用 Spark Java 或 Spark Scala 将其转换为下表 解决方案 确保你有唯一的列名,你可以这样做: import or.apache.spark.sql.functions._桌子.select("id","movie",explode(array("cast1", "cast2", "cast3", "cast4")).as("c
..
这就是我的数据框现在的样子 +------------+|日期 |+------------+|19931001||19930404||19930603||19930805|+------------+ 我正在尝试将此字符串值重新格式化为 yyyy-mm-dd hh:mm:ss.fff 并将其保留为字符串而不是日期类型或时间戳. 我将如何使用 withColumn 方法做到这一点?
..
我正在尝试使用 spark.read.jdbc 从 PySpark 连接到 MS SQL 数据库 导入操作系统从 pyspark.sql 导入 *从 pyspark.sql.functions 导入 *从 pyspark 导入 SparkContext;从 pyspark.sql.session 导入 SparkSessionsc = SparkContext.getOrCreate()spa
..
我有一个看起来像这样的数据框 +---+----+------+-------+------+|Id|formrid|值|occ|注释+---+----+------+-------+------+|1|x1 |22.0|1|文本1||1|x1 |测试|2|文本2 ||1|x1 |11|3|文本3 ||1|x2 |21 |0 |文本4 ||2|p1 |1 |1|文本5 |+---+----+--
..
我有一个数据框,我想将其转换为下面的输出,其中每一行 start_duration 和 end_duration 将由前一行 start_duration 和 end_duration 产生,请告诉我如何使用 scala 在 spark 中实现它. 以下是计算 start_duration 和 end_duration 的公式: start_duration = max(previous
..
读取值包含分隔符的csv文件的有效方法是什么自身在 apache spark 中? 以下是我的数据集: ID,Name,Age,Add,ress,Salary1,罗斯,32,啊,med,abad,20002,Rachel,25,德里,15003,Chandler,23,Kota,20004,莫妮卡,25,孟买,65005,迈克,27,博帕尔,85006,菲比,22,MP,45007,乔伊,
..
我收到错误 SQLContext.gerorCreate is not a value of object org.apache.spark.SQLContext.这是我的代码 import org.apache.spark.SparkConf导入 org.apache.spark.streaming.StreamingContext导入 org.apache.spark.streaming.S
..
所以我正在尝试实现示例 Spark 编程示例 使用我们提供的数据集.它是一个由 | 分隔的文件.但是,即使按照给定的说明进行操作,它也会引发以下错误. 我可以看到它无法将一个实例的对象“转换"到另一个实例中,关于如何处理这种情况的任何建议. Caused by: java.lang.ClassCastException: 无法将 scala.collection.immutable.Lis
..
我正在尝试将标题合并到单个文件输出中作为 csv (ref by @Kang) import org.apache.hadoop.conf.Configuration导入 org.apache.hadoop.fs.{FileSystem, FileUtil, Path}导入 org.apache.spark.sql.{Row, SparkSession}导入 org.apache.spark.s
..
我有一个名为 DF1 的数据框,如下所示. DF1: srcColumnZ|srcCoulmnY|srcCoulmnR|+---------+----------+----------+|约翰 |非高频 |纽约 ||Steav |非高频 |孟买 ||Ram |HF |波士顿 | 还有一个映射列表,其中包含源到目标列的映射,如下所示. List(Map(targetColumn -> c
..
我有一个用于创建 Hive 外部表的 Spark 应用程序,它第一次运行良好,即在带有分区的 Hive 中创建表时.我有三个分区,分别是 event,centerCode,ExamDate var sqlContext = spark.sqlContextsqlContext.setConf("hive.exec.dynamic.partition", "true")sqlContext.se
..