apache-spark-sql 第6页 - IT屋-程序员软件开发技术分享社区

根据列值加入

我正在使用 spark-sql-2.4.1v如何进行各种连接取决于列的值样本数据 val data = List((“20"，“分数"，“学校"，14 ,12)，(“21"、“分数"、“学校"、13、13)，(“22"、“比率"、“学校"、11 ,14))val df = data.toDF(“id", “code", “entity", “value1", “value2")+---+ ..

发布时间：2021-11-14 23:33:05 apache-spark apache-spark-sql 其他开发

通过传入要匹配的值列表来过滤掉 DataFrame (JSON) 中的嵌套数组条目

我在 DataFrame 中读取了一个巨大的文件，其中每一行都包含一个 JSON 对象，如下所示: {"userId": "12345",“变量":{"test_group": "group1",“品牌":“xband"},“模块":[{"id": "新"},{"id": "默认"},{“id":“最佳价值"},{"id": "评分"},{"id": "DeliveryMin"},{"id": ..

发布时间：2021-11-14 23:33:02 scala apache-spark apache-spark-sql rdd 其他开发

如何将计算的百分位数包含/映射到结果数据框?

我正在使用 spark-sql-2.4.1v，并且我正在尝试在给定数据的每一列上查找分位数，即百分位数 0、百分位数 25 等. 当我在做多个百分位数时，如何从结果中检索每个计算出的百分位数? 我的数据框df: +----+---------+------------+----------+-----------+|身份证|日期|收入|con_dist_1|con_dist_2|+- ..

发布时间：2021-11-14 23:32:59 scala apache-spark java-8 apache-spark-sql quantile 其他开发

在 pyspark 中执行 NLTK

我对 pyspark 非常陌生，我开发了一个程序来对 HDFS 文件执行 NLTK，以下是执行步骤.我使用的是 spark 2.3.1 1.从 HDFS 获取文件 2.执行词形还原 3.删除标点符号. 4.将 RDD 转换为 DataFrame 5.执行分词器 6.删除停用词 7.分解列数据为每条记录创建唯一的行 8.我想将所有文件数据保存到一个文件 ..

发布时间：2021-11-14 23:32:56 apache-spark pyspark apache-spark-sql 其他开发

Pyspark 在具有数百万条记录的 2 个数据帧之间交叉连接

我有 2 个数据框 A(3500 万条记录)和 B(30000 条记录) A |正文 |-------|pqr |-------|xyz |------- B |标题 |-------||-------|乙 |-------|| |------- 下面的数据帧 C 是在 A 和 B 之间交叉连接后获得的. c = A.crossJoin(B, on = [A.text == B.T ..

发布时间：2021-11-14 23:32:50 python apache-spark pyspark apache-spark-sql pyspark-dataframes Python

需要指导:后端 SQL 逻辑，用于前端用户动态选择字段

我有一个数据集如下: 国家、商品、年份、类型、数量美国，蔬菜，2010，收获，2.44美国，蔬菜，2010，产量，15.8美国，蔬菜，2010，生产，6.48美国，蔬菜，2011，收获，6美国，蔬菜，2011，产量，18美国,蔬菜,2011,生产,3阿根廷，蔬菜，2010，收获，15.2阿根廷，蔬菜，2010，产量，40.5阿根廷，蔬菜，2010，生产，2.66阿根廷，蔬菜，2011，收获， ..

发布时间：2021-11-14 23:32:47 sql oracle scala apache-spark-sql amazon-athena 数据库

转换为数据帧错误

我想创建一个包含 110 列的数据框，因此当我尝试将 rdd 转换为数据框时，我创建了一个具有 110 个属性的类. case class Myclass(var cin_nb:String,...........,var last:String)导入 sqlContext.implicts._file2.map(_.split("\t")).map(a=>Myclass(a(0),a(1),a ..

发布时间：2021-11-14 23:32:44 apache-spark dataframe apache-spark-sql 其他开发

Scala:如何知道哪个概率对应哪个类?

我创建了一个分类器随机森林来预测某事.标签为“是"(=1.0) 或“否"(=0.0) 我将我的模型应用于测试.这是我的代码和 20 行的结果: import org.apache.spark.ml.tuning.CrossValidatorModel导入 org.apache.spark.sql.types._导入 org.apache.spark.sql._导入 org.apache.s ..

发布时间：2021-11-14 23:32:40 scala apache-spark-sql probability random-forest 其他开发

如何检查属于两个数据帧的行的差异

我有两个数据框，代表同一个人的两个不同时期.我想了解，对于每一行，两个数据框的第 5(固定)列是否有任何更改. 之前: +--+------+------+------+------+------+------+|身份证|运动|变量1|变量2|变量3|变量4|变量5|+---+------+------+------+------+------+------+|1|足球|330234||| ..

发布时间：2021-11-14 23:32:37 scala apache-spark dataframe apache-spark-sql 其他开发

如何使用 Java 在 Spark DataFrame 中将单行拆分为多行

我有一张如图所示的表格: 我想使用 Spark Java 或 Spark Scala 将其转换为下表解决方案确保你有唯一的列名，你可以这样做: import or.apache.spark.sql.functions._桌子.select("id","movie",explode(array("cast1", "cast2", "cast3", "cast4")).as("c ..

发布时间：2021-11-14 23:32:34 java apache-spark apache-spark-sql Java开发

更改数据帧中的列值 spark scala

这就是我的数据框现在的样子 +------------+|日期 |+------------+|19931001||19930404||19930603||19930805|+------------+ 我正在尝试将此字符串值重新格式化为 yyyy-mm-dd hh:mm:ss.fff 并将其保留为字符串而不是日期类型或时间戳. 我将如何使用 withColumn 方法做到这一点? ..

发布时间：2021-11-14 23:32:31 scala apache-spark-sql spark-dataframe 其他开发

从 PySpark 加载数据帧

我正在尝试使用 spark.read.jdbc 从 PySpark 连接到 MS SQL 数据库导入操作系统从 pyspark.sql 导入 *从 pyspark.sql.functions 导入 *从 pyspark 导入 SparkContext；从 pyspark.sql.session 导入 SparkSessionsc = SparkContext.getOrCreate()spa ..

发布时间：2021-11-14 23:32:28 apache-spark jdbc pyspark apache-spark-sql 其他开发

如何将数据帧的几列转换为元组

我有一个看起来像这样的数据框 +---+----+------+-------+------+|Id|formrid|值|occ|注释+---+----+------+-------+------+|1|x1 |22.0|1|文本1||1|x1 |测试|2|文本2 ||1|x1 |11|3|文本3 ||1|x2 |21 |0 |文本4 ||2|p1 |1 |1|文本5 |+---+----+-- ..

发布时间：2021-11-14 23:32:25 apache-spark apache-spark-sql 其他开发

如何使用新列scala在内存转换中应用窗口函数

我有一个数据框，我想将其转换为下面的输出，其中每一行 start_duration 和 end_duration 将由前一行 start_duration 和 end_duration 产生，请告诉我如何使用 scala 在 spark 中实现它. 以下是计算 start_duration 和 end_duration 的公式: start_duration = max(previous ..

发布时间：2021-11-14 23:32:22 scala apache-spark apache-spark-sql 其他开发

在 Apache spark 中读取包含分隔符的值的 CSV 文件

读取值包含分隔符的csv文件的有效方法是什么自身在 apache spark 中? 以下是我的数据集: ID,Name,Age,Add,ress,Salary1,罗斯,32,啊,med,abad,20002,Rachel,25,德里,15003,Chandler,23,Kota,20004,莫妮卡,25,孟买,65005，迈克，27，博帕尔，85006,菲比,22,MP,45007,乔伊, ..

发布时间：2021-11-14 23:32:19 scala apache-spark hadoop apache-spark-sql 其他开发

SQLContext.gerorCreate 不是值

我收到错误 SQLContext.gerorCreate is not a value of object org.apache.spark.SQLContext.这是我的代码 import org.apache.spark.SparkConf导入 org.apache.spark.streaming.StreamingContext导入 org.apache.spark.streaming.S ..

发布时间：2021-11-14 23:32:16 scala apache-spark apache-spark-sql spark-streaming 其他开发

无法读取，稍后在 Apache Spark 中查询文本文件

所以我正在尝试实现示例 Spark 编程示例使用我们提供的数据集.它是一个由 | 分隔的文件.但是，即使按照给定的说明进行操作，它也会引发以下错误. 我可以看到它无法将一个实例的对象“转换"到另一个实例中，关于如何处理这种情况的任何建议. Caused by: java.lang.ClassCastException: 无法将 scala.collection.immutable.Lis ..

发布时间：2021-11-14 23:32:10 apache-spark apache-spark-sql spark-dataframe 其他开发

createDataFrame 获取消息 java.lang.String 无法转换为 java.sql.Date

我正在尝试将标题合并到单个文件输出中作为 csv (ref by @Kang) import org.apache.hadoop.conf.Configuration导入 org.apache.hadoop.fs.{FileSystem, FileUtil, Path}导入 org.apache.spark.sql.{Row, SparkSession}导入 org.apache.spark.s ..

发布时间：2021-11-14 23:32:07 scala apache-spark apache-spark-sql 其他开发

如何根据条件从列表[Map]创建数据框

我有一个名为 DF1 的数据框，如下所示. DF1: srcColumnZ|srcCoulmnY|srcCoulmnR|+---------+----------+----------+|约翰 |非高频 |纽约 ||Steav |非高频 |孟买 ||Ram |HF |波士顿 | 还有一个映射列表，其中包含源到目标列的映射，如下所示. List(Map(targetColumn -> c ..

发布时间：2021-11-14 23:32:04 scala apache-spark apache-spark-sql scala-collections 其他开发

spark数据框中的withColumn在SaveMode.Append中插入NULL

我有一个用于创建 Hive 外部表的 Spark 应用程序，它第一次运行良好，即在带有分区的 Hive 中创建表时.我有三个分区，分别是 event,centerCode,ExamDate var sqlContext = spark.sqlContextsqlContext.setConf("hive.exec.dynamic.partition", "true")sqlContext.se ..

发布时间：2021-11-14 23:32:01 apache-spark hive pyspark apache-spark-sql 其他开发

apache-spark-sql相关内容