spark-dataframe 第6页 - IT屋-程序员软件开发技术分享社区

基于另一个数据帧 Pyspark 1.6.1 中匹配值的子集数据帧

我有两个数据框.第一个数据框只包含一列 business_contact_nr，这是一组客户编号. |business_contact_nr |3456745678 第二个数据框包含多列，bc 包含客户端编号，其他列包含有关这些客户端的信息. |公元前 |性别 |储蓄|月 |34567 1 100 20051234567 1 200 20060145678 0 500 20051245678 ..

发布时间：2021-11-14 23:02:02 pyspark spark-dataframe 其他开发

从结构数组中选择 Spark DataFrames 中的特定列

我有一个具有以下架构的 Spark DataFrame df: root|-- k:整数(可为空 = false)|-- v: 数组(可为空 = 真)||-- 元素: struct (containsNull = true)|||-- a: 整数(可为空 = false)|||-- b: double (nullable = false)|||-- c: 字符串 (nullable = true ..

发布时间：2021-11-14 23:01:42 apache-spark spark-dataframe parquet 其他开发

Spark - 以编程方式创建具有不同数据类型的模式

我有一个由 7-8 个字段组成的数据集，这些字段的类型为 String、Int &浮动. 我正在尝试使用此方法通过编程方法创建架构: val schema = StructType(header.split(",").map(column => StructField(column, StringType, true))) 然后将其映射到 Row 类型，例如: val dataRdd ..

发布时间：2021-11-14 23:01:39 scala apache-spark apache-spark-sql spark-dataframe 其他开发

基于另一个数据帧 Pyspark 1.6.1 中匹配值的子集数据帧

我有两个数据框.第一个数据框只包含一列 business_contact_nr，这是一组客户编号. |business_contact_nr |3456745678 第二个数据框包含多列，bc 包含客户端编号，其他列包含有关这些客户端的信息. |公元前 |性别 |储蓄|月 |34567 1 100 20051234567 1 200 20060145678 0 500 20051245678 ..

发布时间：2021-11-14 23:00:55 pyspark spark-dataframe 其他开发

scala - 触发数据帧的结果集

我正在查询mysql表 val url = "jdbc:mysql://XXX-XX-XXX-XX-XX.compute-1.amazonaws.com:3306/pg_partner"val driver = "com.mysql.jdbc.Driver"val 用户名 = "XXX"val 密码 = "XXX"var connection:Connection = DriverManager ..

发布时间：2021-11-14 23:00:49 scala apache-spark spark-dataframe resultset 其他开发

从结构数组中选择 Spark DataFrames 中的特定列

我有一个具有以下架构的 Spark DataFrame df: root|-- k:整数(可为空 = false)|-- v: 数组(可为空 = 真)||-- 元素: struct (containsNull = true)|||-- a: 整数(可为空 = false)|||-- b: double (nullable = false)|||-- c: 字符串 (nullable = true ..

发布时间：2021-11-14 23:00:40 apache-spark spark-dataframe parquet 其他开发

检查 DataFrame(Scala) 是否为空的最快方法?

如何以最快的方式检查 DataFrame(Scala) 是否为空?我使用 DF.limit(1).rdd.isEmpty，比 DF.rdd 快.isEmpty，但不理想.有没有更好的方法来做到这一点? 解决方案我通常将 first 的调用包装在 Try 周围: import scala.util.Tryval t = 尝试(df.first) 如果控制逻辑是 Success 或 Fa ..

发布时间：2021-11-14 23:00:34 scala apache-spark apache-spark-sql spark-dataframe 其他开发

在 AZURE hdinsights 中将 12 个嵌套级别的 json 文件读入 hive

我尝试手动为 json 文件创建架构并尝试创建 Hive 表，但我得到了列类型名称长度 10888 超过了最大允许长度 2000. 我猜我必须更改 Metastore 详细信息，但我不确定 azure Hdinsights 中的配置在哪里. 我尝试过的其他方式是我从 spark 数据框中获得了架构，并尝试从视图中创建表，但仍然遇到相同的错误. 这是我在 spark 中尝试的步骤 ..

发布时间：2021-11-14 23:00:03 json hive apache-spark-sql spark-dataframe azure-hdinsight 其他开发

如何在 Spark 2.3.0 中进行自联接?什么是正确的语法?

我有以下代码 import org.apache.spark.sql.streaming.Triggerval jdf = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "join_test").option("startingOff ..

发布时间：2021-11-14 22:59:48 scala apache-spark apache-spark-sql spark-dataframe 其他开发

Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法，我需要存储模型以备将来加载.我有一个带有此架构的数据框: val schema = new StructType().add(StructField("uniqueId", LongType)).add(StructField("timestamp", LongType)).add(StructField("pt", ArrayType(DoubleType))).add ..

发布时间：2021-11-14 22:59:45 scala apache-spark spark-dataframe parquet 其他开发

Scala 字符串变量替换

我有用 Scala 编写的 Spark 代码.Spark 读取存储要执行的 SQL 的元表(已经在 spark 中作为临时表). 我面临的问题是我们有使用变量(在 Scala 代码中定义)的查询我尝试了不同的方法，但我无法用值替换变量. var begindate= s"2017-01-01";var enddate = s"2017-01-05";Msg.print_info(s ..

发布时间：2021-11-14 22:59:30 scala apache-spark apache-spark-sql spark-dataframe 其他开发

如何将字符串变量分配给数据框名称

我遇到了一个问题，这是一个 for 循环程序.如下所示: list = [1,2,3,4]对于列表中的索引:new_df_name = "user_" + 索引new_df_name = origin_df1.join(origin_df2,'id','left') 但“new_df_name"只是一个变量和字符串类型. 如何实现这些? 解决方案我想，你真正需要的是有一个数据框 ..

发布时间：2021-11-14 22:59:27 python apache-spark dataframe pyspark spark-dataframe Python

使用特殊格式压缩的 Spark 阅读

我有一个文件 .gz 我需要读取这个文件并将时间和文件名添加到这个文件我有一些问题需要你的帮助来推荐一个方法来解决这个问题. 因为文件被压缩，第一行读取的格式不正确我认为由于编码问题我尝试了下面的代码但没有工作隐式 val codec = Codec("UTF-8")codec.onMalformedInput(CodingErrorAction.REPLACE)codec.onUnma ..

发布时间：2021-11-14 22:59:24 scala apache-spark spark-dataframe bigdata 其他开发

Spark 2.0.0:SparkR CSV 导入

我正在尝试将 csv 文件读入 SparkR(运行 Spark 2.0.0) - &尝试尝试新添加的功能. 在此处使用 RStudio. 我在“读取"源文件时遇到错误. 我的代码: Sys.setenv(SPARK_HOME = "C:/spark-2.0.0-bin-hadoop2.6")库(SparkR，lib.loc = c(file.path(Sys.getenv(“S ..

发布时间：2021-11-14 22:59:05 csv apache-spark spark-dataframe sparkr 其他开发

与 RDD 和 DataFrame 不同的浮点精度

我将 RDD 更改为 DataFrame 并将结果与我使用 read.csv 导入的另一个 DataFrame 进行比较，但两种方法的浮点精度不同.感谢您的帮助. 我使用的数据来自这里. from pyspark.sql import Row从 pyspark.sql.types 导入 * RDD方式 orders = sc.textFile("retail_db/orders") ..

发布时间：2021-11-14 22:58:19 apache-spark pyspark spark-dataframe rdd 其他开发

Spark 中的 Dataframe 连接可以保留顺序吗?

我目前正在尝试将两个 DataFrame 连接在一起，但在其中一个 DataFrame 中保留相同的顺序. 从哪些操作保留 RDD 顺序?，似乎(如果这是不准确的，因为我是 Spark 的新手)连接不保留顺序，因为由于数据位于不同的分区中，行连接/“到达"最终数据帧的顺序不是指定的顺序. 如何在保留一张表的顺序的同时执行两个 DataFrame 的连接? 例如， +--- ..

发布时间：2021-11-14 22:57:17 apache-spark dataframe spark-dataframe 其他开发

如何将整个 pyspark 数据框的大小写更改为较低或较高

我正在尝试对两个数据帧中的每一行应用 pyspark sql 函数哈希算法来识别差异.哈希算法区分大小写.即如果列包含 'APPLE' 和 'Apple' 被视为两个不同的值，所以我想将两个数据帧的大小写更改为上限或下限.我只能实现数据帧标题，但不能实现数据帧值.请帮助 #Code for Dataframe 列标题self.df_db1 =self.df_db1.toDF(*[c.lower( ..

发布时间：2021-11-14 22:56:53 python-3.x apache-spark pyspark spark-dataframe case-sensitive 其他开发

Spark:read.jdbc(..numPartitions..) 和 repartition(..numPartitions..) 中 numPartitions 的区别

我对以下方法中 numPartitions 参数的行为感到困惑: DataFrameReader.jdbc Dataset.repartition 官方文档 DataFrameReader.jdbc 关于numPartitions 参数说如下 numPartitions:分区数.这与lowerBound(包含)、upperBound(不包含)一起形成用于生成的WHERE子句表达 ..

发布时间：2021-11-14 22:56:49 apache-spark dataframe spark-dataframe spark-jdbc 其他开发

获取异常:java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;) 使用数据帧时

我在 scala 应用程序中使用数据帧并使用 spark 运行时收到“java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)"错误.但是，如果我只使用 RDD 而不是数据帧，那么相同的 pom 和设置不会出现此类错误.另外，在浏览其他有相同错误的帖子时，有人 ..

发布时间：2021-11-14 22:56:43 scala apache-spark spark-dataframe bigdata 其他开发

Pyspark Dataframe:获取满足条件的上一行

对于 PySpark DataFrame 中的每一行，我试图从满足特定条件的前第一行获取一个值: 如果我的数据框看起来像这样: X |旗帜1 |12 |03 |04 |05 |16 |07 |08 |09 |110 |0 我想要这样的输出: X |滞后_X |旗帜1 |空 |12 |1 |03 |1 |04 |1 |05 |1 |16 |5 |07 |5 |08 |5 |09 |5 | ..

发布时间：2021-11-14 22:56:40 python pyspark spark-dataframe pyspark-sql Python

spark-dataframe相关内容