spark-dataframe相关内容
我有两个数据框.第一个数据框只包含一列 business_contact_nr,这是一组客户编号. |business_contact_nr |3456745678 第二个数据框包含多列,bc 包含客户端编号,其他列包含有关这些客户端的信息. |公元前 |性别 |储蓄|月 |34567 1 100 20051234567 1 200 20060145678 0 500 20051245678
..
我有一个具有以下架构的 Spark DataFrame df: root|-- k:整数(可为空 = false)|-- v: 数组(可为空 = 真)||-- 元素: struct (containsNull = true)|||-- a: 整数(可为空 = false)|||-- b: double (nullable = false)|||-- c: 字符串 (nullable = true
..
我有一个由 7-8 个字段组成的数据集,这些字段的类型为 String、Int &浮动. 我正在尝试使用此方法通过编程方法创建架构: val schema = StructType(header.split(",").map(column => StructField(column, StringType, true))) 然后将其映射到 Row 类型,例如: val dataRdd
..
我有两个数据框.第一个数据框只包含一列 business_contact_nr,这是一组客户编号. |business_contact_nr |3456745678 第二个数据框包含多列,bc 包含客户端编号,其他列包含有关这些客户端的信息. |公元前 |性别 |储蓄|月 |34567 1 100 20051234567 1 200 20060145678 0 500 20051245678
..
我正在查询mysql表 val url = "jdbc:mysql://XXX-XX-XXX-XX-XX.compute-1.amazonaws.com:3306/pg_partner"val driver = "com.mysql.jdbc.Driver"val 用户名 = "XXX"val 密码 = "XXX"var connection:Connection = DriverManager
..
我有一个具有以下架构的 Spark DataFrame df: root|-- k:整数(可为空 = false)|-- v: 数组(可为空 = 真)||-- 元素: struct (containsNull = true)|||-- a: 整数(可为空 = false)|||-- b: double (nullable = false)|||-- c: 字符串 (nullable = true
..
如何以最快的方式检查 DataFrame(Scala) 是否为空?我使用 DF.limit(1).rdd.isEmpty,比 DF.rdd 快.isEmpty,但不理想.有没有更好的方法来做到这一点? 解决方案 我通常将 first 的调用包装在 Try 周围: import scala.util.Tryval t = 尝试(df.first) 如果控制逻辑是 Success 或 Fa
..
我尝试手动为 json 文件创建架构并尝试创建 Hive 表,但我得到了列类型名称长度 10888 超过了最大允许长度 2000. 我猜我必须更改 Metastore 详细信息,但我不确定 azure Hdinsights 中的配置在哪里. 我尝试过的其他方式是我从 spark 数据框中获得了架构,并尝试从视图中创建表,但仍然遇到相同的错误. 这是我在 spark 中尝试的步骤
..
我有以下代码 import org.apache.spark.sql.streaming.Triggerval jdf = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "join_test").option("startingOff
..
我正在构建一个聚类算法,我需要存储模型以备将来加载.我有一个带有此架构的数据框: val schema = new StructType().add(StructField("uniqueId", LongType)).add(StructField("timestamp", LongType)).add(StructField("pt", ArrayType(DoubleType))).add
..
我有用 Scala 编写的 Spark 代码.Spark 读取存储要执行的 SQL 的元表(已经在 spark 中作为临时表). 我面临的问题是我们有使用变量(在 Scala 代码中定义)的查询 我尝试了不同的方法,但我无法用值替换变量. var begindate= s"2017-01-01";var enddate = s"2017-01-05";Msg.print_info(s
..
我遇到了一个问题,这是一个 for 循环程序.如下所示: list = [1,2,3,4]对于列表中的索引:new_df_name = "user_" + 索引new_df_name = origin_df1.join(origin_df2,'id','left') 但“new_df_name"只是一个变量和字符串类型. 如何实现这些? 解决方案 我想,你真正需要的是有一个数据框
..
我有一个文件 .gz 我需要读取这个文件并将时间和文件名添加到这个文件我有一些问题需要你的帮助来推荐一个方法来解决这个问题. 因为文件被压缩,第一行读取的格式不正确我认为由于编码问题我尝试了下面的代码但没有工作 隐式 val codec = Codec("UTF-8")codec.onMalformedInput(CodingErrorAction.REPLACE)codec.onUnma
..
我正在尝试将 csv 文件读入 SparkR(运行 Spark 2.0.0) - &尝试尝试新添加的功能. 在此处使用 RStudio. 我在“读取"源文件时遇到错误. 我的代码: Sys.setenv(SPARK_HOME = "C:/spark-2.0.0-bin-hadoop2.6")库(SparkR,lib.loc = c(file.path(Sys.getenv(“S
..
我将 RDD 更改为 DataFrame 并将结果与我使用 read.csv 导入的另一个 DataFrame 进行比较,但两种方法的浮点精度不同.感谢您的帮助. 我使用的数据来自这里. from pyspark.sql import Row从 pyspark.sql.types 导入 * RDD方式 orders = sc.textFile("retail_db/orders")
..
我目前正在尝试将两个 DataFrame 连接在一起,但在其中一个 DataFrame 中保留相同的顺序. 从 哪些操作保留 RDD 顺序?,似乎(如果这是不准确的,因为我是 Spark 的新手)连接不保留顺序,因为由于数据位于不同的分区中,行连接/“到达"最终数据帧的顺序不是指定的顺序. 如何在保留一张表的顺序的同时执行两个 DataFrame 的连接? 例如, +---
..
我正在尝试对两个数据帧中的每一行应用 pyspark sql 函数哈希算法来识别差异.哈希算法区分大小写.即如果列包含 'APPLE' 和 'Apple' 被视为两个不同的值,所以我想将两个数据帧的大小写更改为上限或下限.我只能实现数据帧标题,但不能实现数据帧值.请帮助 #Code for Dataframe 列标题self.df_db1 =self.df_db1.toDF(*[c.lower(
..
我对以下方法中 numPartitions 参数的行为感到困惑: DataFrameReader.jdbc Dataset.repartition 官方文档 DataFrameReader.jdbc 关于numPartitions 参数 说如下 numPartitions:分区数.这与lowerBound(包含)、upperBound(不包含)一起形成用于生成的WHERE子句表达
..
我在 scala 应用程序中使用数据帧并使用 spark 运行时收到“java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)"错误.但是,如果我只使用 RDD 而不是数据帧,那么相同的 pom 和设置不会出现此类错误.另外,在浏览其他有相同错误的帖子时,有人
..
对于 PySpark DataFrame 中的每一行,我试图从满足特定条件的前第一行获取一个值: 如果我的数据框看起来像这样: X |旗帜1 |12 |03 |04 |05 |16 |07 |08 |09 |110 |0 我想要这样的输出: X |滞后_X |旗帜1 |空 |12 |1 |03 |1 |04 |1 |05 |1 |16 |5 |07 |5 |08 |5 |09 |5 |
..