spark-dataframe相关内容

在 AZURE hdinsights 中将 12 个嵌套级别的 json 文件读入 hive

我尝试手动为 json 文件创建架构并尝试创建 Hive 表,但我得到了列类型名称长度 10888 超过了最大允许长度 2000. 我猜我必须更改 Metastore 详细信息,但我不确定 azure Hdinsights 中的配置在哪里. 我尝试过的其他方式是我从 spark 数据框中获得了架构,并尝试从视图中创建表,但仍然遇到相同的错误. 这是我在 spark 中尝试的步骤 ..

Scala 字符串变量替换

我有用 Scala 编写的 Spark 代码.Spark 读取存储要执行的 SQL 的元表(已经在 spark 中作为临时表). 我面临的问题是我们有使用变量(在 Scala 代码中定义)的查询 我尝试了不同的方法,但我无法用值替换变量. var begindate= s"2017-01-01";var enddate = s"2017-01-05";Msg.print_info(s ..
发布时间:2021-11-14 22:59:30 其他开发

使用特殊格式压缩的 Spark 阅读

我有一个文件 .gz 我需要读取这个文件并将时间和文件名添加到这个文件我有一些问题需要你的帮助来推荐一个方法来解决这个问题. 因为文件被压缩,第一行读取的格式不正确我认为由于编码问题我尝试了下面的代码但没有工作 隐式 val codec = Codec("UTF-8")codec.onMalformedInput(CodingErrorAction.REPLACE)codec.onUnma ..
发布时间:2021-11-14 22:59:24 其他开发

Spark 2.0.0:SparkR CSV 导入

我正在尝试将 csv 文件读入 SparkR(运行 Spark 2.0.0) - &尝试尝试新添加的功能. 在此处使用 RStudio. 我在“读取"源文件时遇到错误. 我的代码: Sys.setenv(SPARK_HOME = "C:/spark-2.0.0-bin-hadoop2.6")库(SparkR,lib.loc = c(file.path(Sys.getenv(“S ..
发布时间:2021-11-14 22:59:05 其他开发

Spark 中的 Dataframe 连接可以保留顺序吗?

我目前正在尝试将两个 DataFrame 连接在一起,但在其中一个 DataFrame 中保留相同的顺序. 从 哪些操作保留 RDD 顺序?,似乎(如果这是不准确的,因为我是 Spark 的新手)连接不保留顺序,因为由于数据位于不同的分区中,行连接/“到达"最终数据帧的顺序不是指定的顺序. 如何在保留一张表的顺序的同时执行两个 DataFrame 的连接? 例如, +--- ..
发布时间:2021-11-14 22:57:17 其他开发

如何将整个 pyspark 数据框的大小写更改为较低或较高

我正在尝试对两个数据帧中的每一行应用 pyspark sql 函数哈希算法来识别差异.哈希算法区分大小写.即如果列包含 'APPLE' 和 'Apple' 被视为两个不同的值,所以我想将两个数据帧的大小写更改为上限或下限.我只能实现数据帧标题,但不能实现数据帧值.请帮助 #Code for Dataframe 列标题self.df_db1 =self.df_db1.toDF(*[c.lower( ..

获取异常:java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;) 使用数据帧时

我在 scala 应用程序中使用数据帧并使用 spark 运行时收到“java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassLoader;)"错误.但是,如果我只使用 RDD 而不是数据帧,那么相同的 pom 和设置不会出现此类错误.另外,在浏览其他有相同错误的帖子时,有人 ..
发布时间:2021-11-14 22:56:43 其他开发