apache-spark-sql 第11页 - IT屋-程序员软件开发技术分享社区

有没有办法从 SparkSQL 中的 JSON 文件中按顺序获取列名?

我有一个 JSON 文件，在加载到 Spark SQL 时，键将是我的列.现在当我想检索列名时，它是按字母顺序检索的.但我希望细节应该按照文件中的顺序我的输入数据是 {"id":1,"name":"Judith","email":"jknight0@google.co.uk","city":"Évry","country":"France","ip":"199.63.123.157"} ..

发布时间：2021-11-14 23:25:24 json scala apache-spark-sql 其他开发

如何计算火花数据帧中一个列的差异?

+-------------------+|开发时间|+--------------------+|2015-09-18 05:00:20||2015-09-18 05:00:21||2015-09-18 05:00:22||2015-09-18 05:00:23||2015-09-18 05:00:24||2015-09-18 05:00:25||2015-09-18 05:00:26||201 ..

发布时间：2021-11-14 23:25:21 datetime apache-spark apache-spark-sql spark-dataframe 其他开发

如何将 Spark 数据帧输出转换为 json?

我正在读取带有 Spark SQL 上下文的 CSV 文件. 代码: m.put("path", CSV_DIRECTORY+file.getOriginalFilename());m.put("inferSchema", "true");//默认自动推断数据类型 else stringm.put("header", "true");//使用所有文件的第一行作为标题m.put("分隔符", ..

发布时间：2021-11-14 23:25:18 java json scala apache-spark apache-spark-sql Java开发

Spark日期解析

我正在以这种格式解析一些日期:2009-01-23 18:15:05 使用以下函数 def loadTransactions (sqlContext: SQLContext, path: String): DataFrame = {val rowRdd = sqlContext.sparkContext.textFile(path).map { line =>val 标记 = line.spl ..

发布时间：2021-11-14 23:25:15 datetime apache-spark apache-spark-sql 其他开发

Sparksql 在特殊位置后剪切字符串

您好，我想做的是剪切一个 URL，使其全部采用特定格式.目前我的网址看起来像这样. [https://url.com/xxxxxxx/xxxxx/xxxxxx] 我只想在第三个/之后删除所有内容，然后计算我的数据，以便了解我的数据中有多少 URL. 希望有人能帮帮我解决方案用户定义函数 (UDF) 正是您所需要的.假设您有以下输入: case class Data(url: ..

发布时间：2021-11-14 23:25:12 scala apache-spark-sql 其他开发

如何在pyspark中将struct dataType更改为Integer?

我有一个数据框 df，其中一列的数据类型为 struct 由于这种数据类型结构，我无法执行加法、减法等... 如何将 struct 改为 IntegerType?? 解决方案您可以使用点语法来访问 struct 列的部分内容. 例如，如果您从这个数据帧开始 df = spark.createDataFrame([(1,(3,'x')),(4,(8, 'y'))]).t ..

发布时间：2021-11-14 23:25:09 pyspark apache-spark-sql 其他开发

在 Spark 中读取分区镶木地板

我有一个如下所示的暂存数据目录，我希望能够将 2018 年和 2019 年的数据读入一个数据帧，而无需单独读取和合并. 据我所知，我应该能够将 car_data 目录提供给 spark 并应用一个过滤器，哪个 spark 会向下推?当我尝试这样做时，它说无法推断架构，因此必须手动定义它. 注意:我需要在不将年份文件夹的名称更改为 year=2018 的情况下执行此操作如何为以下 ..

发布时间：2021-11-14 23:25:06 apache-spark pyspark apache-spark-sql parquet 其他开发

如何有效地将数据帧对象解析为键值对映射

我正在处理一个包含 basketID 和 itemID 列的数据框.有没有办法有效地解析数据集并生成一个映射，其中键是 basketID，值是每个篮子中包含的所有 itemID 的集合?> 我当前的实现在数据框上使用 for 循环，这不是很可扩展.有没有可能更有效地做到这一点?任何帮助将不胜感激谢谢！示例数据的屏幕截图目标是获得 basket = Map("b1" -> Set( ..

发布时间：2021-11-14 23:25:03 apache-spark apache-spark-sql 其他开发

pyspark 我们如何检查列值是否包含在列表中

我想弄清楚是否有一个函数可以检查 spark DataFrame 的列是否包含列表中的任何值: # 定义一个数据框rdd = sc.parallelize([(0,100), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)])df = sqlContext.createDataFrame(rdd, ["id", "score ..

发布时间：2021-11-14 23:25:00 apache-spark pyspark apache-spark-sql 其他开发

每组按行求和并将总数添加为 Pyspark 数据框中的新行

我有一个像这个示例的数据框 df = spark.createDataFrame([(2, “A", “A2", 2500),(2, “A", “A11", 3500),(2, “A", “A12", 5500),(4, “B", “B25", 7600),(4，“B"，“B26"，5600)，(5, “C", “c25",2658),(5, “C", “c27", 1100),(5, “C", ..

发布时间：2021-11-14 23:24:58 pyspark apache-spark-sql pyspark-dataframes 其他开发

修复查询以解决 Scala 数据块 2.4.3 中的 to_char 和/或字符串比较问题

发布时间：2021-11-14 23:24:54 scala apache-spark apache-spark-sql 其他开发

使用自定义列读取pyspark中的文件并记录分隔符

在 pyspark.csv 中读取 csv 文件时，有什么方法可以使用自定义记录分隔符.在我的文件中，记录由 ** 而不是换行符分隔.在将 csv 读入 PySpark 数据帧时，有没有办法使用这个自定义行/记录分隔符?我的列分隔符也是 ';'下面的代码正确获取列，但它只算作一行 from pyspark import SparkContextsc = SparkSession.builder. ..

发布时间：2021-11-14 23:24:51 python python-3.x pyspark apache-spark-sql Python

如何连接多列，当任何列具有空值时

我有一个要求，我必须连接所有字段，如果有任何字段为空，那么我必须留出空间. 例如: -- 如果 col1 值不为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:202112abc-- 如果 col1 值为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:2021 abc 任何人都可以帮助我我们如何做到这一点，我尝试了多种方 ..

发布时间：2021-11-14 23:24:48 apache-spark pyspark apache-spark-sql 其他开发

Pyspark:在运行时为 when() 子句动态生成条件

我已将 csv 文件读入 pyspark dataframe.现在，如果我在 when() 子句中应用条件，当条件在 runtime 之前给出时它可以正常工作. 将pandas导入为pd从 pyspark 导入 SparkContext从 pyspark.sql 导入 SQLContext从 pyspark.sql 导入函数从 pyspark.sql.functions 导入列sc = Spar ..

发布时间：2021-11-14 23:24:45 apache-spark pyspark apache-spark-sql 其他开发

如何在 pyspark 的 Jupyter notebook 中为 MySQL 设置 JDBC 驱动程序?

我正在尝试将一堆 CSV 文件逐行加载到使用 pyspark 配置在 OpenShift 上运行的 mysql 实例中.我有一个可以启动并运行的 Jupyter 笔记本. 下面是我的代码.它因特定的驱动程序错误而失败 Py4JJavaError:调用 o89.save 时出错. 从 pyspark.sql 导入 SparkSession从 pyspark.sql 导入 SQLContex ..

发布时间：2021-11-14 23:24:42 apache-spark jdbc pyspark apache-spark-sql jupyter-notebook 其他开发

为日期创建和使用 Spark-Hive UDF

注意:这个问题是从这个问题链接的:使用非原始数据类型创建 UDF 函数并在 Spark-sql 查询中使用:Scala 我在 Scala 中创建了一个方法: 包 test.udf.demo对象 UDF_Class {def transformDate( dateColumn: String, df: DataFrame) : DataFrame = {val sparksession = ..

发布时间：2021-11-14 23:24:38 scala apache-spark hive apache-spark-sql 其他开发

将列表转换为数据框，然后在 pyspark 中加入不同的数据框

我正在使用 pyspark 数据框. 我有一个日期类型值列表: date_list = ['2018-01-19', '2018-01-20', '2018-01-17'] 我还有一个只有一列(平均值)的数据框(mean_df). +----+|平均|+----+|67 ||78 ||98 |+----+ 现在我想将 date_list 转换为一列并加入 mean_df: 预期 ..

发布时间：2021-11-14 23:24:35 list dataframe apache-spark pyspark apache-spark-sql 其他开发

在pyspark中划分数据帧

跟进这个问题和数据框，我正在尝试转换此进入这个(我知道它看起来一样，但请参阅下一行代码以查看差异): 在 Pandas 中，我使用了行代码 teste_2 = (value/value.groupby(level=0).sum()) 并且在 pyspark 中我尝试了几种解决方案；第一个是: df_2 = (df/df.groupby([“年龄"]).sum()) 但是，我收 ..

发布时间：2021-11-14 23:24:31 dataframe apache-spark pyspark apache-spark-sql divide 其他开发

如何从 Spark Java 中的结构检索值?

我的数据集 ds 具有以下架构: root|-- id: string (nullable = true)|-- 类型:字符串(可为空 = 真)|-- item: struct (nullable = true)||-- 项目:字符串(可为空 = 真) 示例: {"id":"1","type": "aaa", "item": {"item":"11"}}{"id":"2","type": " ..

发布时间：2021-11-14 23:24:28 java apache-spark apache-spark-sql Java开发

如何处理spark中丢失的嵌套字段?

给定两个案例类: case class Response(响应字段:字符串...项目:列表[项目])案例类项目(项目字段:字符串...) 我正在创建一个 Response 数据集: val dataset = spark.read.format("parquet").load(输入路径).as[响应].map(x => x) 当 itemField 不存在于任何行中时会出现问题，并且 sp ..

发布时间：2021-11-14 23:24:25 scala apache-spark apache-spark-sql 其他开发

apache-spark-sql相关内容