apache-spark-sql相关内容

Spark日期解析

我正在以这种格式解析一些日期:2009-01-23 18:15:05 使用以下函数 def loadTransactions (sqlContext: SQLContext, path: String): DataFrame = {val rowRdd = sqlContext.sparkContext.textFile(path).map { line =>val 标记 = line.spl ..
发布时间:2021-11-14 23:25:15 其他开发

Sparksql 在特殊位置后剪切字符串

您好,我想做的是剪切一个 URL,使其全部采用特定格式.目前我的网址看起来像这样. [https://url.com/xxxxxxx/xxxxx/xxxxxx] 我只想在第三个/之后删除所有内容,然后计算我的数据,以便了解我的数据中有多少 URL. 希望有人能帮帮我 解决方案 用户定义函数 (UDF) 正是您所需要的.假设您有以下输入: case class Data(url: ..
发布时间:2021-11-14 23:25:12 其他开发

如何在pyspark中将struct dataType更改为Integer?

我有一个数据框 df,其中一列的数据类型为 struct 由于这种数据类型结构,我无法执行加法、减法等... 如何将 struct 改为 IntegerType?? 解决方案 您可以使用点语法来访问 struct 列的部分内容. 例如,如果您从这个数据帧开始 df = spark.createDataFrame([(1,(3,'x')),(4,(8, 'y'))]).t ..
发布时间:2021-11-14 23:25:09 其他开发

在 Spark 中读取分区镶木地板

我有一个如下所示的暂存数据目录,我希望能够将 2018 年和 2019 年的数据读入一个数据帧,而无需单独读取和合并. 据我所知,我应该能够将 car_data 目录提供给 spark 并应用一个过滤器,哪个 spark 会向下推?当我尝试这样做时,它说无法推断架构,因此必须手动定义它. 注意:我需要在不将年份文件夹的名称更改为 year=2018 的情况下执行此操作 如何为以下 ..
发布时间:2021-11-14 23:25:06 其他开发

如何有效地将数据帧对象解析为键值对映射

我正在处理一个包含 basketID 和 itemID 列的数据框.有没有办法有效地解析数据集并生成一个映射,其中键是 basketID,值是每个篮子中包含的所有 itemID 的集合?> 我当前的实现在数据框上使用 for 循环,这不是很可扩展.有没有可能更有效地做到这一点?任何帮助将不胜感激谢谢! 示例数据的屏幕截图 目标是获得 basket = Map("b1" -> Set( ..
发布时间:2021-11-14 23:25:03 其他开发

使用自定义列读取pyspark中的文件并记录分隔符

在 pyspark.csv 中读取 csv 文件时,有什么方法可以使用自定义记录分隔符.在我的文件中,记录由 ** 而不是换行符分隔.在将 csv 读入 PySpark 数据帧时,有没有办法使用这个自定义行/记录分隔符?我的列分隔符也是 ';'下面的代码正确获取列,但它只算作一行 from pyspark import SparkContextsc = SparkSession.builder. ..
发布时间:2021-11-14 23:24:51 Python

如何连接多列,当任何列具有空值时

我有一个要求,我必须连接所有字段,如果有任何字段为空,那么我必须留出空间. 例如: -- 如果 col1 值不为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:202112abc-- 如果 col1 值为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:2021 abc 任何人都可以帮助我我们如何做到这一点,我尝试了多种方 ..
发布时间:2021-11-14 23:24:48 其他开发

如何在 pyspark 的 Jupyter notebook 中为 MySQL 设置 JDBC 驱动程序?

我正在尝试将一堆 CSV 文件逐行加载到使用 pyspark 配置在 OpenShift 上运行的 mysql 实例中.我有一个可以启动并运行的 Jupyter 笔记本. 下面是我的代码.它因特定的驱动程序错误而失败 Py4JJavaError:调用 o89.save 时出错. 从 pyspark.sql 导入 SparkSession从 pyspark.sql 导入 SQLContex ..

在pyspark中划分数据帧

跟进这个 问题和数据框,我正在尝试转换此 进入这个(我知道它看起来一样,但请参阅下一行代码以查看差异): 在 Pandas 中,我使用了行代码 teste_2 = (value/value.groupby(level=0).sum()) 并且在 pyspark 中我尝试了几种解决方案;第一个是: df_2 = (df/df.groupby([“年龄"]).sum()) 但是,我收 ..
发布时间:2021-11-14 23:24:31 其他开发

如何处理spark中丢失的嵌套字段?

给定两个案例类: case class Response(响应字段:字符串...项目:列表[项目])案例类项目(项目字段:字符串...) 我正在创建一个 Response 数据集: val dataset = spark.read.format("parquet").load(输入路径).as[响应].map(x => x) 当 itemField 不存在于任何行中时会出现问题,并且 sp ..
发布时间:2021-11-14 23:24:25 其他开发