apache-spark-sql相关内容
我有一个 JSON 文件,在加载到 Spark SQL 时,键将是我的列.现在当我想检索列名时,它是按字母顺序检索的.但我希望细节应该按照文件中的顺序 我的输入数据是 {"id":1,"name":"Judith","email":"jknight0@google.co.uk","city":"Évry","country":"France","ip":"199.63.123.157"}
..
+-------------------+|开发时间|+--------------------+|2015-09-18 05:00:20||2015-09-18 05:00:21||2015-09-18 05:00:22||2015-09-18 05:00:23||2015-09-18 05:00:24||2015-09-18 05:00:25||2015-09-18 05:00:26||201
..
我正在读取带有 Spark SQL 上下文的 CSV 文件. 代码: m.put("path", CSV_DIRECTORY+file.getOriginalFilename());m.put("inferSchema", "true");//默认自动推断数据类型 else stringm.put("header", "true");//使用所有文件的第一行作为标题m.put("分隔符",
..
我正在以这种格式解析一些日期:2009-01-23 18:15:05 使用以下函数 def loadTransactions (sqlContext: SQLContext, path: String): DataFrame = {val rowRdd = sqlContext.sparkContext.textFile(path).map { line =>val 标记 = line.spl
..
您好,我想做的是剪切一个 URL,使其全部采用特定格式.目前我的网址看起来像这样. [https://url.com/xxxxxxx/xxxxx/xxxxxx] 我只想在第三个/之后删除所有内容,然后计算我的数据,以便了解我的数据中有多少 URL. 希望有人能帮帮我 解决方案 用户定义函数 (UDF) 正是您所需要的.假设您有以下输入: case class Data(url:
..
我有一个数据框 df,其中一列的数据类型为 struct 由于这种数据类型结构,我无法执行加法、减法等... 如何将 struct 改为 IntegerType?? 解决方案 您可以使用点语法来访问 struct 列的部分内容. 例如,如果您从这个数据帧开始 df = spark.createDataFrame([(1,(3,'x')),(4,(8, 'y'))]).t
..
我有一个如下所示的暂存数据目录,我希望能够将 2018 年和 2019 年的数据读入一个数据帧,而无需单独读取和合并. 据我所知,我应该能够将 car_data 目录提供给 spark 并应用一个过滤器,哪个 spark 会向下推?当我尝试这样做时,它说无法推断架构,因此必须手动定义它. 注意:我需要在不将年份文件夹的名称更改为 year=2018 的情况下执行此操作 如何为以下
..
我正在处理一个包含 basketID 和 itemID 列的数据框.有没有办法有效地解析数据集并生成一个映射,其中键是 basketID,值是每个篮子中包含的所有 itemID 的集合?> 我当前的实现在数据框上使用 for 循环,这不是很可扩展.有没有可能更有效地做到这一点?任何帮助将不胜感激谢谢! 示例数据的屏幕截图 目标是获得 basket = Map("b1" -> Set(
..
我想弄清楚是否有一个函数可以检查 spark DataFrame 的列是否包含列表中的任何值: # 定义一个数据框rdd = sc.parallelize([(0,100), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)])df = sqlContext.createDataFrame(rdd, ["id", "score
..
我有一个像这个示例的数据框 df = spark.createDataFrame([(2, “A", “A2", 2500),(2, “A", “A11", 3500),(2, “A", “A12", 5500),(4, “B", “B25", 7600),(4,“B",“B26",5600),(5, “C", “c25",2658),(5, “C", “c27", 1100),(5, “C",
..
我已经处理了镶木地板文件并在 scala spark 2.4.3 中创建了以下数据框. +-----------+------------+-----------+--------------+-----------+|itemno|requestMonth|requestYear|totalRequested|requestDate|+-----------+------------+----
..
在 pyspark.csv 中读取 csv 文件时,有什么方法可以使用自定义记录分隔符.在我的文件中,记录由 ** 而不是换行符分隔.在将 csv 读入 PySpark 数据帧时,有没有办法使用这个自定义行/记录分隔符?我的列分隔符也是 ';'下面的代码正确获取列,但它只算作一行 from pyspark import SparkContextsc = SparkSession.builder.
..
我有一个要求,我必须连接所有字段,如果有任何字段为空,那么我必须留出空间. 例如: -- 如果 col1 值不为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:202112abc-- 如果 col1 值为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:2021 abc 任何人都可以帮助我我们如何做到这一点,我尝试了多种方
..
我已将 csv 文件读入 pyspark dataframe.现在,如果我在 when() 子句中应用条件,当条件在 runtime 之前给出时它可以正常工作. 将pandas导入为pd从 pyspark 导入 SparkContext从 pyspark.sql 导入 SQLContext从 pyspark.sql 导入函数从 pyspark.sql.functions 导入列sc = Spar
..
我正在尝试将一堆 CSV 文件逐行加载到使用 pyspark 配置在 OpenShift 上运行的 mysql 实例中.我有一个可以启动并运行的 Jupyter 笔记本. 下面是我的代码.它因特定的驱动程序错误而失败 Py4JJavaError:调用 o89.save 时出错. 从 pyspark.sql 导入 SparkSession从 pyspark.sql 导入 SQLContex
..
注意:这个问题是从这个问题链接的:使用非原始数据类型创建 UDF 函数并在 Spark-sql 查询中使用:Scala 我在 Scala 中创建了一个方法: 包 test.udf.demo对象 UDF_Class {def transformDate( dateColumn: String, df: DataFrame) : DataFrame = {val sparksession =
..
我正在使用 pyspark 数据框. 我有一个日期类型值列表: date_list = ['2018-01-19', '2018-01-20', '2018-01-17'] 我还有一个只有一列(平均值)的数据框(mean_df). +----+|平均|+----+|67 ||78 ||98 |+----+ 现在我想将 date_list 转换为一列并加入 mean_df: 预期
..
跟进这个 问题和数据框,我正在尝试转换此 进入这个(我知道它看起来一样,但请参阅下一行代码以查看差异): 在 Pandas 中,我使用了行代码 teste_2 = (value/value.groupby(level=0).sum()) 并且在 pyspark 中我尝试了几种解决方案;第一个是: df_2 = (df/df.groupby([“年龄"]).sum()) 但是,我收
..
我的数据集 ds 具有以下架构: root|-- id: string (nullable = true)|-- 类型:字符串(可为空 = 真)|-- item: struct (nullable = true)||-- 项目:字符串(可为空 = 真) 示例: {"id":"1","type": "aaa", "item": {"item":"11"}}{"id":"2","type": "
..
给定两个案例类: case class Response(响应字段:字符串...项目:列表[项目])案例类项目(项目字段:字符串...) 我正在创建一个 Response 数据集: val dataset = spark.read.format("parquet").load(输入路径).as[响应].map(x => x) 当 itemField 不存在于任何行中时会出现问题,并且 sp
..