apache-spark-sql相关内容
我有一个如下所示的数据集;col1 的值重复多次,col2 的值是唯一的.这个原始数据集大约有 10 亿行,所以我不想使用 collect 或 collect_list 因为它不会扩展到我的用例中. 原始数据集: +---------------------||列 1 |col2 |+---------------------||AA|11 ||BB|21 ||AA|12 ||AA|13
..
我有一个包含 start_date、end_date、sales_target 的数据框.我添加了代码来识别日期范围之间的季度数,因此能够使用一些 UDF 将 sales_target 拆分为季度数. df = sqlContext.createDataFrame([("2020-01-01","2020-12-31","15"),("2020-04-01","2020-12-31","11")
..
批处理后,Spark ETL 我需要将包含多个不同列的结果数据帧写入 Kafka 主题. 根据以下 Spark 文档 https:///spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html 写入 Kafka 的 Dataframe 应该在架构中包含以下强制性列: 值(必需)字符串或二进制 正
..
我使用 array_contains 在 cleanDF 和 sentiment_df 之间进行了连接很好(来自解决方案61687997).我需要在 Result df 中包含一个来自 cleanDF 的新列('Year'). 这是连接: from pyspark.sql 导入函数结果 = cleanDF.join(sentiment_df, expr("""array_contains(
..
我正在尝试在两个数据帧上执行以下 crossJoin,每个数据帧有 5 行,但 Spark 在我的机器上产生了 40000 个任务,并且需要 30 秒才能完成任务.知道为什么会这样吗? df = spark.createDataFrame([['1','1'],['2','2'],['3','3'],['4','4'],['5','5']]).toDF('a','b')df = df.repar
..
我正在尝试以 CSV 格式保存 pyspark.sql.dataframe.DataFrame(也可以是另一种格式,只要它易于阅读). 到目前为止,我找到了几个保存 DataFrame 的示例.但是,每次我写它都会丢失信息. 数据集示例: # 创建一个示例 Pyspark DataFrame从 pyspark.sql 导入行Employee = Row("firstName", "l
..
我有一个包含用户和登录时间的数据集.如果在首次登录后的 24 小时内有/额外登录,我需要标记重复.活动窗口随着用户登录打开.例如,这里是样本数据集 用户登录-----------------------------用户 1 12/1/19 8:00用户 1 12/1/19 10:00用户 1 12/1/19 23:00用户 1 12/2/19 7:00用户 1 12/2/19 8:00用户 1
..
说明 当我尝试选择一个被强制转换为 unix_timestamp 的列,然后从数据帧中选择时间戳时,会出现 sparkanalysisexception 错误.请参阅下面的链接. 但是,当我组合两列,然后将组合转换为 unix_timestamp 和时间戳类型,然后从 df 中选择时,没有错误. 不同的案例 错误:如何从日期字符串中提取年份? 没有错误 import
..
让,在我的数据帧 df 中,我有一列 my_category 在其中我有不同的值,我可以使用以下方法查看值计数: df.groupBy("my_category").count().show()值计数197166c 210d 5293 现在,我想在此列上应用单热编码 (OHE),但仅针对顶部 N 频繁值(例如 N = 3),并将所有其余不常用的值放在一个虚拟列中(比如“默认").例如,输出应该
..
这里完全是新手. 我想使用 pyspark 创建一个 dataframe,它将列出月份和年份,采用当前日期并列出 x 行. 如果我决定 x=5 数据帧应该如下所示 Calendar_Entry 2019 年 8 月 2019 年 9 月
2019 年 10 月
2019 年 11 月
2019 年 12 月 解决方案 Spark 不是以分布式方式
..
我需要将数据帧的记录写入 json 文件.如果我将数据帧写入它存储的文件中,例如 {"a":1} {"b":2},我想像这样编写数据帧 [{"a":1} ,{"b":2}].你能帮我么.提前致谢. 解决方案 使用 to_json 函数创建json 对象数组 然后使用 .saveAsTextFile 保存 json 对象. 示例: #sample 数据框df=spark.create
..
我在 pyspark 数据框中有三列(下面给出了示例数据) 订单类型客户 ID金额 A c1 100.2 A c2 1003.32 B c1 222 C c3 21.3 A c4 1.2 我想从每个 orderType 中删除异常值.为了做到这一点,我从每个 orderType 的数据中删除了前 Nth Percentile. 例如对于 N = 10,对于每个组,我将根
..
我使用的是 Spark Structure Streaming,代码如下: def convert_timestamp_to_datetime(timestamp):返回 datetime.fromtimestamp(timestamp)定义提取():火花 = SparkSession \.builder \.appName("StructuredNetworkWordCount") \.ge
..
嗨,我在 CSV 文件中有 90 GB 数据,我正在将此数据加载到一个临时表中,然后使用 select insert 命令从临时表到 orc 表,但是为了将数据转换和加载为 orc 格式,在 spark sql 中需要 4 小时.是否有任何一种优化技术可以用来减少这个时间.截至目前我没有使用任何类型的优化技术,我只是使用 spark sql 并将数据从 csv 文件加载到表(文本格式)然后从这个临
..
输入 Json {"studentName": "abc","mailId": "abc@gmail.com","class": 7,"newSub": "Environment","grade" : "A","score": 95,"scoreBoard": [{"subject":"Math","score":90,"grade":"A"},{"subject":"Science","sco
..
这是我拥有的 CSV 文件的片段: “索引"、“居住空间(平方英尺)"、“床位"、“浴室"、“邮编"、“年份"、“标价(美元)"1, 2222, 3, 3.5, 32312, 1981, 2500002, 1628, 3, 2, 32308, 2009, 1850003, 3824, 5, 4, 32312, 1954, 3990004, 1137, 3, 2, 32309, 1993, 150
..
我有一个数据框:- df =姓名 Date_1 Date_2 Roll.no基拉姆 22-01-2020 23-01-2020 20克里什 24-02-2020 05-01-2020 25蠕虫 09-01-2020 25-02-2020 24基恩 14-12-2019 25-01-2021 56 现在我想使用 d-types. 来查找日期列.正如我们所知,在 pyspark 中日期被视为 st
..
我正在使用 spark 并主要通过 sql 与它进行交互(我对两者都是新手,所以请耐心等待).我在名为 taxonomies 的表中有一个看起来像这样的数据集: level_4 level_5 level_6 level_7 system_id node_id美国联盟西部 null null null 4 633美国联盟东部 null null null 4 634国家联盟西道奇队 bellin
..
我有一个要求,我必须连接所有字段,如果有任何字段为空,那么我必须留出空间. 例如: -- 如果 col1 值不为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:202112abc-- 如果 col1 值为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:2021 abc 任何人都可以帮助我我们如何做到这一点,我尝试了多种方
..
按照 https://georgheiler.com/2019/05/01/headless-spark-on-yarn/ 即以下内容: # 下载当前无头版本的spark导出 SPARK_DIST_CLASSPATH=$(hadoop 类路径)导出 HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/confexport SPARK_HOME=
..