apache-spark-sql 第12页 - IT屋-程序员软件开发技术分享社区

Spark 数据集转换为数组

我有一个如下所示的数据集；col1 的值重复多次，col2 的值是唯一的.这个原始数据集大约有 10 亿行，所以我不想使用 collect 或 collect_list 因为它不会扩展到我的用例中. 原始数据集: +---------------------||列 1 |col2 |+---------------------||AA|11 ||BB|21 ||AA|12 ||AA|13 ..

发布时间：2021-11-14 23:24:22 arrays apache-spark apache-spark-sql transformation large-data 其他开发

pyspark sql 为展开的行添加不同的 Qtr start_date、End_date

我有一个包含 start_date、end_date、sales_target 的数据框.我添加了代码来识别日期范围之间的季度数，因此能够使用一些 UDF 将 sales_target 拆分为季度数. df = sqlContext.createDataFrame([("2020-01-01","2020-12-31","15"),("2020-04-01","2020-12-31","11") ..

发布时间：2021-11-14 23:24:19 python sql pyspark apache-spark-sql mysql-python Python

Spark 从多列 DataFrame 批量写入 Kafka 主题

批处理后，Spark ETL 我需要将包含多个不同列的结果数据帧写入 Kafka 主题. 根据以下 Spark 文档 https:///spark.apache.org/docs/2.2.0/structured-streaming-kafka-integration.html 写入 Kafka 的 Dataframe 应该在架构中包含以下强制性列: 值(必需)字符串或二进制正 ..

发布时间：2021-11-14 23:24:16 apache-spark apache-kafka apache-spark-sql 其他开发

在火花数据帧之间的连接中包含一列时出错

我使用 array_contains 在 cleanDF 和 sentiment_df 之间进行了连接很好(来自解决方案61687997).我需要在 Result df 中包含一个来自 cleanDF 的新列('Year'). 这是连接: from pyspark.sql 导入函数结果 = cleanDF.join(sentiment_df, expr("""array_contains( ..

发布时间：2021-11-14 23:24:13 apache-spark pyspark apache-spark-sql 其他开发

为什么 Spark crossJoin 对于一个很小的数据帧需要这么长时间?

我正在尝试在两个数据帧上执行以下 crossJoin，每个数据帧有 5 行，但 Spark 在我的机器上产生了 40000 个任务，并且需要 30 秒才能完成任务.知道为什么会这样吗? df = spark.createDataFrame([['1','1'],['2','2'],['3','3'],['4','4'],['5','5']]).toDF('a','b')df = df.repar ..

发布时间：2021-11-14 23:24:07 apache-spark pyspark apache-spark-sql cross-join 其他开发

写一个pyspark.sql.dataframe.DataFrame不丢失信息

我正在尝试以 CSV 格式保存 pyspark.sql.dataframe.DataFrame(也可以是另一种格式，只要它易于阅读). 到目前为止，我找到了几个保存 DataFrame 的示例.但是，每次我写它都会丢失信息. 数据集示例: # 创建一个示例 Pyspark DataFrame从 pyspark.sql 导入行Employee = Row("firstName", "l ..

发布时间：2021-11-14 23:24:04 python pandas pyspark apache-spark-sql Python

Spark 在首次登录后 24 小时内标记重复用户登录

我有一个包含用户和登录时间的数据集.如果在首次登录后的 24 小时内有/额外登录，我需要标记重复.活动窗口随着用户登录打开.例如，这里是样本数据集用户登录-----------------------------用户 1 12/1/19 8:00用户 1 12/1/19 10:00用户 1 12/1/19 23:00用户 1 12/2/19 7:00用户 1 12/2/19 8:00用户 1 ..

发布时间：2021-11-14 23:23:58 python scala apache-spark pyspark apache-spark-sql Python

组合两列，投射两个时间戳并从 df 中选择不会导致错误，但将一列投射到时间戳并选择会导致错误

说明当我尝试选择一个被强制转换为 unix_timestamp 的列，然后从数据帧中选择时间戳时，会出现 sparkanalysisexception 错误.请参阅下面的链接. 但是，当我组合两列，然后将组合转换为 unix_timestamp 和时间戳类型，然后从 df 中选择时，没有错误. 不同的案例错误:如何从日期字符串中提取年份? 没有错误 import ..

发布时间：2021-11-14 23:23:55 scala apache-spark apache-spark-sql 其他开发

在 Spark 中，如何仅对前 N 个频繁值进行一次热编码?

让，在我的数据帧 df 中，我有一列 my_category 在其中我有不同的值，我可以使用以下方法查看值计数: df.groupBy("my_category").count().show()值计数197166c 210d 5293 现在，我想在此列上应用单热编码 (OHE)，但仅针对顶部 N 频繁值(例如 N = 3)，并将所有其余不常用的值放在一个虚拟列中(比如“默认").例如，输出应该 ..

发布时间：2021-11-14 23:23:51 scala apache-spark apache-spark-sql one-hot-encoding 其他开发

创建 PySpark 数据框:年份的月份序列

这里完全是新手. 我想使用 pyspark 创建一个 dataframe，它将列出月份和年份，采用当前日期并列出 x 行. 如果我决定 x=5 数据帧应该如下所示 Calendar_Entry 2019 年 8 月 2019 年 9 月 2019 年 10 月 2019 年 11 月 2019 年 12 月解决方案 Spark 不是以分布式方式 ..

发布时间：2021-11-14 23:23:48 date pyspark apache-spark-sql 其他开发

如何用逗号分隔存储 JSON 数据框

我需要将数据帧的记录写入 json 文件.如果我将数据帧写入它存储的文件中，例如 {"a":1} {"b":2}，我想像这样编写数据帧 [{"a":1} ,{"b":2}].你能帮我么.提前致谢. 解决方案使用 to_json 函数创建json 对象数组然后使用 .saveAsTextFile 保存 json 对象. 示例: #sample 数据框df=spark.create ..

发布时间：2021-11-14 23:23:45 python-3.x apache-spark pyspark apache-spark-sql pyspark-dataframes 其他开发

获取每组的第 20 到第 80 个百分位数 - Pyspark

我在 pyspark 数据框中有三列(下面给出了示例数据) 订单类型客户 ID金额 A c1 100.2 A c2 1003.32 B c1 222 C c3 21.3 A c4 1.2 我想从每个 orderType 中删除异常值.为了做到这一点，我从每个 orderType 的数据中删除了前 Nth Percentile. 例如对于 N = 10，对于每个组，我将根 ..

发布时间：2021-11-14 23:23:42 python apache-spark pyspark apache-spark-sql percentile Python

如何在 Python 中的 Spark Dataframe 上应用任何类型的地图转换

我使用的是 Spark Structure Streaming，代码如下: def convert_timestamp_to_datetime(timestamp):返回 datetime.fromtimestamp(timestamp)定义提取():火花 = SparkSession \.builder \.appName("StructuredNetworkWordCount") \.ge ..

发布时间：2021-11-14 23:23:39 python apache-spark apache-spark-sql spark-streaming Python

Spark sql 优化技巧将 csv 加载到 hive 的 orc 格式

嗨，我在 CSV 文件中有 90 GB 数据，我正在将此数据加载到一个临时表中，然后使用 select insert 命令从临时表到 orc 表，但是为了将数据转换和加载为 orc 格式，在 spark sql 中需要 4 小时.是否有任何一种优化技术可以用来减少这个时间.截至目前我没有使用任何类型的优化技术，我只是使用 spark sql 并将数据从 csv 文件加载到表(文本格式)然后从这个临 ..

发布时间：2021-11-14 23:23:36 scala apache-spark pyspark apache-spark-sql pyspark-sql 其他开发

如何处理spark sql数据框中的json列数组

输入 Json {"studentName": "abc","mailId": "abc@gmail.com","class": 7,"newSub": "Environment","grade" : "A","score": 95,"scoreBoard": [{"subject":"Math","score":90,"grade":"A"},{"subject":"Science","sco ..

发布时间：2021-11-14 23:23:34 scala apache-spark apache-spark-sql 其他开发

pySpark (v2.4) DataFrameReader 为列名添加前导空格

这是我拥有的 CSV 文件的片段: “索引"、“居住空间(平方英尺)"、“床位"、“浴室"、“邮编"、“年份"、“标价(美元)"1, 2222, 3, 3.5, 32312, 1981, 2500002, 1628, 3, 2, 32308, 2009, 1850003, 3824, 5, 4, 32312, 1954, 3990004, 1137, 3, 2, 32309, 1993, 150 ..

发布时间：2021-11-14 23:23:30 apache-spark pyspark apache-spark-sql 其他开发

是否可以使用火花数据框(pyspark)中的 d-type 找到哪一列是日期?

我有一个数据框:- df =姓名 Date_1 Date_2 Roll.no基拉姆 22-01-2020 23-01-2020 20克里什 24-02-2020 05-01-2020 25蠕虫 09-01-2020 25-02-2020 24基恩 14-12-2019 25-01-2021 56 现在我想使用 d-types. 来查找日期列.正如我们所知，在 pyspark 中日期被视为 st ..

发布时间：2021-11-14 23:23:23 string date pyspark apache-spark-sql dtype 其他开发

迭代获取数据框列的最大值，添加一个并重复 spark/sql 中的所有行

我正在使用 spark 并主要通过 sql 与它进行交互(我对两者都是新手，所以请耐心等待).我在名为 taxonomies 的表中有一个看起来像这样的数据集: level_4 level_5 level_6 level_7 system_id node_id美国联盟西部 null null null 4 633美国联盟东部 null null null 4 634国家联盟西道奇队 bellin ..

发布时间：2021-11-14 23:23:19 sql apache-spark apache-spark-sql 其他开发

如何连接多列，当任何列具有空值时

我有一个要求，我必须连接所有字段，如果有任何字段为空，那么我必须留出空间. 例如: -- 如果 col1 值不为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:202112abc-- 如果 col1 值为空SELECT (YEAR||col1||(col2)) FROM 表-- 输出:2021 abc 任何人都可以帮助我我们如何做到这一点，我尝试了多种方 ..

发布时间：2021-11-14 23:23:16 apache-spark pyspark apache-spark-sql 其他开发

在纱线上运行时，自定义 spark 找不到 hive 数据库

按照 https://georgheiler.com/2019/05/01/headless-spark-on-yarn/ 即以下内容: # 下载当前无头版本的spark导出 SPARK_DIST_CLASSPATH=$(hadoop 类路径)导出 HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/confexport SPARK_HOME= ..

发布时间：2021-11-14 23:23:13 apache-spark hive apache-spark-sql hadoop-yarn hdp 其他开发

apache-spark-sql相关内容