pyspark-dataframes - IT屋-程序员软件开发技术分享社区

数据库中的多选小部件笔记本

我在Databricks笔记本中制作了多选小工具。 dbutils.widgets.multiselect("Scenario", "Actual", [str(x) for x in scenario_type]) 但我想使用选定的值来更新我拥有的表。一旦只选择了一个项目，它就会起作用。 display(ur.filter((ur.scenario == getArgum ..

发布时间：2022-09-04 22:17:11 pyspark pyspark-sql azure-databricks pyspark-dataframes 其他开发

我有一个输入数据框:df_input(更新的 df_input) |comment|inp_col|inp_val||11 |a |a1 ||12 |a |a2 ||15 |b |b3 ||16 |b |b4 ||17 |c |&b ||17 |c |c5 ||17 |d |&c ||17 |d |d6 ||17 |e |&d ||17 |e |e7 | 我想将 inp_val 列中的变量替换 ..

发布时间：2021-12-28 23:29:37 python dataframe pyspark hive pyspark-dataframes Python

从 PySpark 中的数据框中删除重复项

我在本地处理 pyspark 1.4 中的数据帧，并且在使 dropDuplicates 方法工作时遇到问题.它不断返回错误: "AttributeError: 'list' 对象没有属性 'dropDuplicates'" 不太清楚为什么，因为我似乎遵循最新文档. #将 CSV 文件加载到 RDD 中以开始处理数据rdd1 = sc.textFile("C:\myfilename ..

发布时间：2021-12-22 21:23:26 python apache-spark pyspark duplicates pyspark-dataframes Python

pySpark 映射多列

我需要能够使用多列比较两个数据框. pySpark 尝试 # 从字典中的引用表中获取 PrimaryLookupAttributeValue 值，以将它们与 df1 进行比较.primaryAttributeValue_List = [ p.PrimaryLookupAttributeValue for p in AttributeLookup.select('PrimaryLookupA ..

发布时间：2021-12-22 21:15:39 dataframe dictionary pyspark pyspark-dataframes 其他开发

Pyspark 在具有数百万条记录的 2 个数据帧之间交叉连接

我有 2 个数据框 A(3500 万条记录)和 B(30000 条记录) A |正文 |-------|pqr |-------|xyz |------- B |标题 |-------||-------|乙 |-------|| |------- 下面的数据帧 C 是在 A 和 B 之间交叉连接后获得的. c = A.crossJoin(B, on = [A.text == B.T ..

发布时间：2021-11-14 23:32:50 python apache-spark pyspark apache-spark-sql pyspark-dataframes Python

每组按行求和并将总数添加为 Pyspark 数据框中的新行

我有一个像这个示例的数据框 df = spark.createDataFrame([(2, “A", “A2", 2500),(2, “A", “A11", 3500),(2, “A", “A12", 5500),(4, “B", “B25", 7600),(4，“B"，“B26"，5600)，(5, “C", “c25",2658),(5, “C", “c27", 1100),(5, “C", ..

发布时间：2021-11-14 23:24:58 pyspark apache-spark-sql pyspark-dataframes 其他开发

比较pyspark中的两个数据集

我有 2 个数据集. 示例数据集 1: id |模型 |名字|姓-----------------------------------------------------------第1234章32 |456765 |[456700,987565]-----------------------------------------------------------4539 |20 |123 ..

发布时间：2021-11-14 23:24:10 apache-spark pyspark pyspark-sql pyspark-dataframes 其他开发

如何用逗号分隔存储 JSON 数据框

我需要将数据帧的记录写入 json 文件.如果我将数据帧写入它存储的文件中，例如 {"a":1} {"b":2}，我想像这样编写数据帧 [{"a":1} ,{"b":2}].你能帮我么.提前致谢. 解决方案使用 to_json 函数创建json 对象数组然后使用 .saveAsTextFile 保存 json 对象. 示例: #sample 数据框df=spark.create ..

发布时间：2021-11-14 23:23:45 python-3.x apache-spark pyspark apache-spark-sql pyspark-dataframes 其他开发

如何使用 pySpark Dataframe 的多列创建 BinaryType 列?

我最近开始使用 pySpark，所以不知道关于这方面的很多细节. 我想在数据框中创建一个 BinaryType 列?但是很难做到... 例如，让我们以一个简单的 df df.show(2) +---+-----------+|列1|列2|+---+-----------+|“1"|空||"2"|“20"|+---+-----------+ 现在我想要像 BinaryType ..

发布时间：2021-11-14 23:22:15 pyspark pyspark-sql pyspark-dataframes 其他开发

PySpark 和时间序列数据:如何巧妙地避免日期重叠?

我有以下示例 Spark 数据帧将pandas导入为pd导入pyspark导入 pyspark.sql.functions 作为 fn从 pyspark.sql.window 导入窗口raw_df = pd.DataFrame([(1115, dt.datetime(2019,8,5,18,20), dt.datetime(2019,8,5,18,40)),(484, dt.datetime( ..

发布时间：2021-11-14 23:22:12 apache-spark pyspark pyspark-sql pyspark-dataframes 其他开发

根据pyspark中的现有列值创建新列

我有一个数据框，其中有一个包含机场名称的现有列，我想用它们的缩写创建另一个列. 例如，我有一个包含以下值的现有列: 西雅图塔科马机场，华盛顿州美国佛罗里达州迈阿密国际机场美国加利福尼亚州旧金山国际机场美国佛罗里达州迈阿密国际机场美国佛罗里达州迈阿密国际机场美国加利福尼亚州旧金山国际机场美国西雅图塔科马机场我想创建一个带有相关缩写的新列，例如 SEA、MIA 和 SFO.我想我可以使用 ..

发布时间：2021-11-14 23:20:29 pyspark apache-spark-sql pyspark-dataframes 其他开发

如何在没有重复记录的情况下分解数组

这是pyspark sql 为展开的行添加不同的 Qtr start_date、End_date.谢谢. 我有以下数据框，其中有一个数组列表作为一列. +--------------+------------+----------+----------+---+---------+-----------+---------+customer_number|sales_target|star ..

发布时间：2021-11-14 23:20:10 python-3.x pyspark apache-spark-sql databricks pyspark-dataframes 其他开发

每组按行求和并将总数添加为 Pyspark 数据框中的新行

我有一个像这个示例的数据框 df = spark.createDataFrame([(2, “A", “A2", 2500),(2, “A", “A11", 3500),(2, “A", “A12", 5500),(4, “B", “B25", 7600),(4，“B"，“B26"，5600)，(5, “C", “c25",2658),(5, “C", “c27", 1100),(5, “C", ..

发布时间：2021-11-14 23:19:35 pyspark apache-spark-sql pyspark-dataframes 其他开发

Pyspark 多连接列 <>行值:减少操作

我有一个包含 3 列的主表“表 1"(如下所示).表 2.1、3.1 &4.1 适用于表 1 中的 3 个唯一日期，需要填写在“点 1"列中.类似地，表 2.2、3.2 &4.2 适用于表 1 中相同的 3 个唯一日期，需要填充到“点 2"列中. 目前的方法: df1 = spark.table(“Table1")df2_1 = spark.table(“table2.1")df2_1 = ..

发布时间：2021-11-14 23:19:02 pyspark apache-spark-sql pyspark-dataframes 其他开发

如何使用pyspark在引号中读取带有附加逗号的csv文件?

我在以 UTF-16 格式读取以下 CSV 数据时遇到一些问题: 全名、全标签、类型TEST.slice，“Consideration":“Verde(Spar Verde，Fonte Verde)"，Test，据我所知，这对读者来说应该不是问题，因为有一个 quote 参数来处理. df = spark.read.csv(file_path, header=True, encoding= ..

发布时间：2021-11-14 23:17:58 python apache-spark pyspark apache-spark-sql pyspark-dataframes Python

Pyspark:如何解决复杂的数据帧逻辑加连接

我有两个数据框要处理，第一个如下所示df1 df1_schema = StructType([StructField(“Date", StringType(), True),\StructField("store_id", StringType(), True),\StructField("warehouse_id", StringType(), True),\StructField("clas ..

发布时间：2021-11-14 23:17:55 pyspark apache-spark-sql pyspark-dataframes 其他开发

如何从列表列创建组合的 Pyspark Dataframe

我目前有一个像这样的 pyspark 数据框: +--------------------+|项目|+--------------------+|[1, 2, 3, 4]||[1, 5, 7]||[9, 10]||...| 我的目标是转换此数据框(或创建一个新数据框)，以便新数据是表中项目的两种长度组合. 我知道 itertools.combinations 可以创建列表的组合，但我正在 ..

发布时间：2021-11-14 23:16:05 python apache-spark pyspark apache-spark-sql pyspark-dataframes Python

agg内计数函数的pyspark-奇怪行为

我使用的是 spark 2.4.0我在使用计数函数聚合时观察到一个奇怪的行为. from pyspark.sql import 函数为 Ftst=sqlContext.createDataFrame([(1,2),(1,5),(2,None),(2,3),(3,None),(3,None)],schema=['col1','col2'])tst.show()+----+----+|col1|co ..

发布时间：2021-11-14 23:15:45 pyspark apache-spark-sql pyspark-dataframes 其他开发

Pyspark:如何解决复杂的数据帧逻辑加连接

我有两个数据框要处理，第一个如下所示df1 df1_schema = StructType([StructField(“Date", StringType(), True),\StructField("store_id", StringType(), True),\StructField("warehouse_id", StringType(), True),\StructField("clas ..

发布时间：2021-11-14 23:15:14 pyspark apache-spark-sql pyspark-dataframes 其他开发

将宽数据帧转置为长数据帧

我有一个数据框看起来像: Region, 2000Q1, 2000Q2, 2000Q3, ...A, 1,2,3,... 我想通过“区域"将这张宽表转换为长表.所以最终产品将如下所示: 区域、时间、值一、2000Q1,1一、2000Q2、2一、2000Q3、3一、2000Q4、4.... 原始表的列数组非常广泛，但聚合级别始终为区域，其余列设置为转置. 你知道一个简单的方法或函数来做 ..

发布时间：2021-11-14 23:14:12 pyspark apache-spark-sql pyspark-dataframes 其他开发

pyspark-dataframes相关内容

数据库中的多选小部件笔记本

pyspark 数据框 withColumn 命令不起作用

从 PySpark 中的数据框中删除重复项

pySpark 映射多列

Pyspark 在具有数百万条记录的 2 个数据帧之间交叉连接

每组按行求和并将总数添加为 Pyspark 数据框中的新行

比较pyspark中的两个数据集

如何用逗号分隔存储 JSON 数据框

如何使用 pySpark Dataframe 的多列创建 BinaryType 列?

PySpark 和时间序列数据:如何巧妙地避免日期重叠?

根据pyspark中的现有列值创建新列

如何在没有重复记录的情况下分解数组

每组按行求和并将总数添加为 Pyspark 数据框中的新行

Pyspark 多连接列 <>行值:减少操作

如何使用pyspark在引号中读取带有附加逗号的csv文件?

Pyspark:如何解决复杂的数据帧逻辑加连接

如何从列表列创建组合的 Pyspark Dataframe

agg内计数函数的pyspark-奇怪行为

Pyspark:如何解决复杂的数据帧逻辑加连接

将宽数据帧转置为长数据帧