pyspark-dataframes相关内容
我在Databricks笔记本中制作了多选小工具。 dbutils.widgets.multiselect("Scenario", "Actual", [str(x) for x in scenario_type]) 但我想使用选定的值来更新我拥有的表。 一旦只选择了一个项目,它就会起作用。 display(ur.filter((ur.scenario == getArgum
..
我有一个输入数据框:df_input(更新的 df_input) |comment|inp_col|inp_val||11 |a |a1 ||12 |a |a2 ||15 |b |b3 ||16 |b |b4 ||17 |c |&b ||17 |c |c5 ||17 |d |&c ||17 |d |d6 ||17 |e |&d ||17 |e |e7 | 我想将 inp_val 列中的变量替换
..
我在本地处理 pyspark 1.4 中的数据帧,并且在使 dropDuplicates 方法工作时遇到问题.它不断返回错误: "AttributeError: 'list' 对象没有属性 'dropDuplicates'" 不太清楚为什么,因为我似乎遵循 最新文档. #将 CSV 文件加载到 RDD 中以开始处理数据rdd1 = sc.textFile("C:\myfilename
..
我需要能够使用多列比较两个数据框. pySpark 尝试 # 从字典中的引用表中获取 PrimaryLookupAttributeValue 值,以将它们与 df1 进行比较.primaryAttributeValue_List = [ p.PrimaryLookupAttributeValue for p in AttributeLookup.select('PrimaryLookupA
..
我有 2 个数据框 A(3500 万条记录)和 B(30000 条记录) A |正文 |-------|pqr |-------|xyz |------- B |标题 |-------||-------|乙 |-------|| |------- 下面的数据帧 C 是在 A 和 B 之间交叉连接后获得的. c = A.crossJoin(B, on = [A.text == B.T
..
我有一个像这个示例的数据框 df = spark.createDataFrame([(2, “A", “A2", 2500),(2, “A", “A11", 3500),(2, “A", “A12", 5500),(4, “B", “B25", 7600),(4,“B",“B26",5600),(5, “C", “c25",2658),(5, “C", “c27", 1100),(5, “C",
..
我有 2 个数据集. 示例数据集 1: id |模型 |名字|姓-----------------------------------------------------------第1234章32 |456765 |[456700,987565]-----------------------------------------------------------4539 |20 |123
..
我需要将数据帧的记录写入 json 文件.如果我将数据帧写入它存储的文件中,例如 {"a":1} {"b":2},我想像这样编写数据帧 [{"a":1} ,{"b":2}].你能帮我么.提前致谢. 解决方案 使用 to_json 函数创建json 对象数组 然后使用 .saveAsTextFile 保存 json 对象. 示例: #sample 数据框df=spark.create
..
我最近开始使用 pySpark,所以不知道关于这方面的很多细节. 我想在数据框中创建一个 BinaryType 列?但是很难做到... 例如,让我们以一个简单的 df df.show(2) +---+-----------+|列1|列2|+---+-----------+|“1"|空||"2"|“20"|+---+-----------+ 现在我想要像 BinaryType
..
我有以下示例 Spark 数据帧 将pandas导入为pd导入pyspark导入 pyspark.sql.functions 作为 fn从 pyspark.sql.window 导入窗口raw_df = pd.DataFrame([(1115, dt.datetime(2019,8,5,18,20), dt.datetime(2019,8,5,18,40)),(484, dt.datetime(
..
我有一个数据框,其中有一个包含机场名称的现有列,我想用它们的缩写创建另一个列. 例如,我有一个包含以下值的现有列: 西雅图塔科马机场,华盛顿州美国佛罗里达州迈阿密国际机场美国加利福尼亚州旧金山国际机场美国佛罗里达州迈阿密国际机场美国佛罗里达州迈阿密国际机场美国加利福尼亚州旧金山国际机场美国西雅图塔科马机场 我想创建一个带有相关缩写的新列,例如 SEA、MIA 和 SFO.我想我可以使用
..
这是pyspark sql 为展开的行添加不同的 Qtr start_date、End_date.谢谢. 我有以下数据框,其中有一个数组列表作为一列. +--------------+------------+----------+----------+---+---------+-----------+---------+customer_number|sales_target|star
..
我有一个像这个示例的数据框 df = spark.createDataFrame([(2, “A", “A2", 2500),(2, “A", “A11", 3500),(2, “A", “A12", 5500),(4, “B", “B25", 7600),(4,“B",“B26",5600),(5, “C", “c25",2658),(5, “C", “c27", 1100),(5, “C",
..
我有一个包含 3 列的主表“表 1"(如下所示).表 2.1、3.1 &4.1 适用于表 1 中的 3 个唯一日期,需要填写在“点 1"列中.类似地,表 2.2、3.2 &4.2 适用于表 1 中相同的 3 个唯一日期,需要填充到“点 2"列中. 目前的方法: df1 = spark.table(“Table1")df2_1 = spark.table(“table2.1")df2_1 =
..
我在以 UTF-16 格式读取以下 CSV 数据时遇到一些问题: 全名、全标签、类型TEST.slice,“Consideration":“Verde(Spar Verde,Fonte Verde)",Test, 据我所知,这对读者来说应该不是问题,因为有一个 quote 参数来处理. df = spark.read.csv(file_path, header=True, encoding=
..
我有两个数据框要处理,第一个如下所示df1 df1_schema = StructType([StructField(“Date", StringType(), True),\StructField("store_id", StringType(), True),\StructField("warehouse_id", StringType(), True),\StructField("clas
..
我目前有一个像这样的 pyspark 数据框: +--------------------+|项目|+--------------------+|[1, 2, 3, 4]||[1, 5, 7]||[9, 10]||...| 我的目标是转换此数据框(或创建一个新数据框),以便新数据是表中项目的两种长度组合. 我知道 itertools.combinations 可以创建列表的组合,但我正在
..
我使用的是 spark 2.4.0我在使用计数函数聚合时观察到一个奇怪的行为. from pyspark.sql import 函数为 Ftst=sqlContext.createDataFrame([(1,2),(1,5),(2,None),(2,3),(3,None),(3,None)],schema=['col1','col2'])tst.show()+----+----+|col1|co
..
我有两个数据框要处理,第一个如下所示df1 df1_schema = StructType([StructField(“Date", StringType(), True),\StructField("store_id", StringType(), True),\StructField("warehouse_id", StringType(), True),\StructField("clas
..
我有一个数据框看起来像: Region, 2000Q1, 2000Q2, 2000Q3, ...A, 1,2,3,... 我想通过“区域"将这张宽表转换为长表.所以最终产品将如下所示: 区域、时间、值一、2000Q1,1一、2000Q2、2一、2000Q3、3一、2000Q4、4.... 原始表的列数组非常广泛,但聚合级别始终为区域,其余列设置为转置. 你知道一个简单的方法或函数来做
..