pyspark相关内容

在PySpark中更新数据帧的某些行或创建新的数据帧

我是新手,我的目标是在AWS Glue中使用PySpark脚本: 从Glue=>;中的输入文件读取数据帧完成 更改满足条件=>;面临问题的某些行的列 将同一架构上更新的数据帧写入S3=>;Done 任务似乎很简单,但我找不到完成它的方法,并且仍然面临着更改代码的不同问题。 到目前为止,我的代码如下所示: Transform2.printSchema() # ..
发布时间:2022-05-28 12:35:27 其他开发

EMR-5.32.0上的Spark未生成请求的执行器

我在EMR(版本5.32.0)上的(Py)Spark中遇到了一些问题。大约一年前,我在EMR集群上运行了相同的程序(我认为发行版一定是5.29.0)。然后,我能够使用spark-submit参数正确配置我的PySpark程序。但是,现在我正在运行相同/相似的代码,但是spark-submit参数似乎没有任何效果。 我的集群配置: 主节点:8个VCORE,32 GiB内存,仅EBS存储E ..

如何杀死正在运行的Spark应用程序?

我有一个正在运行的Spark应用程序,它占据了我的其他应用程序不会被分配任何资源的所有核心。 我做了一些快速的研究,人们建议使用SLEAN KILL或/bin/Spark-class来终止命令。但是,我使用的是CDH版本,/bin/spark-class根本不存在,纱线杀死应用程序也不起作用。 有人能和我一起拿这个吗? 推荐答案 从Spark Scheduler复制粘贴应用 ..
发布时间:2022-04-15 17:42:40 其他开发

计算文件哈希/校验和的代码不起作用

我有以下pyspark代码来计算文件夹中每个文件的SHA1散列。我使用spark.sparkContext.binaryFiles来获取RDD对,其中键是文件名,值是一个类似文件的对象,我正在计算映射函数rdd.mapValues(map_hash_file)中的散列。然而,我在倒数第二行收到了下面的错误,我不明白--请问如何解决这个问题?谢谢 错误: org.apache.spark.Sp ..
发布时间:2022-04-13 20:03:55 其他开发

PYSpark显示最大值(S)和多重排序

感谢您在这里提供的帮助。使用Pyspark(请不能使用SQL)。因此,我有一个存储为RDD对的元组列表: [((‘City1’,‘2020-03-27’,‘X1’),44), (‘City1’,‘2020-03-28’,‘X1’),44), (‘City3’,‘2020-03-28’,‘X3’),15), ((‘City4’,‘2020-03-27’,‘X4’),5), ..
发布时间:2022-04-13 20:02:43 Python

如何在PySpark中读取大型JSON数组文件

问题 我最近在Azure Data Lake Analytics遇到了一个挑战,当时我试图读入一个大型的UTF-8 JSON数组文件,并切换到HDInsight PySpark(v2.x,而不是3)来处理该文件。该文件大小约为110G,具有约150M个JSON对象。 HDInsight PySpark似乎不支持数组的JSON文件格式的输入,所以我被卡住了。另外,我还有“许多”这样的文件 ..
发布时间:2022-04-13 20:00:52 其他开发

Pandas UDF的PySpark加载包

我曾尝试关注Databricks的博客帖子here,但不幸的是一直收到错误。我正在尝试安装PANDA、PYARROW、NumPY和h3库,然后能够访问我的PySpark集群上的这些库,但按照这些说明操作是不起作用的。 Conda init--All(然后关闭并重新打开终端) conda create-y-n pyspark_conda_env-c conda-forge pyrow pan ..
发布时间:2022-04-11 16:32:43 Python

如何提高数据库性能?

我有一个问题,我写信给Synapse Running花了这么多时间(>;20个小时)。我可以做些什么来改进我的需要写入Synapse的数据库?我的资源表来自Azure Synase上的事实数据表(包含151百万行)。我假设我的脚本不适合在数据库上运行,而且我还假设它是由垃圾收集造成的,这让我的工作停滞不前。但是,我如何解决这个问题,以防止在很长的时间内跑到最快的时间? 这是我的脚本,它是 ..

如何使用pyspark从python列表中选择随机文本值?

有没有办法使用pyspark从下面的python列表中选择一个随机文本值:- data_list = ["abc", "xyz", "pqr"] 我知道我可以实现一个pyspark UDF,该UDF将使用随机选项()python函数从python列表中返回一个随机文本值,但是我们在pyspark本身中有没有替代函数来做同样的事情? 执行上述操作的主要原因是通过如上所述从python ..
发布时间:2022-04-11 16:18:13 Python

数据库将结果截断到1000列

我一直在尝试printSchema()中的Dataframe。Dataframe有1500多列,显然Databricks正在截断结果,只显示1000个项目。如何输出1000行以上? 推荐答案 此限制不是行数,而是输出大小-如果我没记错,它是64k。 数据库还会在创建数据帧时显示其架构--单击保存数据帧的变量名称旁边的图标(它仍应限制为最大输出大小-我能够看到最多包含1900列的表 ..
发布时间:2022-04-11 16:14:03 其他开发

如何将文本文件从Databricks笔记本上传到FTP

我试图找出解决办法,但一无所获。我在这方面是新手,所以如果你知道解决方案,请帮助我。 谢谢! 推荐答案 Ok, I found a solution. #copy file from ADLS to SFTP from ftplib import FTP_TLS from azure.datalake.store import core, lib, multithread import ..
发布时间:2022-04-11 16:11:37 其他开发