pyspark相关内容

当作业在数据库中运行时,如何获取作业名称。它不是基于笔记本的作业

我正在尝试获取正在运行的作业的名称。我想知道他的名字,然后发消息。例如:我将作业部署到Databricks并运行它。并且我希望此作业在启动时使用作业名称发送消息,这就是我要获取当前作业名称的原因。 推荐答案 数据库通过spark.conf公开大量信息-配置属性以spark.databricks.clusterUsageTags.开头,因此您可以筛选所有配置并搜索必要的信息。 对于 ..
发布时间:2022-04-11 16:07:34 Python

如何将脚本路径作为数据库笔记本中的变量传递给%run魔术命令?

我要使用%run从另一台笔记本运行DataBrick中的笔记本。我还希望能够将我正在运行的笔记本的路径作为参数发送到主笔记本。 不使用dbutils.note book.run的原因是,我在名为的笔记本中存储了大量嵌套的词典,我想在主笔记本中使用它们。 类似于: path = "/References/parameterDefinition/schemaRepository" %ru ..
发布时间:2022-04-11 15:35:15 Python

将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark DataFrame数据库时,json文件中的重复列引发错误

问题陈述:升级数据库运行时版本时,创建数据帧时出现重复列引发错误。在较低的运行时中,将创建数据帧,并且由于下游不需要重复列,因此在SELECT中简单地将其排除。 文件位置:存储在ADLS Gen2(Azure)上的JSON文件。 集群模式:标准 代码: 我们在Azure数据库中阅读了它,如下所示。 intermediate_df = spark.read.option("multil ..
发布时间:2022-04-11 15:26:55 其他开发

使用多行选项和编码选项读取CSV

在Azure Databricks中,当我使用multiline = 'true'和encoding = 'SJIS'读取CSV文件时,似乎忽略了编码选项。 如果我使用选项Spark使用其缺省值, 但我的文件是SJIS格式。 有没有什么解决办法,有没有帮助感谢。 以下是我正在使用的代码,并且我正在使用pyspark。 df= sqlContext.read.format('csv').opt ..
发布时间:2022-04-11 15:23:59 Python

使用Databricks中的dbutils.fs.ls输出创建数据帧

所以,我是一个初学者,在Databricks上学习Spark编程(Pyspark)- 我要做什么? 列出目录中的所有文件并将其保存到数据帧中,以便我能够对此文件列表应用筛选、排序等。为什么?因为我正在尝试查找目录中最大的文件。 为什么下面不起作用?我遗漏了什么? 从pyspk.sql.ypes导入StringType sklist=dbutils.fs.ls(源文件) ..
发布时间:2022-04-11 15:17:16 Python

从Databricks中的另一个笔记本返回数据帧

我有一个笔记本,它将处理文件并创建结构化格式的数据框。 现在,我需要导入在另一个笔记本中创建的数据框,但问题是在运行笔记本之前,我只需要对需要运行的某些方案进行验证。 通常,要导入所有数据结构,我们使用%run。但在我的例子中,它应该是IF子句和THEN笔记本运行的组合 if "dataset" in path": %run ntbk_path 它提供了一个错误&路径不存在& ..
发布时间:2022-04-11 15:03:53 其他开发

数据库dBFS文件读取问题

我正在尝试打开我上载到dBFS位置的文件。然而,我在尝试打开文件时出错,但在执行ls操作时可以看到该文件。此外,将文件读取到RDD时也没有问题。有人能解释一下dBFS的行为吗?在浏览了文档之后,我也尝试了几次。This是我遵循的文档。 #ls dbutils.fs.ls("/tmp/sample.txt") Out[82]: [FileInfo(path='dbfs:/tmp/sam ..

如何在数据库中使用Selify,并访问和移动下载的文件到挂载存储中,并保持Chrome和ChromeDriver版本的同步?

我看过几篇关于使用%sh在数据库中使用Selify来安装Chrome驱动程序和Chrome的帖子。这对我来说很好,但当我需要下载文件时,我遇到了很多麻烦。文件可以下载,但我在Databricks的文件系统中找不到它。即使我在将Chrome实例化到Azure Blob存储上的挂载文件夹时更改了下载路径,下载后文件也不会放在那里。还有一个问题是,在不手动更改版本号的情况下自动保持Chrome浏览器和C ..
发布时间:2022-04-11 14:59:36 Python