azure-databricks相关内容

数据库:dBFS:/与文件:/之间的区别

我试图了解Databricks存储文件的方式,但我有点不确定dBFS:/和file:/(见下图) 之间的区别 根据我从here推断的结果,通过cURL/wget下载的外部文件似乎位于以下文件夹路径中: %fs ls "file:/databricks/driver" 但是什么是文件:/,它为什么存在,它与dBFS:/有什么不同? 为了记录,我使用的是社区免费版的Databr ..
发布时间:2022-07-15 09:10:06 其他开发

如何在带有SparkR的SparkDataFrame中使用未定义的变量列表作为列名?

我在SparkR的世界里不断进步,现在面临着一个我无法解决的问题。 在处理SparkDataFrame操作时,我可能希望更新一些列,或聚合其他列。我学会了如何在个案的基础上做到这一点,也就是一栏一栏地做。 举个例子: library(SparkR) library(magrittr) # Creating SDF nb.row ..
发布时间:2022-04-11 16:30:01 其他开发

当我使用Selify Python进行Web自动化时,有没有办法确定文件在Azure数据库中的下载位置?

我使用Selify实现Web自动化,使用Python作为一种语言,并在Chrome浏览器上执行此操作。 我在Azure数据库中有此设置。我想从网站上下载一个Excel,我可以通过点击“导出到Excel”按钮来完成。现在,如果我在我的本地系统中执行同样的操作,它将被下载到我本地机器的下载文件夹中,但有人能帮我找到它现在下载到哪里吗,因为它是通过Azure Databricks笔记本运行的。 ..

Azure Databricks用于显示当前群集配置的python命令

我目前正在优化我们的ETL流程,并希望能够看到在处理数据时使用的现有集群配置。这样,我就可以随着时间的推移跟踪我应该使用哪些工作节点大小。 有没有一个命令可以在python中返回集群工作线程#和大小,以便我可以以数据帧的形式写入? 推荐答案 您可以通过调用Cluster Get REST API获取此信息-它将返回json,包括工作进程的数量、节点类型等。 import req ..
发布时间:2022-04-11 16:23:28 Python

如何提高数据库性能?

我有一个问题,我写信给Synapse Running花了这么多时间(>;20个小时)。我可以做些什么来改进我的需要写入Synapse的数据库?我的资源表来自Azure Synase上的事实数据表(包含151百万行)。我假设我的脚本不适合在数据库上运行,而且我还假设它是由垃圾收集造成的,这让我的工作停滞不前。但是,我如何解决这个问题,以防止在很长的时间内跑到最快的时间? 这是我的脚本,它是 ..

检查数据库中是否存在该路径

我尝试使用Python检查该路径是否存在于数据库中: try: dirs = dbutils.fs.ls ("/my/path") pass except IOError: print("The path does not exist") 如果路径不存在,我希望except语句执行。 但是,不是except语句,而是try语句失败,错误为: java.io.FileNo ..
发布时间:2022-04-11 15:37:24 Python

在数据库中以编程方式将库导入到工作空间

我想以编程方式将一个(Python Wheel)库添加到Databricks上的/Shared工作区。这在图形用户界面(工作区>导入>库)中很容易完成,但我不知道如何在数据库CLI中完成。 所以我认为我有两种可能的策略: 将其作为库安装 将其作为文件复制到工作区 似乎1)不可行,因为库术语专用于群集上的实际安装,而2)不可行,因为workspace import需要语言(Pyt ..
发布时间:2022-04-11 15:19:59 其他开发

从Databricks中的另一个笔记本返回数据帧

我有一个笔记本,它将处理文件并创建结构化格式的数据框。 现在,我需要导入在另一个笔记本中创建的数据框,但问题是在运行笔记本之前,我只需要对需要运行的某些方案进行验证。 通常,要导入所有数据结构,我们使用%run。但在我的例子中,它应该是IF子句和THEN笔记本运行的组合 if "dataset" in path": %run ntbk_path 它提供了一个错误&路径不存在& ..
发布时间:2022-04-11 15:03:53 其他开发

如何在数据库中使用Selify,并访问和移动下载的文件到挂载存储中,并保持Chrome和ChromeDriver版本的同步?

我看过几篇关于使用%sh在数据库中使用Selify来安装Chrome驱动程序和Chrome的帖子。这对我来说很好,但当我需要下载文件时,我遇到了很多麻烦。文件可以下载,但我在Databricks的文件系统中找不到它。即使我在将Chrome实例化到Azure Blob存储上的挂载文件夹时更改了下载路径,下载后文件也不会放在那里。还有一个问题是,在不手动更改版本号的情况下自动保持Chrome浏览器和C ..
发布时间:2022-04-11 14:59:36 Python

我们可以在Azure映射数据流中进行数据转置吗?

我使用映射数据流在ADF中实现我的M查询脚本。在M查询中有两个函数,一个是Table.Pivot,另一个是Table.Transspose。 映射数据流有枢轴变换,但没有转置。 谁能告诉我,我们是否可以在Azure映射数据流中进行数据转置,或者我需要使用除映射数据流之外的其他东西(数据库、Spark SQL)? 转置会将所有行旋转为列,并将列旋转为行。 推荐答案 我设法像这样转置 ..

如何在ADF中从已执行的管线中获取输出参数?

我有一个将提供输出的Databricks管道,但目前,我需要从已执行的管道运行Databricks,当我试图运行它时,我的Databricks输出没有显示在已执行的管道上?此管道无法显示输出吗? 这就是我的Databricks输出结果。 [![在此处输入图片描述][1]][1] 这是我的已执行管道。 如何从已执行的管道中获取runOutput结果? 推荐答案 您 ..
发布时间:2022-04-04 16:38:47 其他开发

初始化脚本在Databricks笔记本中运行良好,但在连接到群集时失败

我希望将init脚本(它具有所有库依赖项)与Databricks中的交互式集群相关联。初始化脚本看起来像下面的附件,在Databricks笔记本中运行得很好。 我希望这个外壳脚本在集群启动时运行,但当我将其配置为集群的init脚本时,它返回一个错误。下面是我将init脚本附加到我的集群的方式, 错误如下所示, 我发现url正在讨论相同的问题,但这里提供的解决方案(将文件扩展名从.sh更改为. ..
发布时间:2022-03-30 21:58:28 Python

数据库作业超时,出现错误:[IP]上的Executor 0丢失。取消关联的远程RPC客户端

完全错误:Databricks作业超时,错误:[IP]上的Executor 0丢失。远程RPC客户端已解除关联。可能是由于容器超过阈值或网络问题。检查驱动程序日志中的警告消息。 我们正在Azure Databricks订阅上使用Job API 2.0运行作业,并使用Pools接口来缩短派生时间,并使用Worker/Driver作为Standard_DS12_v2。 我们有一个作业(JAR ..

将python模块导入Databricks中的python脚本

我正在Azure DataFactory中处理一个项目,并且我有一个运行Databricks python脚本的管道。这个特定的脚本位于Databricks文件系统中,由ADF管道运行,它从位于同一文件夹(两个脚本都位于dbfs:/FileStore/code中)的另一个Python脚本导入模块。 下面的代码可以将python模块导入Databricks笔记本,但在导入python脚本时不起 ..