azure-databricks 第2页 - IT屋-程序员软件开发技术分享社区

数据库：dBFS：/与文件：/之间的区别

我试图了解Databricks存储文件的方式，但我有点不确定dBFS：/和file：/(见下图) 之间的区别根据我从here推断的结果，通过cURL/wget下载的外部文件似乎位于以下文件夹路径中： %fs ls "file:/databricks/driver" 但是什么是文件：/，它为什么存在，它与dBFS：/有什么不同？为了记录，我使用的是社区免费版的Databr ..

发布时间：2022-07-15 09:10:06 databricks azure-databricks aws-databricks 其他开发

如何在带有SparkR的SparkDataFrame中使用未定义的变量列表作为列名？

我在SparkR的世界里不断进步，现在面临着一个我无法解决的问题。在处理SparkDataFrame操作时，我可能希望更新一些列，或聚合其他列。我学会了如何在个案的基础上做到这一点，也就是一栏一栏地做。举个例子： library(SparkR) library(magrittr) # Creating SDF nb.row ..

发布时间：2022-04-11 16:30:01 r databricks azure-databricks sparkr 其他开发

当我使用Selify Python进行Web自动化时，有没有办法确定文件在Azure数据库中的下载位置？

我使用Selify实现Web自动化，使用Python作为一种语言，并在Chrome浏览器上执行此操作。我在Azure数据库中有此设置。我想从网站上下载一个Excel，我可以通过点击“导出到Excel”按钮来完成。现在，如果我在我的本地系统中执行同样的操作，它将被下载到我本地机器的下载文件夹中，但有人能帮我找到它现在下载到哪里吗，因为它是通过Azure Databricks笔记本运行的。 ..

发布时间：2022-04-11 16:27:37 selenium selenium-chromedriver databricks azure-blob-storage azure-databricks 其他开发

Azure Databricks用于显示当前群集配置的python命令

我目前正在优化我们的ETL流程，并希望能够看到在处理数据时使用的现有集群配置。这样，我就可以随着时间的推移跟踪我应该使用哪些工作节点大小。有没有一个命令可以在python中返回集群工作线程#和大小，以便我可以以数据帧的形式写入？推荐答案您可以通过调用Cluster Get REST API获取此信息-它将返回json，包括工作进程的数量、节点类型等。 import req ..

发布时间：2022-04-11 16:23:28 python azure databricks azure-databricks Python

如何提高数据库性能？

我有一个问题，我写信给Synapse Running花了这么多时间(>；20个小时)。我可以做些什么来改进我的需要写入Synapse的数据库？我的资源表来自Azure Synase上的事实数据表(包含151百万行)。我假设我的脚本不适合在数据库上运行，而且我还假设它是由垃圾收集造成的，这让我的工作停滞不前。但是，我如何解决这个问题，以防止在很长的时间内跑到最快的时间？这是我的脚本，它是 ..

发布时间：2022-04-11 16:19:18 apache-spark pyspark apache-spark-sql databricks azure-databricks 其他开发

如何使用小部件在Dataframe SELECT语句中传递动态列名

我有一个Dataframe，我希望在我的Databricks Notebook中通过SELECT语句中的小部件动态传递列名。我该怎么做？我使用的是以下代码 df1 = spark.sql("select * from tableraw") WHEREdf1具有列"；表名称"；和"；层"； df = df1.select("tablename" ..

发布时间：2022-04-11 16:02:11 sql scala pyspark databricks azure-databricks 其他开发

我是PYTHON和Spark世界的新手。我正在尝试构建一个pysppark代码，以便从Databricks发送一封电子邮件以及来自挂载点位置的附件。我使用下面的代码来实现相同的- import smtplib from pathlib import Path from email.mime.multipart import MIMEMultipart from email.mime.base ..

发布时间：2022-04-11 15:59:37 apache-spark email pyspark databricks azure-databricks 其他开发

使用SIMBA驱动程序将ODBC连接到AzureDatabricks

我只是在尝试为Databricks集群设置一个ODBC驱动程序。根据MS文档 https://docs.microsoft.com/en-us/azure/databricks/kb/bi/jdbc-odbc-troubleshooting 如果您使用cURL命令获得tTransport异常，则表示您已成功访问并进行了身份验证。当我运行... curl https://adb-77 ..

发布时间：2022-04-11 15:49:06 azure odbc databricks azure-databricks 其他开发

如何使用数据库将CSV写回Azure Blob存储？

我正在努力回写Azure Blob存储容器。我可以使用以下内容从容器中读取内容： storage_account_name = "expstorage" storage_account_key = "1VP89J..." container = "source" spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net". ..

发布时间：2022-04-11 15:47:33 pandas scala databricks azure-databricks Python

从本地计算机连接到数据库时出错

我正在尝试从我的Mac(Mojave)连接到Databricks。我做了pip install -U databricks-connect==5.5.* 我启动了一个Spark-Shell，但当我尝试在Spark中查询时，收到以下错误原因：com.databricks.service.SparkServiceConnectionException：令牌无效 To con ..

发布时间：2022-04-11 15:40:21 apache-spark databricks azure-databricks databricks-connect 其他开发

检查数据库中是否存在该路径

我尝试使用Python检查该路径是否存在于数据库中： try: dirs = dbutils.fs.ls ("/my/path") pass except IOError: print("The path does not exist") 如果路径不存在，我希望except语句执行。但是，不是except语句，而是try语句失败，错误为： java.io.FileNo ..

发布时间：2022-04-11 15:37:24 python databricks azure-databricks dbutils Python

如何处理Azure Databricks笔记本中的异常？

我是Azure和Spark的新手，请求您帮助我为以下方案编写异常处理代码。我在3个不同的笔记本上编写了HQL脚本(比如hql1、hql2、hql3)，并在一个主笔记本(hql-master)上将它们都称为， val df_tab1 = runQueryForTable("hql1", spark) val df_tab2 = runQueryForTable("hql2", spar ..

发布时间：2022-04-11 15:31:03 apache-spark exception databricks azure-databricks 其他开发

在数据库中以编程方式将库导入到工作空间

我想以编程方式将一个(Python Wheel)库添加到Databricks上的/Shared工作区。这在图形用户界面(工作区>导入>库)中很容易完成，但我不知道如何在数据库CLI中完成。所以我认为我有两种可能的策略：将其作为库安装将其作为文件复制到工作区似乎1)不可行，因为库术语专用于群集上的实际安装，而2)不可行，因为workspace import需要语言(Pyt ..

发布时间：2022-04-11 15:19:59 databricks azure-databricks 其他开发

从Databricks中的另一个笔记本返回数据帧

我有一个笔记本，它将处理文件并创建结构化格式的数据框。现在，我需要导入在另一个笔记本中创建的数据框，但问题是在运行笔记本之前，我只需要对需要运行的某些方案进行验证。通常，要导入所有数据结构，我们使用%run。但在我的例子中，它应该是IF子句和THEN笔记本运行的组合 if "dataset" in path": %run ntbk_path 它提供了一个错误&路径不存在& ..

发布时间：2022-04-11 15:03:53 pyspark databricks azure-databricks 其他开发

如何在数据库中使用Selify，并访问和移动下载的文件到挂载存储中，并保持Chrome和ChromeDriver版本的同步？

我看过几篇关于使用%sh在数据库中使用Selify来安装Chrome驱动程序和Chrome的帖子。这对我来说很好，但当我需要下载文件时，我遇到了很多麻烦。文件可以下载，但我在Databricks的文件系统中找不到它。即使我在将Chrome实例化到Azure Blob存储上的挂载文件夹时更改了下载路径，下载后文件也不会放在那里。还有一个问题是，在不手动更改版本号的情况下自动保持Chrome浏览器和C ..

发布时间：2022-04-11 14:59:36 python selenium pyspark databricks azure-databricks Python

我们可以在Azure映射数据流中进行数据转置吗？

我使用映射数据流在ADF中实现我的M查询脚本。在M查询中有两个函数，一个是Table.Pivot，另一个是Table.Transspose。映射数据流有枢轴变换，但没有转置。谁能告诉我，我们是否可以在Azure映射数据流中进行数据转置，或者我需要使用除映射数据流之外的其他东西(数据库、Spark SQL)？转置会将所有行旋转为列，并将列旋转为行。推荐答案我设法像这样转置 ..

发布时间：2022-04-04 17:06:14 apache-spark-sql azure-data-factory powerquery azure-databricks azure-data-flow 其他开发

如何在ADF中从已执行的管线中获取输出参数？

我有一个将提供输出的Databricks管道，但目前，我需要从已执行的管道运行Databricks，当我试图运行它时，我的Databricks输出没有显示在已执行的管道上？此管道无法显示输出吗？这就是我的Databricks输出结果。 [！[在此处输入图片描述][1]][1] 这是我的已执行管道。如何从已执行的管道中获取runOutput结果？推荐答案您 ..

发布时间：2022-04-04 16:38:47 azure azure-data-factory azure-databricks 其他开发

初始化脚本在Databricks笔记本中运行良好，但在连接到群集时失败

我希望将init脚本(它具有所有库依赖项)与Databricks中的交互式集群相关联。初始化脚本看起来像下面的附件，在Databricks笔记本中运行得很好。我希望这个外壳脚本在集群启动时运行，但当我将其配置为集群的init脚本时，它返回一个错误。下面是我将init脚本附加到我的集群的方式，错误如下所示，我发现url正在讨论相同的问题，但这里提供的解决方案(将文件扩展名从.sh更改为. ..

发布时间：2022-03-30 21:58:28 python bash cluster-computing databricks azure-databricks Python

数据库作业超时，出现错误：[IP]上的Executor 0丢失。取消关联的远程RPC客户端

完全错误：Databricks作业超时，错误：[IP]上的Executor 0丢失。远程RPC客户端已解除关联。可能是由于容器超过阈值或网络问题。检查驱动程序日志中的警告消息。我们正在Azure Databricks订阅上使用Job API 2.0运行作业，并使用Pools接口来缩短派生时间，并使用Worker/Driver作为Standard_DS12_v2。我们有一个作业(JAR ..

发布时间：2022-03-24 23:03:55 apache-spark driver databricks azure-databricks executor 其他开发

将python模块导入Databricks中的python脚本

我正在Azure DataFactory中处理一个项目，并且我有一个运行Databricks python脚本的管道。这个特定的脚本位于Databricks文件系统中，由ADF管道运行，它从位于同一文件夹(两个脚本都位于dbfs:/FileStore/code中)的另一个Python脚本导入模块。下面的代码可以将python模块导入Databricks笔记本，但在导入python脚本时不起 ..

发布时间：2022-02-27 12:08:59 python azure-pipelines azure-data-factory databricks azure-databricks Python

azure-databricks相关内容