azure-databricks相关内容

有没有一种方法可以使用Databricks将多个文本文件加载到单个数据框中?

我正在尝试测试一些想法以递归方式遍历文件夹和子文件夹中的所有文件,并将所有内容加载到单个数据框中.我有12种不同的文件,不同之处是基于文件命名约定.因此,我具有以'ABC'开头的文件名,以'CN'开头的文件名,以'CZ'开头的文件名,依此类推.我尝试了以下3个想法. import pyspark import os.path from pyspark.sql import SQLCont ..

如何在笔记本以外的pyspark作业中使用dbutils命令

我想使用dbutils命令来访问pyspark作业中的秘密,该作业是通过Databricks上Jobs中的Spark-Submit提交的.使用dbutils命令时,它会给出未定义的错误dbutils. 除了笔记本以外,是否有办法在pyspark作业中使用dbutils? 尝试了以下解决方案: 1)根据此解决方案导入DBUtils.但这不是Databricks dbutils. ..
发布时间:2020-09-16 23:08:34 其他开发

是否需要托管资源组来创建Azure Databricks

在创建Azure Databricks时,将使用资源(vnet,nsg和存储帐户)自动创建托管资源组.我的问题是,是否可以在没有托管资源组的情况下创建Azure Databricks.如果不能,我们可以使用现有资源(例如vnet,nsg和存储帐户) 我尝试用空托管资源组创建带有其余APi的Azure Databricks.但是启动工作区时我无法登录. 解决方案 托管资源组必须存在,因 ..
发布时间:2020-09-16 23:08:28 其他开发

是否可以从adf连接到databricks deltalake表

我正在寻找一种能够从ADF和其他Azure服务(例如数据目录)连接到Databricks deltalake表的方法.我没有在ADF数据源中看到databricks数据存储. 关于类似问题-可以从Azure数据工厂读取Azure Databricks表吗? @simon_dmorias似乎建议使用ODBC连接来连接到数据砖表. 我试图建立ODBC连接,但是需要设置IR.创建IR时 ..
发布时间:2020-09-16 23:08:24 其他开发

Azure Databricks:如何在Databricks群集中添加Spark配置

我正在使用Spark Databricks集群,并希望添加自定义的Spark配置. 关于此有一个Databricks文档,但是我不知道应该如何以及应该进行哪些更改.有人可以分享示例来配置Databricks集群吗? 有什么方法可以查看Databricks群集中Spark的默认配置. 解决方案 要微调Spark作业,您可以提供自定义群集配置中的火花配置属性. 在群集配置页面上,单击 ..
发布时间:2020-09-16 23:08:21 其他开发

如何在Databricks中安装PYODBC

我必须在Databricks中安装pyodbc模块. 我尝试使用此命令(pip install pyodbc),但由于出现以下错误而失败. 错误消息 解决方案 我使用pyobdc进行连接时遇到了一些问题,我的修复程序详细信息在这里:我认为问题出在将数据砖集群上的PYTHONPATH设置为Python 2安装上. 我怀疑这些行: %sh apt-get -y ins ..
发布时间:2020-09-16 23:08:13 其他开发

将Spark Dataframe从Azure Databricks的笔记本作业保存到Azure Blob存储会导致java.lang.NoSuchMethodError

我在天蓝色的数据块中使用笔记本创建了一个简单的作业. 我正在尝试将笔电数据帧从笔记本保存到天蓝色的Blob存储中. 附加示例代码 import traceback from pyspark.sql import SparkSession from pyspark.sql.types import StringType # Attached the spark submit command ..
发布时间:2020-09-16 21:15:59 其他开发

Azure Databricks:访问防火墙后面的Blob存储

我正在从Azure Databricks笔记本读取Azure Blob存储帐户(第2代)上的文件.两种服务都在同一地区(西欧).一切正常,除非我在存储帐户前面添加了防火墙.我选择允许“受信任的Microsoft服务": 但是,现在运行笔记本会出现拒绝访问错误: com.microsoft.azure.storage.StorageException: This request is n ..
发布时间:2020-09-16 21:06:36 其他开发

使用Powershell脚本生成Azure Databricks令牌

我需要使用Powershell脚本生成Azure Databricks令牌. 我已经完成了使用ARM模板创建Azure Databricks的工作,现在我希望使用powershell脚本生成Databricks令牌. 请让我知道如何使用Powershell脚本创建Databricks令牌 解决方案 生成新令牌的唯一方法是通过api,它要求您首先拥有一个令牌. 或手动使用Web ui. ..
发布时间:2020-09-16 01:50:43 其他开发

从Azure Databricks删除Azure SQL数据库行

我在Azure SQL数据库中有一个表,我想根据某些条件从中删除选定的行,或者从Azure Databricks中删除整个表.目前,我正在使用JDBC的 truncate 属性来截断整个表而不删除它,然后使用新的数据帧对其进行重写. df.write \ .option('user', jdbcUsername) \ .option('password', jdbcPas ..

Databricks Spark:java.lang.OutOfMemoryError:超出了GC开销限制i

我正在Databricks集群中执行Spark作业.我正在通过Azure数据工厂管道触发作业,并且该作业以15分钟的间隔执行,因此successful execution of three or four times之后它会失败并抛出异常"java.lang.OutOfMemoryError: GC overhead limit exceeded". 尽管对于上述问题有很多答案,但是在大多数情况下 ..
发布时间:2020-09-04 08:35:01 其他开发

可以从Azure数据工厂读取Azure数据表吗?

我在Azure Databricks群集中有一张表,我想将此数据复制到Azure SQL数据库中,以允许其他用户从Metabase分析此数据. 是否可以通过Azure数据工厂访问databricks表? 解决方案 否,不幸的是,没有. Databricks表通常是临时的,并且只要您的作业/会话正在运行就可以使用. 请参见此处. 您需要将databricks表保存到某些存储中才能 ..
发布时间:2020-06-30 20:50:02 其他开发