azure-databricks相关内容
我正在尝试测试一些想法以递归方式遍历文件夹和子文件夹中的所有文件,并将所有内容加载到单个数据框中.我有12种不同的文件,不同之处是基于文件命名约定.因此,我具有以'ABC'开头的文件名,以'CN'开头的文件名,以'CZ'开头的文件名,依此类推.我尝试了以下3个想法. import pyspark import os.path from pyspark.sql import SQLCont
..
我想使用dbutils命令来访问pyspark作业中的秘密,该作业是通过Databricks上Jobs中的Spark-Submit提交的.使用dbutils命令时,它会给出未定义的错误dbutils. 除了笔记本以外,是否有办法在pyspark作业中使用dbutils? 尝试了以下解决方案: 1)根据此解决方案导入DBUtils.但这不是Databricks dbutils.
..
我必须处理每天收到的一些文件.该信息具有主键(日期,client_id,operation_id).因此,我创建了一个Stream,该流仅将新数据附加到增量表中: operations\ .repartition('date')\ .writeStream\ .outputMode('append')\ .trigger(onc
..
在创建Azure Databricks时,将使用资源(vnet,nsg和存储帐户)自动创建托管资源组.我的问题是,是否可以在没有托管资源组的情况下创建Azure Databricks.如果不能,我们可以使用现有资源(例如vnet,nsg和存储帐户) 我尝试用空托管资源组创建带有其余APi的Azure Databricks.但是启动工作区时我无法登录. 解决方案 托管资源组必须存在,因
..
我正在寻找一种能够从ADF和其他Azure服务(例如数据目录)连接到Databricks deltalake表的方法.我没有在ADF数据源中看到databricks数据存储. 关于类似问题-可以从Azure数据工厂读取Azure Databricks表吗? @simon_dmorias似乎建议使用ODBC连接来连接到数据砖表. 我试图建立ODBC连接,但是需要设置IR.创建IR时
..
我正在使用Spark Databricks集群,并希望添加自定义的Spark配置. 关于此有一个Databricks文档,但是我不知道应该如何以及应该进行哪些更改.有人可以分享示例来配置Databricks集群吗? 有什么方法可以查看Databricks群集中Spark的默认配置. 解决方案 要微调Spark作业,您可以提供自定义群集配置中的火花配置属性. 在群集配置页面上,单击
..
我需要使用ARM模板在Azure Databricks中创建令牌. 我能够使用ARM模板创建Azure Databricks,但是无法使用ARM模板在Azure Databricks中创建令牌 以下是我用来创建Azure Databricks的模板 { "$schema": "https://schema.management.azure.com/schemas/2015-01- 0
..
我必须在Databricks中安装pyodbc模块. 我尝试使用此命令(pip install pyodbc),但由于出现以下错误而失败. 错误消息 解决方案 我使用pyobdc进行连接时遇到了一些问题,我的修复程序详细信息在这里:我认为问题出在将数据砖集群上的PYTHONPATH设置为Python 2安装上. 我怀疑这些行: %sh apt-get -y ins
..
我正在尝试使用databricks cli并调用databricks配置 这就是我从cmd做到的方式 somepath>databricks configure --token Databricks Host (should begin with https://): my_https_address Token: my_token 我想使用R调用相同的命令.所以我做了:
..
我在天蓝色的数据块中使用笔记本创建了一个简单的作业. 我正在尝试将笔电数据帧从笔记本保存到天蓝色的Blob存储中. 附加示例代码 import traceback from pyspark.sql import SparkSession from pyspark.sql.types import StringType # Attached the spark submit command
..
我在我的Databricks hdfs上安装了Azure blob存储. 有没有办法获取数据块中Blob的最后修改日期? 这是我阅读blob内容的方式: val df = spark.read .option("header", "false") .option("inferSchema", "false") .option("delimiter", ",") .csv
..
我正在从Azure Databricks笔记本读取Azure Blob存储帐户(第2代)上的文件.两种服务都在同一地区(西欧).一切正常,除非我在存储帐户前面添加了防火墙.我选择允许“受信任的Microsoft服务": 但是,现在运行笔记本会出现拒绝访问错误: com.microsoft.azure.storage.StorageException: This request is n
..
我需要使用Powershell脚本生成Azure Databricks令牌. 我已经完成了使用ARM模板创建Azure Databricks的工作,现在我希望使用powershell脚本生成Databricks令牌. 请让我知道如何使用Powershell脚本创建Databricks令牌 解决方案 生成新令牌的唯一方法是通过api,它要求您首先拥有一个令牌. 或手动使用Web ui.
..
我想将CSV文件读入dfTRUEcsv 如何在下面的示例中以字符串形式获取值(03,05)和11 我想将这些字符串作为参数传递,以从该文件夹中获取文件 i will pass (03,05) and 11 as parameters if TRUE , for each Loop start Folder\03 ; Fold
..
基于这是我的数据的样子: 美国广播公司(ABC),2020-06-22T19:17:16.428 + 0000 DEF,2020-06-22T19:17:16.435 + 0000 JKL,2020-06-22T19:17:16.468 + 0000 移动网络运营商,2020-06-22T19:17:16.480 + 0000 XYZ,2020-06-22T19:17
..
我在Azure SQL数据库中有一个表,我想根据某些条件从中删除选定的行,或者从Azure Databricks中删除整个表.目前,我正在使用JDBC的 truncate 属性来截断整个表而不删除它,然后使用新的数据帧对其进行重写. df.write \ .option('user', jdbcUsername) \ .option('password', jdbcPas
..
我正在尝试在数据块中编写一个脚本,该脚本将根据文件名中的某些字符或仅基于文件中的日期戳来选择文件. 例如,以下文件如下所示: LCMS_MRD_Delta_LoyaltyAccount_1992_2018-12-22 06-07-31 我已经在Databricks中创建了以下代码: import datetime now1 = datetime.datetime.now()
..
我正在Databricks集群中执行Spark作业.我正在通过Azure数据工厂管道触发作业,并且该作业以15分钟的间隔执行,因此successful execution of three or four times之后它会失败并抛出异常"java.lang.OutOfMemoryError: GC overhead limit exceeded". 尽管对于上述问题有很多答案,但是在大多数情况下
..
在PySpark中,您可以定义一个架构并使用此预定义的架构读取数据源,例如. g.: Schema = StructType([ StructField("temperature", DoubleType(), True), StructField("temperature_unit", StringType(), True),
..
我在Azure Databricks群集中有一张表,我想将此数据复制到Azure SQL数据库中,以允许其他用户从Metabase分析此数据. 是否可以通过Azure数据工厂访问databricks表? 解决方案 否,不幸的是,没有. Databricks表通常是临时的,并且只要您的作业/会话正在运行就可以使用. 请参见此处. 您需要将databricks表保存到某些存储中才能
..