azure-databricks 第7页 - IT屋-程序员软件开发技术分享社区

有没有一种方法可以使用Databricks将多个文本文件加载到单个数据框中?

我正在尝试测试一些想法以递归方式遍历文件夹和子文件夹中的所有文件，并将所有内容加载到单个数据框中.我有12种不同的文件，不同之处是基于文件命名约定.因此，我具有以'ABC'开头的文件名，以'CN'开头的文件名，以'CZ'开头的文件名，依此类推.我尝试了以下3个想法. import pyspark import os.path from pyspark.sql import SQLCont ..

发布时间：2020-09-16 23:08:37 dataframe pyspark apache-spark-sql pyspark-sql azure-databricks 其他开发

如何在笔记本以外的pyspark作业中使用dbutils命令

我想使用dbutils命令来访问pyspark作业中的秘密，该作业是通过Databricks上Jobs中的Spark-Submit提交的.使用dbutils命令时，它会给出未定义的错误dbutils. 除了笔记本以外，是否有办法在pyspark作业中使用dbutils? 尝试了以下解决方案: 1)根据此解决方案导入DBUtils.但这不是Databricks dbutils. ..

发布时间：2020-09-16 23:08:34 pyspark databricks azure-databricks 其他开发

流聚合未写入接收器

我必须处理每天收到的一些文件.该信息具有主键(日期，client_id，operation_id).因此，我创建了一个Stream，该流仅将新数据附加到增量表中: operations\ .repartition('date')\ .writeStream\ .outputMode('append')\ .trigger(onc ..

发布时间：2020-09-16 23:08:31 pyspark spark-structured-streaming azure-databricks delta-lake 其他开发

是否需要托管资源组来创建Azure Databricks

在创建Azure Databricks时，将使用资源(vnet，nsg和存储帐户)自动创建托管资源组.我的问题是，是否可以在没有托管资源组的情况下创建Azure Databricks.如果不能，我们可以使用现有资源(例如vnet，nsg和存储帐户) 我尝试用空托管资源组创建带有其余APi的Azure Databricks.但是启动工作区时我无法登录. 解决方案托管资源组必须存在，因 ..

发布时间：2020-09-16 23:08:28 azure azure-databricks 其他开发

是否可以从adf连接到databricks deltalake表

我正在寻找一种能够从ADF和其他Azure服务(例如数据目录)连接到Databricks deltalake表的方法.我没有在ADF数据源中看到databricks数据存储. 关于类似问题-可以从Azure数据工厂读取Azure Databricks表吗? @simon_dmorias似乎建议使用ODBC连接来连接到数据砖表. 我试图建立ODBC连接，但是需要设置IR.创建IR时 ..

发布时间：2020-09-16 23:08:24 azure-data-factory azure-databricks delta-lake 其他开发

Azure Databricks:如何在Databricks群集中添加Spark配置

我正在使用Spark Databricks集群，并希望添加自定义的Spark配置. 关于此有一个Databricks文档，但是我不知道应该如何以及应该进行哪些更改.有人可以分享示例来配置Databricks集群吗? 有什么方法可以查看Databricks群集中Spark的默认配置. 解决方案要微调Spark作业，您可以提供自定义群集配置中的火花配置属性. 在群集配置页面上，单击 ..

发布时间：2020-09-16 23:08:21 apache-spark databricks azure-databricks 其他开发

使用ARM模板创建Azure Databricks令牌

我需要使用ARM模板在Azure Databricks中创建令牌. 我能够使用ARM模板创建Azure Databricks，但是无法使用ARM模板在Azure Databricks中创建令牌以下是我用来创建Azure Databricks的模板 { "$schema": "https://schema.management.azure.com/schemas/2015-01- 0 ..

发布时间：2020-09-16 23:08:18 azure-resource-manager azure-databricks 其他开发

如何在Databricks中安装PYODBC

我必须在Databricks中安装pyodbc模块. 我尝试使用此命令(pip install pyodbc)，但由于出现以下错误而失败. 错误消息解决方案我使用pyobdc进行连接时遇到了一些问题，我的修复程序详细信息在这里:我认为问题出在将数据砖集群上的PYTHONPATH设置为Python 2安装上. 我怀疑这些行: %sh apt-get -y ins ..

发布时间：2020-09-16 23:08:13 python-3.x pyodbc databricks azure-databricks 其他开发

使用cmd和R配置databricks

我正在尝试使用databricks cli并调用databricks配置这就是我从cmd做到的方式 somepath>databricks configure --token Databricks Host (should begin with https://): my_https_address Token: my_token 我想使用R调用相同的命令.所以我做了: ..

发布时间：2020-09-16 23:08:11 r command-line databricks azure-databricks 其他开发

将Spark Dataframe从Azure Databricks的笔记本作业保存到Azure Blob存储会导致java.lang.NoSuchMethodError

我在天蓝色的数据块中使用笔记本创建了一个简单的作业. 我正在尝试将笔电数据帧从笔记本保存到天蓝色的Blob存储中. 附加示例代码 import traceback from pyspark.sql import SparkSession from pyspark.sql.types import StringType # Attached the spark submit command ..

发布时间：2020-09-16 21:15:59 databricks azure-blob-storage azure-databricks 其他开发

Databricks读取Azure Blob的上次修改日期

我在我的Databricks hdfs上安装了Azure blob存储. 有没有办法获取数据块中Blob的最后修改日期? 这是我阅读blob内容的方式: val df = spark.read .option("header", "false") .option("inferSchema", "false") .option("delimiter", ",") .csv ..

发布时间：2020-09-16 21:13:05 azure-blob-storage azure-databricks 其他开发

Azure Databricks:访问防火墙后面的Blob存储

我正在从Azure Databricks笔记本读取Azure Blob存储帐户(第2代)上的文件.两种服务都在同一地区(西欧).一切正常，除非我在存储帐户前面添加了防火墙.我选择允许“受信任的Microsoft服务": 但是，现在运行笔记本会出现拒绝访问错误: com.microsoft.azure.storage.StorageException: This request is n ..

发布时间：2020-09-16 21:06:36 azure firewall azure-blob-storage azure-databricks 其他开发

使用Powershell脚本生成Azure Databricks令牌

我需要使用Powershell脚本生成Azure Databricks令牌. 我已经完成了使用ARM模板创建Azure Databricks的工作，现在我希望使用powershell脚本生成Databricks令牌. 请让我知道如何使用Powershell脚本创建Databricks令牌解决方案生成新令牌的唯一方法是通过api，它要求您首先拥有一个令牌. 或手动使用Web ui. ..

发布时间：2020-09-16 01:50:43 azure powershell databricks azure-databricks 其他开发

如果在其他情况下通过条件从csv文件中找到值的火花

我想将CSV文件读入dfTRUEcsv 如何在下面的示例中以字符串形式获取值(03,05)和11 我想将这些字符串作为参数传递，以从该文件夹中获取文件 i will pass (03,05) and 11 as parameters if TRUE , for each Loop start Folder\03 ; Fold ..

发布时间：2020-09-04 22:13:32 apache-spark apache-spark-sql databricks azure-databricks 其他开发

在PySpark中使用时区在日期时间范围之间筛选实木复合地板文件

基于这是我的数据的样子: 美国广播公司(ABC)，2020-06-22T19:17:16.428 + 0000 DEF，2020-06-22T19:17:16.435 + 0000 JKL，2020-06-22T19:17:16.468 + 0000 移动网络运营商，2020-06-22T19:17:16.480 + 0000 XYZ，2020-06-22T19:17 ..

发布时间：2020-09-04 21:35:59 python pyspark apache-spark-sql databricks azure-databricks Python

从Azure Databricks删除Azure SQL数据库行

我在Azure SQL数据库中有一个表，我想根据某些条件从中删除选定的行，或者从Azure Databricks中删除整个表.目前，我正在使用JDBC的 truncate 属性来截断整个表而不删除它，然后使用新的数据帧对其进行重写. df.write \ .option('user', jdbcUsername) \ .option('password', jdbcPas ..

发布时间：2020-09-04 20:02:04 pyspark azure-sql-database pyspark-sql databricks azure-databricks 其他开发

如何使用Databrick截断和/或使用通配符

我正在尝试在数据块中编写一个脚本，该脚本将根据文件名中的某些字符或仅基于文件中的日期戳来选择文件. 例如，以下文件如下所示: LCMS_MRD_Delta_LoyaltyAccount_1992_2018-12-22 06-07-31 我已经在Databricks中创建了以下代码: import datetime now1 = datetime.datetime.now() ..

发布时间：2020-09-04 18:52:52 pyspark pyspark-sql databricks azure-databricks 其他开发

Databricks Spark:java.lang.OutOfMemoryError:超出了GC开销限制i

我正在Databricks集群中执行Spark作业.我正在通过Azure数据工厂管道触发作业，并且该作业以15分钟的间隔执行，因此successful execution of three or four times之后它会失败并抛出异常"java.lang.OutOfMemoryError: GC overhead limit exceeded". 尽管对于上述问题有很多答案，但是在大多数情况下 ..

发布时间：2020-09-04 08:35:01 apache-spark databricks azure-databricks 其他开发

如何从PySpark中的数据框获取架构定义?

在PySpark中，您可以定义一个架构并使用此预定义的架构读取数据源，例如. g.: Schema = StructType([ StructField("temperature", DoubleType(), True), StructField("temperature_unit", StringType(), True), ..

发布时间：2020-09-04 06:09:50 apache-spark dataframe pyspark schema azure-databricks 其他开发

可以从Azure数据工厂读取Azure数据表吗?

我在Azure Databricks群集中有一张表，我想将此数据复制到Azure SQL数据库中，以允许其他用户从Metabase分析此数据. 是否可以通过Azure数据工厂访问databricks表? 解决方案否，不幸的是，没有. Databricks表通常是临时的，并且只要您的作业/会话正在运行就可以使用. 请参见此处. 您需要将databricks表保存到某些存储中才能 ..

发布时间：2020-06-30 20:50:02 azure azure-data-factory metabase azure-databricks 其他开发

azure-databricks相关内容