azure-databricks - IT屋-程序员软件开发技术分享社区

无法通过Spark读取VCF文件

我正在尝试使用Spark读取VCF文件。 Spark 3.0 spark.read.format("com.databricks.vcf").load("vcfFilePath") 错误： java.lang.ClassNotFoundException: Failed to find data source: com.databricks.vcf. Please find ..

发布时间：2022-09-04 22:59:28 scala apache-spark databricks azure-databricks 其他开发

将文件从Azure文件加载到Azure数据库

正在寻找使用Azure Files SDK将文件上载到我的Azure数据库BLOB存储的方法我使用这个page中的函数尝试了很多东西但都没有奏效。我不明白为什么示例： file_service = FileService(account_name='MYSECRETNAME', account_key='mySECRETkey') generator = file_ ..

发布时间：2022-09-04 22:55:02 python azure azure-storage azure-databricks azure-files Python

如何从Azure Databricks Scala笔记本发送电子邮件

我必须从Azure Databricks Scala笔记本发送电子邮件。我如何才能做到这一点？推荐答案您可以使用SendGrid或Amazon-ses：以下是指向这两个示例的链接： https://kb.databricks.com/notebooks/send-email.html https://forums.databricks.com/questions ..

发布时间：2022-09-04 22:46:37 scala azure-databricks 其他开发

如何从数据库发送电子邮件

我已使用Send email from Databricks Notebook with attachment中的代码尝试从我的Databricks社区版发送代码：我使用了以下代码： import smtplib from pathlib import Path from email.mime.multipart import MIMEMultipart from email.mim ..

发布时间：2022-09-04 22:36:27 python email azure-databricks Python

数据库中的JAR作业超时限制

数据库是否有Jar作业超时限制或Jar作业可以不受限制地运行？我们的应用程序启动了长时间运行的Spark作业，创建了Spark会话和FIRE子作业，但在8月份的发布说明中，我发现笔记本电脑将作业执行限制了2天。是否可以运行具有此类限制的流作业？推荐答案在spark-defaults.conf文件中将spark.executor.heartbeatInterval设置为100000， ..

发布时间：2022-09-04 22:27:21 databricks azure-databricks 其他开发

数据库中的多选小部件笔记本

我在Databricks笔记本中制作了多选小工具。 dbutils.widgets.multiselect("Scenario", "Actual", [str(x) for x in scenario_type]) 但我想使用选定的值来更新我拥有的表。一旦只选择了一个项目，它就会起作用。 display(ur.filter((ur.scenario == getArgum ..

发布时间：2022-09-04 22:17:11 pyspark pyspark-sql azure-databricks pyspark-dataframes 其他开发

Azure Synapse：正在从Databricks连接到无服务器的SQL池-找不到数据源：com.rabricks.park.sqldw

我在Azure中使用Synapse。我在无服务器的SQL池中有数据。我想将该数据导入到Databricks中的数据框中。我收到以下错误： Py4JJavaError: An error occurred while calling o568.load. : java.lang.ClassNotFoundException: Failed to find data source: co ..

发布时间：2022-09-04 22:09:43 azure-databricks azure-synapse 其他开发

将数据从Azure Synapse中的ApacheSpark写入SQL DW

当我从数据库向Azure中的SQL DW写入数据时，我使用以下代码： example1.write.format("com.databricks.spark.sqldw").option("url", sqlDwUrlSmall).option("dbtable", "SampleTable12").option("forward_spark_azure_storage_credential ..

发布时间：2022-09-04 21:59:29 azure-databricks azure-synapse 其他开发

使用AAD令牌在数据库中创建Azure密钥库支持的秘密作用域

我的最终目标是在Azure服务主体的支持下，将ADLS Gen2容器安装到我的Databricks工作区中，作为我的Terraform托管部署的一部分。这是创建所有Azure资源(网络、防火墙、存储帐户、数据库工作区等)的单一部署。然后使用Databricks Terraform提供程序配置Databricks工作区。 This answer表示我不能使用服务主体进行AAD通过挂载，这意味着 ..

发布时间：2022-09-04 21:53:55 azure azure-active-directory azure-databricks azure-keyvault databricks-cli 其他开发

使用工作区API导入方法导入数据库笔记本(动态内容)

我要使用工作区API导入方法导入Databricks笔记本。笔记本的内容应该是动态的。我正在尝试使用以下代码，但出现错误：错误的请求请求包含无效的json正文。我已经尝试将content转换为Base64编码的数据，并在有效负载中传递它，但仍给出相同的错误。我主要想实现的是，我想动态生成笔记本的内容。 import requests import os import json ..

发布时间：2022-09-04 21:42:52 python azure-databricks Python

数据库API 2.0-不能使用SPN凭据创建KEYVAULT机密作用域

我想通过Databricks REST API 2.0创建一个秘密作用域。使用SPN进行az登录时出现下一个错误运行请求/API/2.0/Secrets/Scope/Create {"error_code":"CUSTOMER_UNAUTHORIZED","message":"Unable to grant read/list permission to Databricks ser ..

发布时间：2022-09-04 21:39:47 azure-devops azure-active-directory azure-keyvault azure-databricks 其他开发

循环访问数据库中的文件失败

继续Managing huge zip files in dataBricks 数据库在30个文件后挂起。怎么办？我已经将巨大的32 GB Zip分成了100个独立的部分。我已经从文件中分离了头文件，因此可以像处理任何CSV文件一样处理它。我需要根据列过滤数据。文件位于Azure Data Lake存储Gen1中，并且必须存储在那里。在工作约30分钟后，尝试一次读取单个文件(或所 ..

发布时间：2022-09-04 21:35:01 apache-spark pyspark azure-databricks file-management 其他开发

正在运行但未执行任何Spark应用程序的Azure Databricks群集的成本

我一直在阅读Azure数据库pricing details，但我找不到根据群集是否运行Spark应用程序而产生的成本差异。我有一个2节点集群，用于上传Spark应用程序，该应用程序每小时计算某些元素并将结果存储在Databricks表中。该表需要由外部BI应用程序访问，因此集群需要启动。假设集群运行了整整一个小时，但只执行了5分钟的Spark应用程序，那么这5分钟的执行时间会不会与其他55 ..

发布时间：2022-09-04 21:28:52 azure azure-databricks 其他开发

写入增量表时检测到架构不匹配-Azure数据库

我尝试将"；mall_Radio_json.json"；加载到Delta Lake表中。在此代码之后，我将创建表。我尝试创建增量表，但在写入增量表时发现错误&A架构不匹配。&q；可能与events.write.format("delta").mode("overwrite").partitionBy("artist").save("/delta/events/") 分区有关 ..

发布时间：2022-09-04 21:17:53 scala azure-databricks delta-lake 其他开发

如何使用pyspark检查文件/文件夹是否存在而不会出现异常

我正在尝试在从Databricks中的pysppark中读取文件之前检查文件是否存在，以避免出现异常？我尝试了以下代码片段，但当文件不存在时出现异常 from pyspark.sql import * from pyspark.conf import SparkConf SparkSession.builder.config(conf=SparkConf()) try: df = s ..

发布时间：2022-09-04 21:08:54 pyspark azure-databricks 其他开发

在数据库中使用Python日志记录模块将日志写入Azure数据记录不起作用

我正在尝试将我自己的日志文件写入到数据库中的Python-Notebook中的Azure Datalake Gen 2。我正试图通过使用Python日志记录模块来实现这一点。不幸的是，我无法让它工作。不会引发错误，也不会创建文件夹，但不会创建包含日志记录内容的文件。即使文件存在，也不会写入任何内容。本地Python脚本运行正常，但我无法使其在Databricks中运行。以下 ..

发布时间：2022-09-04 20:58:53 python azure logging azure-data-lake azure-databricks Python

将Pickle文件记录为Mlflow运行的一部分

我正在运行一个MLflow实验，作为其中的一部分，我想将几个项目记录为Python Pickle。示例：尝试不同的分类编码器，因此希望将编码器对象记录为Pickle文件。有没有办法做到这一点？推荐答案有两个函数： log_artifact-将本地文件或目录记录为项目 log_artifacts-记录本地目录的内容这样简单： with mlflo ..

发布时间：2022-08-11 19:32:45 python databricks azure-databricks mlflow Python

如何在数据库上安装Tesseract OCR

我正尝试在一台Datarick Python笔记本电脑上运行以下脚本： pip install presidio-image-redactor pip install pytesseract python -m spacy download en_core_web_lg from PIL import Image from presidio_image_redactor import Im ..

发布时间：2022-08-11 19:17:45 tesseract databricks azure-databricks python-tesseract 其他开发

PYODBC连接将进入休眠模式

我正在尝试使用PYODBC连接从数据块执行存储过程，在所有事务发生后，状态将进入休眠模式。在这一点上请帮助我，我尝试了自动提交和连接超时等所有可能性，但都不起作用。 import pyodbc import datetime username = "usrname" password = "password" server = "server" database_name = "dbnam ..

发布时间：2022-07-18 15:04:57 python-3.x azure-sql-database pyodbc azure-databricks azure-sql-server 其他开发

可以在数据库运行时版本7中使用外壳命令访问/dBFS/FileStore

在Databricks运行时版本6.6中，我能够成功运行如下所示的外壳命令： %sh ls /dbfs/FileStore/tables 但是，在运行时版本7中，这不再起作用。在运行时版本7中，有没有办法直接访问/dBFS/FileStore？我需要运行命令来解压/dBFS/FileStore/Tables中的PARQUET压缩文件。这曾经在6.6版中起作用，但Databricks的新升 ..

发布时间：2022-07-15 09:18:23 databricks azure-databricks aws-databricks databricks-community-edition 其他开发

azure-databricks相关内容