databricks - IT屋-程序员软件开发技术分享社区

无法通过Spark读取VCF文件

我正在尝试使用Spark读取VCF文件。 Spark 3.0 spark.read.format("com.databricks.vcf").load("vcfFilePath") 错误： java.lang.ClassNotFoundException: Failed to find data source: com.databricks.vcf. Please find ..

发布时间：2022-09-04 22:59:28 scala apache-spark databricks azure-databricks 其他开发

数据库中的JAR作业超时限制

数据库是否有Jar作业超时限制或Jar作业可以不受限制地运行？我们的应用程序启动了长时间运行的Spark作业，创建了Spark会话和FIRE子作业，但在8月份的发布说明中，我发现笔记本电脑将作业执行限制了2天。是否可以运行具有此类限制的流作业？推荐答案在spark-defaults.conf文件中将spark.executor.heartbeatInterval设置为100000， ..

发布时间：2022-09-04 22:27:21 databricks azure-databricks 其他开发

PYSpark没有打印Kafka流中的任何数据，也没有失败

我是Spark和Kafka的新手。使用从免费Kafka服务器提供商(Cloudkarafka)创建的Kafka服务器来使用数据。在运行pyspark代码(在Databricks上)以使用流数据时，流只是保持初始化，并且不获取任何内容。它既不会失败，也不会停止执行，只是将状态保持为流正在初始化。代码： from pyspark.sql.functions import col kaf ..

发布时间：2022-08-11 19:51:36 apache-spark pyspark apache-kafka databricks spark-structured-streaming 其他开发

数据库访问本地笔记本

我在Databricks上创建了一些笔记本，我想访问它们。一个笔记本有本地路径 /Users/test@gmx.de/sel2 如果我现在尝试通过访问目录 %fs /Users/test@gmx.de 我收到一条错误消息，指出找不到本地目录。我做错了什么？非常感谢！推荐答案笔记本不是位于文件系统上的真实对象。笔记本是内存中的表示形式，存储在数据库 ..

发布时间：2022-08-11 19:41:45 databricks 其他开发

数据库中的TO_CHAR函数

我在Databricks中使用SQL作为我笔记本的语言。我想从给出的日期算起是星期几。为此，我习惯于使用_char(date，‘fmday’)。获取错误，因为函数未在数据库中注册为临时或永久函数。有没有办法通过其他方式得到这一天的名字？日期的格式为yyyymmdd SparkSQL 您会收到该错误，因为to_char不是推荐答案函数。您可以在此处查看ScalaDocs中的函数列表 ..

发布时间：2022-08-11 19:37:22 databricks 其他开发

将Pickle文件记录为Mlflow运行的一部分

我正在运行一个MLflow实验，作为其中的一部分，我想将几个项目记录为Python Pickle。示例：尝试不同的分类编码器，因此希望将编码器对象记录为Pickle文件。有没有办法做到这一点？推荐答案有两个函数： log_artifact-将本地文件或目录记录为项目 log_artifacts-记录本地目录的内容这样简单： with mlflo ..

发布时间：2022-08-11 19:32:45 python databricks azure-databricks mlflow Python

使用Python在Databricks中的另一个笔记本中动态创建笔记本

我正在尝试在另一个笔记本中创建一个笔记本，创建的笔记本应该同时包含Python代码和SQL代码(使用%SQL，%python)。创建后，我需要从父笔记本运行创建的笔记本。有没有人能建议更好的方法来完成此操作。我找到了类似dbutils.note book.run()的东西，它将帮助我运行已有的笔记本，但正在寻找一种方法，先创建一个笔记本，然后再运行它。任何建议都是值得理解的！！推荐 ..

发布时间：2022-08-11 19:20:48 python databricks Python

如何在数据库上安装Tesseract OCR

我正尝试在一台Datarick Python笔记本电脑上运行以下脚本： pip install presidio-image-redactor pip install pytesseract python -m spacy download en_core_web_lg from PIL import Image from presidio_image_redactor import Im ..

发布时间：2022-08-11 19:17:45 tesseract databricks azure-databricks python-tesseract 其他开发

Databricks dBFS是否支持文件元数据，如文件/文件夹创建日期或修改日期

我试图在Databricks笔记本中的一个目录中爬行，以查找最新的拼花地板文件。Dbfsutils.fs.ls似乎不支持有关文件或文件夹的任何元数据。在Python中有没有其他方法可以做到这一点？这些数据存储在装载到dBFS的“/mnt/foo”下的一个蔚蓝数据湖中。如有任何帮助或指示，我们将不胜感激。推荐答案据我所知，在Azure数据库上，dBFS路径dbfs:/mnt/foo与 ..

发布时间：2022-08-11 19:05:51 python databricks azure-data-lake Python

从Repo数据库中的另一台笔记本运行笔记本

我有一个笔记本，其功能位于repo文件夹中，我正尝试在另一个笔记本中运行该笔记本。通常我可以这样运行它：%run /Users/name/project/file_name 因此，我将这两个文件(Function_Notebook、Proceded_Notebook)克隆到Databricks中的Repo中。当我尝试复制刚才克隆的路径时，仅出现此选项：Copy File Pa ..

发布时间：2022-08-11 18:57:13 jupyter-notebook databricks repo databricks-repos 其他开发

在数据库/Spark中为SQL中的变量赋值动态值

我觉得这里肯定漏掉了一些明显的东西，但我似乎无法在Spark SQL中动态设置变量值。假设我有两个表tableSrc和tableBuilder，并且我正在创建tableDest。我一直在尝试上的变体 SET myVar FLOAT = NULL SELECT myVar = avg(myCol) FROM tableSrc; CREATE TABLE tableD ..

发布时间：2022-08-11 18:52:02 apache-spark apache-spark-sql pyspark-sql databricks 其他开发

从数据库到Oracle的连接

我正在尝试从数据库连接到Oracle数据库。然而，我在任何文档中都找不到确切的语法。有谁可以帮助了解准确的语法吗？还是逐步建立连接的过程？这是我到目前为止的尝试： dbutils.widgets.text("sql_instance_name", "serveraddress") jdbcHostname = getArgument("sql_instance_name") ..

发布时间：2022-07-15 09:25:18 oracle databricks 数据库

可以在数据库运行时版本7中使用外壳命令访问/dBFS/FileStore

在Databricks运行时版本6.6中，我能够成功运行如下所示的外壳命令： %sh ls /dbfs/FileStore/tables 但是，在运行时版本7中，这不再起作用。在运行时版本7中，有没有办法直接访问/dBFS/FileStore？我需要运行命令来解压/dBFS/FileStore/Tables中的PARQUET压缩文件。这曾经在6.6版中起作用，但Databricks的新升 ..

发布时间：2022-07-15 09:18:23 databricks azure-databricks aws-databricks databricks-community-edition 其他开发

数据库：dBFS：/与文件：/之间的区别

我试图了解Databricks存储文件的方式，但我有点不确定dBFS：/和file：/(见下图) 之间的区别根据我从here推断的结果，通过cURL/wget下载的外部文件似乎位于以下文件夹路径中： %fs ls "file:/databricks/driver" 但是什么是文件：/，它为什么存在，它与dBFS：/有什么不同？为了记录，我使用的是社区免费版的Databr ..

发布时间：2022-07-15 09:10:06 databricks azure-databricks aws-databricks 其他开发

在数据库笔记本上将Scala地图转换为对象时出现问题

Issue 我有一个场景，我需要将Scala Map转换为Case类对象，并在以下引用的帮助下在本地实现(Scala版本2.12.13)： Scala: convert map to case class Convert a Map into Scala object 但当我尝试在Databricks笔记本中运行相同的代码块时，它抛出一个错误： IllegalArgume ..

发布时间：2022-04-11 16:35:21 azure scala apache-spark databricks 其他开发

Pandas UDF的PySpark加载包

我曾尝试关注Databricks的博客帖子here，但不幸的是一直收到错误。我正在尝试安装PANDA、PYARROW、NumPY和h3库，然后能够访问我的PySpark集群上的这些库，但按照这些说明操作是不起作用的。 Conda init--All(然后关闭并重新打开终端) conda create-y-n pyspark_conda_env-c conda-forge pyrow pan ..

发布时间：2022-04-11 16:32:43 python pandas apache-spark pyspark databricks Python

将函数一次应用于SparkDataFrame的多个列

在Basic R中，我使用data.table：将函数一次应用于多个列 d ..

发布时间：2022-04-11 16:31:36 r databricks lapply sparkr 其他开发

如何在带有SparkR的SparkDataFrame中使用未定义的变量列表作为列名？

我在SparkR的世界里不断进步，现在面临着一个我无法解决的问题。在处理SparkDataFrame操作时，我可能希望更新一些列，或聚合其他列。我学会了如何在个案的基础上做到这一点，也就是一栏一栏地做。举个例子： library(SparkR) library(magrittr) # Creating SDF nb.row ..

发布时间：2022-04-11 16:30:01 r databricks azure-databricks sparkr 其他开发

当我使用Selify Python进行Web自动化时，有没有办法确定文件在Azure数据库中的下载位置？

我使用Selify实现Web自动化，使用Python作为一种语言，并在Chrome浏览器上执行此操作。我在Azure数据库中有此设置。我想从网站上下载一个Excel，我可以通过点击“导出到Excel”按钮来完成。现在，如果我在我的本地系统中执行同样的操作，它将被下载到我本地机器的下载文件夹中，但有人能帮我找到它现在下载到哪里吗，因为它是通过Azure Databricks笔记本运行的。 ..

发布时间：2022-04-11 16:27:37 selenium selenium-chromedriver databricks azure-blob-storage azure-databricks 其他开发

在数据库中调用R工作簿

假设我在R：中创建了一个基本函数 Addn ..

发布时间：2022-04-11 16:25:10 r databricks 其他开发

databricks相关内容