databricks相关内容

数据库中的JAR作业超时限制

数据库是否有Jar作业超时限制或Jar作业可以不受限制地运行?我们的应用程序启动了长时间运行的Spark作业,创建了Spark会话和FIRE子作业,但在8月份的发布说明中,我发现笔记本电脑将作业执行限制了2天。是否可以运行具有此类限制的流作业? 推荐答案 在spark-defaults.conf文件中将spark.executor.heartbeatInterval设置为100000, ..
发布时间:2022-09-04 22:27:21 其他开发

PYSpark没有打印Kafka流中的任何数据,也没有失败

我是Spark和Kafka的新手。使用从免费Kafka服务器提供商(Cloudkarafka)创建的Kafka服务器来使用数据。在运行pyspark代码(在Databricks上)以使用流数据时,流只是保持初始化,并且不获取任何内容。它既不会失败,也不会停止执行,只是将状态保持为流正在初始化。 代码: from pyspark.sql.functions import col kaf ..

数据库访问本地笔记本

我在Databricks上创建了一些笔记本,我想访问它们。一个笔记本有本地路径 /Users/test@gmx.de/sel2 如果我现在尝试通过 访问目录 %fs /Users/test@gmx.de 我收到一条错误消息,指出找不到本地目录。 我做错了什么? 非常感谢! 推荐答案 笔记本不是位于文件系统上的真实对象。笔记本是内存中的表示形式,存储在数据库 ..
发布时间:2022-08-11 19:41:45 其他开发

数据库中的TO_CHAR函数

我在Databricks中使用SQL作为我笔记本的语言。 我想从给出的日期算起是星期几。 为此,我习惯于使用_char(date,‘fmday’)。获取错误,因为函数未在数据库中注册为临时或永久函数。有没有办法通过其他方式得到这一天的名字? 日期的格式为yyyymmdd SparkSQL 您会收到该错误,因为to_char不是推荐答案函数。您可以在此处查看ScalaDocs中的函数列表 ..
发布时间:2022-08-11 19:37:22 其他开发

将Pickle文件记录为Mlflow运行的一部分

我正在运行一个MLflow实验,作为其中的一部分,我想将几个项目记录为Python Pickle。 示例:尝试不同的分类编码器,因此希望将编码器对象记录为Pickle文件。 有没有办法做到这一点? 推荐答案 有两个函数: log_artifact-将本地文件或目录记录为项目 log_artifacts-记录本地目录的内容 这样简单: with mlflo ..
发布时间:2022-08-11 19:32:45 Python

使用Python在Databricks中的另一个笔记本中动态创建笔记本

我正在尝试在另一个笔记本中创建一个笔记本,创建的笔记本应该同时包含Python代码和SQL代码(使用%SQL,%python)。创建后,我需要从父笔记本运行创建的笔记本。有没有人能建议更好的方法来完成此操作。 我找到了类似dbutils.note book.run()的东西,它将帮助我运行已有的笔记本,但正在寻找一种方法,先创建一个笔记本,然后再运行它。任何建议都是值得理解的!! 推荐 ..
发布时间:2022-08-11 19:20:48 Python

Databricks dBFS是否支持文件元数据,如文件/文件夹创建日期或修改日期

我试图在Databricks笔记本中的一个目录中爬行,以查找最新的拼花地板文件。Dbfsutils.fs.ls似乎不支持有关文件或文件夹的任何元数据。在Python中有没有其他方法可以做到这一点?这些数据存储在装载到dBFS的“/mnt/foo”下的一个蔚蓝数据湖中。如有任何帮助或指示,我们将不胜感激。 推荐答案 据我所知,在Azure数据库上,dBFS路径dbfs:/mnt/foo与 ..
发布时间:2022-08-11 19:05:51 Python

从Repo数据库中的另一台笔记本运行笔记本

我有一个笔记本,其功能位于repo文件夹中,我正尝试在另一个笔记本中运行该笔记本。 通常我可以这样运行它:%run /Users/name/project/file_name 因此,我将这两个文件(Function_Notebook、Proceded_Notebook)克隆到Databricks中的Repo中。 当我尝试复制刚才克隆的路径时,仅出现此选项:Copy File Pa ..
发布时间:2022-08-11 18:57:13 其他开发

从数据库到Oracle的连接

我正在尝试从数据库连接到Oracle数据库。然而,我在任何文档中都找不到确切的语法。 有谁可以帮助了解准确的语法吗?还是逐步建立连接的过程? 这是我到目前为止的尝试: dbutils.widgets.text("sql_instance_name", "serveraddress") jdbcHostname = getArgument("sql_instance_name") ..
发布时间:2022-07-15 09:25:18 数据库

可以在数据库运行时版本7中使用外壳命令访问/dBFS/FileStore

在Databricks运行时版本6.6中,我能够成功运行如下所示的外壳命令: %sh ls /dbfs/FileStore/tables 但是,在运行时版本7中,这不再起作用。在运行时版本7中,有没有办法直接访问/dBFS/FileStore?我需要运行命令来解压/dBFS/FileStore/Tables中的PARQUET压缩文件。这曾经在6.6版中起作用,但Databricks的新升 ..

数据库:dBFS:/与文件:/之间的区别

我试图了解Databricks存储文件的方式,但我有点不确定dBFS:/和file:/(见下图) 之间的区别 根据我从here推断的结果,通过cURL/wget下载的外部文件似乎位于以下文件夹路径中: %fs ls "file:/databricks/driver" 但是什么是文件:/,它为什么存在,它与dBFS:/有什么不同? 为了记录,我使用的是社区免费版的Databr ..
发布时间:2022-07-15 09:10:06 其他开发

Pandas UDF的PySpark加载包

我曾尝试关注Databricks的博客帖子here,但不幸的是一直收到错误。我正在尝试安装PANDA、PYARROW、NumPY和h3库,然后能够访问我的PySpark集群上的这些库,但按照这些说明操作是不起作用的。 Conda init--All(然后关闭并重新打开终端) conda create-y-n pyspark_conda_env-c conda-forge pyrow pan ..
发布时间:2022-04-11 16:32:43 Python

如何在带有SparkR的SparkDataFrame中使用未定义的变量列表作为列名?

我在SparkR的世界里不断进步,现在面临着一个我无法解决的问题。 在处理SparkDataFrame操作时,我可能希望更新一些列,或聚合其他列。我学会了如何在个案的基础上做到这一点,也就是一栏一栏地做。 举个例子: library(SparkR) library(magrittr) # Creating SDF nb.row ..
发布时间:2022-04-11 16:30:01 其他开发

当我使用Selify Python进行Web自动化时,有没有办法确定文件在Azure数据库中的下载位置?

我使用Selify实现Web自动化,使用Python作为一种语言,并在Chrome浏览器上执行此操作。 我在Azure数据库中有此设置。我想从网站上下载一个Excel,我可以通过点击“导出到Excel”按钮来完成。现在,如果我在我的本地系统中执行同样的操作,它将被下载到我本地机器的下载文件夹中,但有人能帮我找到它现在下载到哪里吗,因为它是通过Azure Databricks笔记本运行的。 ..