azure-databricks相关内容

如何解决"SparkException:在Future.get中引发的异常";问题?

我正在处理两个pyspark数据帧,并对它们进行左-反连接以跟踪日常更改,然后发送电子邮件. 我第一次尝试: diff = Table_a.join(表_b,[Table_a.col1 == Table_b.col1,Table_a.col2 == Table_b.col2],怎么='left_anti') 预期输出是一个不包含任何数据的pyspark数据框. 此差异数据框从Tab ..
发布时间:2021-04-13 20:25:17 Python

使用Databricks Connect时如何在Scala中正确访问dbutils

我正在使用Databricks Connect从IntelliJ IDEA(Scala)在本地Azure Databricks群集中运行代码. 一切正常.我可以在IDE中本地连接,调试和检查. 我创建了一个Databricks作业来运行我的自定义应用程序JAR,但由于以下异常而失败: 19/08/17 19:20:26错误无法从用户代码中抛出:java.lang.NoClassDe ..

如何遍历azure databricks数据中的多个表并删除postgres数据库中的匹配记录?

我正在从azure databricks表中提取数据,并且仅将第一行(rank = 1)加载到postgres中的相似表(相同表结构)中.但是,在加载之前,我正在检查postgres表中的column5值是否与databricks表相同,如果是,则必须从postgres表中删除该行,并且必须加载其余值. 在这里,我要遍历提取的databricks表的行,并为postgres中的每一行运行de ..
发布时间:2021-04-13 20:25:11 其他开发

无法使用PySpark读取CSV字符串

方案为::EventHub-> Azure Databricks(使用pyspark) 文件格式: CSV(带引号,竖线分隔和自定义架构) 我正在尝试读取来自eventhub的CSV字符串.Spark已成功使用正确的架构创建了数据框,但在每条消息后,数据框最终都为空. 我设法在流环境之外进行了一些测试,从文件中获取数据时一切正常,但是当数据来自字符串时失败. 所以我找到了一 ..
发布时间:2021-04-13 20:25:08 其他开发

如何使用笔记本中的某些命令在databricks群集上安装库?

实际上,我想在我的Azure databricks群集上安装一个库,但是我不能使用UI方法.这是因为每当我的集群发生变化时,在过渡过程中,我都无法使用UI向其添加库.有没有执行此操作的databricks实用程序命令? 解决方案 有多种方法可以在Azure Databricks中安装程序包: GUI方法 方法1 :使用库 要将第三方代码或本地构建的代码提供给群集中运行的笔 ..
发布时间:2021-04-13 20:25:05 其他开发

Azure Databricks中DBFS的数据大小限制是多少

我阅读了此处,对于单个文件,AWS Databricks的存储限制为5TB,我们可以存储任意数量的文件那么,相同的限制适用于Azure Databricks吗?或者,Azure Databricks是否有其他限制? 更新: @CHEEKATLAPRADEEP感谢您的解释,但是,是否可以请他人分享其背后的原因:“我们建议您将数据存储在已安装的对象存储中,而不是存储在DBFS根目录中" ..
发布时间:2021-04-13 19:19:44 其他开发

如何在Databricks工作区中使用python获取Azure Datalake存储中存在的每个文件的最后修改时间?

我正在尝试获取蔚蓝数据湖中每个文件的最后修改时间. 文件= dbutils.fs.ls('/mnt/blob') 文件中的fi:打印(FI) 输出:-FileInfo(路径='dbfs:/mnt/blob/rule_sheet_recon.xlsx',名称='rule_sheet_recon.xlsx',大小= 10843) 在这里,我无法获取文件的最后修改时间.有没有办法 ..
发布时间:2021-04-13 19:07:51 Python

我收到错误消息“无法将Delta表的时间旅行到版本X".而查看Azure Databricks的历史记录时可以看到版本X

我在三角洲湖中有一张桌子,这些桌子具有以下tblproperties: 但是当我尝试使用这样的命令访问它时: spark.read.format("delta").option("versionAsOf",322).load(path) 我收到此错误: AnalysisException:无法将Delta表的时间计时到版本322.可用版本:[330,341]. 我不明白这个问 ..
发布时间:2021-04-13 19:01:00 其他开发

火花读取分区avro的速度明显比指向精确位置慢

我正在尝试读取分区的Avro数据,该数据是根据Year,Month和Day进行分区的,这似乎比直接将其指向路径要慢得多.在“物理计划"中,我可以看到分区过滤器正在传递,因此它没有扫描整个目录集,但速度仍然慢得多. 例如像这样读取分区数据 profitLossPath ="abfss://raw @" + datalakename +".dfs.core.windows.net/dataw ..
发布时间:2021-04-12 20:52:37 其他开发

如何使用Databricks Activity在ADF上实现DevOps

我正在尝试在ADF上实现DevOps,并且该管道在具有从ADLS位置和SQL提取数据的活动的管道中是成功的. 但是现在我有了一个管道,其中的一项活动是从dbfs位置运行jar文件,如下所示. 此管道将运行dbfs位置中的jar文件并继续. 集群的连接参数如下所示. 修改现有的自定义参数化模板,以满足您的需求.此模板控制发布工厂时生成的ARM模板参数.可以在管理中心的参数化模板标签 ..

Databricks:SQL查询的等效代码

我正在寻找查询的等效数据块代码.我添加了一些示例代码以及预期的代码,但特别是我正在Databricks中为 query 寻找等效的代码.目前,我还停留在CROSS APPLY STRING SPLIT部分. 示例SQL数据: 创建表FactTurnover(ID INT,SalesPriceExcl NUMERIC(9,4),优惠VARCHAR(100))插入FactTurnover价值( ..
发布时间:2021-04-08 20:30:03 其他开发

如何在没有** dbutils的情况下在Databricks dbfs中列出文件密钥

显然 dbutils不能用于cmd-line spark-submit中,您必须为此使用Jar Jobs ,但是由于其他要求,我必须使用spark-submit样式的作业,但仍然需要列出和迭代dbfs中的文件键,以便就将哪些文件用作进程的输入做出一些决定... 使用scala,我可以使用spark或hadoop中的哪个lib检索特定模式的 dbfs:/filekeys 列表? 导入org. ..
发布时间:2021-04-08 20:14:52 其他开发