azure-databricks 第5页 - IT屋-程序员软件开发技术分享社区

如何解决"SparkException:在Future.get中引发的异常"；问题?

我正在处理两个pyspark数据帧，并对它们进行左-反连接以跟踪日常更改，然后发送电子邮件. 我第一次尝试: diff = Table_a.join(表_b，[Table_a.col1 == Table_b.col1，Table_a.col2 == Table_b.col2]，怎么='left_anti') 预期输出是一个不包含任何数据的pyspark数据框. 此差异数据框从Tab ..

使用Databricks Connect时如何在Scala中正确访问dbutils

我正在使用Databricks Connect从IntelliJ IDEA(Scala)在本地Azure Databricks群集中运行代码. 一切正常.我可以在IDE中本地连接，调试和检查. 我创建了一个Databricks作业来运行我的自定义应用程序JAR，但由于以下异常而失败: 19/08/17 19:20:26错误无法从用户代码中抛出:java.lang.NoClassDe ..

发布时间：2021-04-13 20:25:14 scala databricks azure-databricks databricks-connect dbutils 其他开发

如何遍历azure databricks数据中的多个表并删除postgres数据库中的匹配记录?

我正在从azure databricks表中提取数据，并且仅将第一行(rank = 1)加载到postgres中的相似表(相同表结构)中.但是，在加载之前，我正在检查postgres表中的column5值是否与databricks表相同，如果是，则必须从postgres表中删除该行，并且必须加载其余值. 在这里，我要遍历提取的databricks表的行，并为postgres中的每一行运行de ..

发布时间：2021-04-13 20:25:11 sql postgresql azure-databricks 其他开发

无法使用PySpark读取CSV字符串

方案为::EventHub-> Azure Databricks(使用pyspark) 文件格式: CSV(带引号，竖线分隔和自定义架构) 我正在尝试读取来自eventhub的CSV字符串.Spark已成功使用正确的架构创建了数据框，但在每条消息后，数据框最终都为空. 我设法在流环境之外进行了一些测试，从文件中获取数据时一切正常，但是当数据来自字符串时失败. 所以我找到了一 ..

发布时间：2021-04-13 20:25:08 python-3.x pyspark azure-databricks 其他开发

如何使用笔记本中的某些命令在databricks群集上安装库?

实际上，我想在我的Azure databricks群集上安装一个库，但是我不能使用UI方法.这是因为每当我的集群发生变化时，在过渡过程中，我都无法使用UI向其添加库.有没有执行此操作的databricks实用程序命令? 解决方案有多种方法可以在Azure Databricks中安装程序包: GUI方法方法1 :使用库要将第三方代码或本地构建的代码提供给群集中运行的笔 ..

发布时间：2021-04-13 20:25:05 databricks azure-databricks 其他开发

适用于SQL Server和Azure SQL的Apache Spark连接器

我正在尝试使用此连接器将数据从Azure Databricks写入Azure SQL-com.microsoft.azure:spark-mssql-connector_2.12_3.0:1.0.0，但收到以下错误消息- 作业由于阶段失败而中止:阶段1.0中的任务0失败了4次，最近一次失败:阶段1.0中的任务0.3(TID 4、10.139.64.4，执行者0)丢失:java.lang.No ..

发布时间：2021-04-13 19:39:06 azure apache-spark azure-databricks 其他开发

如何将Tumbling Window参数传递到Data Factory UI中的Data Factory管道?

我已经在 Azure Data Factory 中定义了带有翻滚窗口触发器的管道，如下所示: 然后可以添加以@开头的函数.所以: @trigger().outputs.windowStartTime@trigger().outputs.windowEndTime 如果需要在传递参数之前对参数调用函数，也可以这样做 @addHours(trigger().outputs.windo ..

发布时间：2021-04-13 19:25:02 azure azure-data-factory azure-databricks 其他开发

Azure Databricks中DBFS的数据大小限制是多少

我阅读了此处，对于单个文件，AWS Databricks的存储限制为5TB，我们可以存储任意数量的文件那么，相同的限制适用于Azure Databricks吗?或者，Azure Databricks是否有其他限制? 更新: @CHEEKATLAPRADEEP感谢您的解释，但是，是否可以请他人分享其背后的原因:“我们建议您将数据存储在已安装的对象存储中，而不是存储在DBFS根目录中" ..

发布时间：2021-04-13 19:19:44 azure databricks azure-databricks 其他开发

使用Azure Databricks和Scala从Azure Sql表中删除行

我正在将Azure Databricks与Scala一起使用，我的目标是从Azure SQL表中删除一些行. 要实现此目的，我将JDBC与下推查询一起使用，如下所示: val pushdown_query = s“(从$ {table_name}删除，其中dump_date ='2020-01-07')临时"val res = spark.read.jdbc(jdbcUrl，pushdo ..

发布时间：2021-04-13 19:19:13 sql scala azure azure-sql-database azure-databricks 其他开发

如何在Databricks工作区中使用python获取Azure Datalake存储中存在的每个文件的最后修改时间?

我正在尝试获取蔚蓝数据湖中每个文件的最后修改时间. 文件= dbutils.fs.ls('/mnt/blob') 文件中的fi:打印(FI) 输出:-FileInfo(路径='dbfs:/mnt/blob/rule_sheet_recon.xlsx'，名称='rule_sheet_recon.xlsx'，大小= 10843) 在这里，我无法获取文件的最后修改时间.有没有办法 ..

发布时间：2021-04-13 19:07:51 python azure azure-data-lake azure-databricks Python

我收到错误消息“无法将Delta表的时间旅行到版本X".而查看Azure Databricks的历史记录时可以看到版本X

我在三角洲湖中有一张桌子，这些桌子具有以下tblproperties: 但是当我尝试使用这样的命令访问它时: spark.read.format("delta").option("versionAsOf"，322).load(path) 我收到此错误: AnalysisException:无法将Delta表的时间计时到版本322.可用版本:[330，341]. 我不明白这个问 ..

发布时间：2021-04-13 19:01:00 azure databricks azure-databricks delta-lake 其他开发

火花读取分区avro的速度明显比指向精确位置慢

我正在尝试读取分区的Avro数据，该数据是根据Year，Month和Day进行分区的，这似乎比直接将其指向路径要慢得多.在“物理计划"中，我可以看到分区过滤器正在传递，因此它没有扫描整个目录集，但速度仍然慢得多. 例如像这样读取分区数据 profitLossPath ="abfss://raw @" + datalakename +".dfs.core.windows.net/dataw ..

发布时间：2021-04-12 20:52:37 apache-spark pyspark avro azure-databricks 其他开发

如何使用Databricks Activity在ADF上实现DevOps

我正在尝试在ADF上实现DevOps，并且该管道在具有从ADLS位置和SQL提取数据的活动的管道中是成功的. 但是现在我有了一个管道，其中的一项活动是从dbfs位置运行jar文件，如下所示. 此管道将运行dbfs位置中的jar文件并继续. 集群的连接参数如下所示. 修改现有的自定义参数化模板，以满足您的需求.此模板控制发布工厂时生成的ARM模板参数.可以在管理中心的参数化模板标签 ..

发布时间：2021-04-09 19:32:31 azure azure-data-factory azure-data-factory-2 azure-databricks arm-template 其他开发

使用Spark将列名称附加到列值

我有用逗号分隔的文件中的数据，我已将其加载到spark数据框中:数据如下: A B C1 2 34 5 67 8 9 我想使用pyspark将上述数据框转换为Spark: A B CA_1 B_2 C_3A_4 B_5 C_6-------------- 然后使用pyspark将其转换为列表列表: [[A_1，B_2，C_3]，[A_4，B_5，C_6]] 然后使用pysp ..

发布时间：2021-04-08 20:30:50 pyspark apache-spark-sql azure-databricks fpgrowth 其他开发

Databricks:SQL查询的等效代码

我正在寻找查询的等效数据块代码.我添加了一些示例代码以及预期的代码，但特别是我正在Databricks中为 query 寻找等效的代码.目前，我还停留在CROSS APPLY STRING SPLIT部分. 示例SQL数据: 创建表FactTurnover(ID INT，SalesPriceExcl NUMERIC(9,4)，优惠VARCHAR(100))插入FactTurnover价值( ..

发布时间：2021-04-08 20:30:03 sql apache-spark-sql databricks azure-databricks 其他开发

如何使用databricks中的scala从dat文件中跳过第一行和最后一行，并将其移至dataframe

H | * | D | * | PA | * | BJ | * | S | * | 2019.05.27 08:54:24 | ## |H | * | AP_ATTR_ID | * | AP_ID | * | OPER_ID | * | ATTR_ID | * | ATTR_GROUP | * | LST_UPD_USR | * | LST_UPD_TSTMP | ## |779045 | * ..

发布时间：2021-04-08 20:28:37 scala apache-spark apache-spark-sql azure-databricks 其他开发

如何在Azure Databricks PySpark中执行存储过程?

我能够使用Azure Databricks中的PySpark执行简单的SQL语句，但是我想改为执行存储过程.以下是我尝试过的PySpark代码. #initialize pyspark导入findsparkfindspark.init('C:\ Spark \ spark-2.4.5-bin-hadoop2.7')#导入所需的模块从pyspark导入SparkConf，SparkContext ..

发布时间：2021-04-08 20:26:39 python pyspark-sql azure-databricks pyspark-dataframes Python

如何在没有** dbutils的情况下在Databricks dbfs中列出文件密钥

显然 dbutils不能用于cmd-line spark-submit中，您必须为此使用Jar Jobs ，但是由于其他要求，我必须使用spark-submit样式的作业，但仍然需要列出和迭代dbfs中的文件键，以便就将哪些文件用作进程的输入做出一些决定... 使用scala，我可以使用spark或hadoop中的哪个lib检索特定模式的 dbfs:/filekeys 列表? 导入org. ..

发布时间：2021-04-08 20:14:52 apache-spark hadoop filesystems azure-databricks 其他开发

Databricks dbutils抛出NullPointerException

尝试使用databricks dbutils从Azure Key Vault读取机密，但遇到以下异常: OpenJDK 64位服务器VM警告:忽略选项MaxPermSize = 512m;在8.0中删除了支持警告:忽略非Spark配置属性:eventLog.rolloverIntervalSeconds线程"main"中的异常java.lang.NullPointerException在sun ..

发布时间：2021-04-08 20:14:15 apache-spark databricks azure-keyvault azure-databricks 其他开发

PySpark-基于条件的Fillna特定行

发布时间：2021-04-08 20:06:35 python-3.x apache-spark pyspark azure-databricks 其他开发

azure-databricks相关内容