delta-lake - IT屋-程序员软件开发技术分享社区

写入增量表时检测到架构不匹配-Azure数据库

我尝试将"；mall_Radio_json.json"；加载到Delta Lake表中。在此代码之后，我将创建表。我尝试创建增量表，但在写入增量表时发现错误&A架构不匹配。&q；可能与events.write.format("delta").mode("overwrite").partitionBy("artist").save("/delta/events/") 分区有关 ..

发布时间：2022-09-04 21:17:53 scala azure-databricks delta-lake 其他开发

NoSuchMethodError：org.apache.hadoop.conf.Configuration.reloadExistingConfigurations()V

我在我的项目中使用的是带Detla版本0.8.0的<；spark.version>；3.0.2<；/spark.version>；。并与一起运行 export SPARK_HOME=/pkg/spark-3.0.2-bin-hadoop2.7-hive1.2 $SPARK_HOME/bin/spark-submit --master yarn --deploy-mode ..

发布时间：2022-04-11 16:04:40 apache-spark databricks hadoop2 delta-lake 其他开发

将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark DataFrame数据库时，json文件中的重复列引发错误

问题陈述：升级数据库运行时版本时，创建数据帧时出现重复列引发错误。在较低的运行时中，将创建数据帧，并且由于下游不需要重复列，因此在SELECT中简单地将其排除。文件位置：存储在ADLS Gen2(Azure)上的JSON文件。集群模式：标准代码：我们在Azure数据库中阅读了它，如下所示。 intermediate_df = spark.read.option("multil ..

发布时间：2022-04-11 15:26:55 json apache-spark pyspark databricks delta-lake 其他开发

如何将内联数据集(增量)的参数化链接服务的参数传递到数据流？

我在数据流中有一个增量数据源。为了连接到它，我需要使用参数化的链接服务；但是，我找不到哪里可以为链接的服务参数值寻址：参数在下面的屏幕截图中突出显示：在数据流中，我看不到任何提示来解决我的参数值：谢谢：) 推荐答案当您创建Delta Lake链接服务时，它会显示为您没有提供参数！以下是我认为有意义的：Delta格式仅作为内联数据集可用。因为Delta La ..

发布时间：2022-04-04 18:23:48 dataframe azure-data-factory dataflow delta-lake 其他开发

电光为什么在三角洲湖表中写空

我的Java应用程序使用连接到套接字服务器的Spark Structured Streaming不断获取封装在RDMessage对象中的传感器测量记录(IoT)，该对象记录协议中用于控制的消息类型。当消息到达时，将使用Encoder measurementEncoder = Encoders.bean(RDMeasurement.class)检查它们并将其转换为数据 ..

发布时间：2022-03-01 18:16:14 java scala bigdata spark-structured-streaming delta-lake Java开发

如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?

我正在尝试在带有 pyspark 的 Zeppelin 笔记本中使用 Delta Lake，但似乎无法成功导入模块.例如 %pyspark从 delta.tables 导入 * 失败并出现以下错误: ModuleNotFoundError: 没有名为“delta"的模块但是，使用delta格式保存/读取数据帧是没有问题的.如果使用scala spark %spark 可以成功加 ..

发布时间：2021-11-14 23:53:12 pyspark apache-zeppelin delta-lake 其他开发

是否可以删除底层镶木地板文件而不会对 DeltaLake _delta_log 产生负面影响

在 DeltaLake 表上使用 .vacuum() 非常慢(参见 Delta Lake (OSS) 表在 EMR 和 S3 上 - 真空需要很长时间没有工作). 如果我手动删除了底层的 parquet 文件并且没有添加新的 json 日志文件或添加新的 .checkpoint.parquet 文件并更改 _delta_log/_last_checkpoint 指向它的文件；如果有的话，对 ..

发布时间：2021-11-14 23:13:27 apache-spark pyspark apache-spark-sql delta-lake 其他开发

如何将 Parquet 转换为 Spark Delta Lake?

我试图将一组镶木地板文件转换为 delta 格式就地.我尝试使用 Databricks 文档中提到的 CONVERT 命令.https://docs.databricks.com/spark/latest/spark-sql/language-manual/convert-to-delta.html 转换为 DELTA parquet.'path/to/table' 我使用的是 Spa ..

发布时间：2021-11-14 22:53:59 apache-spark pyspark-sql delta-lake 其他开发

所以我试图使用 delta Lake write df_concat.write.format("delta").mode("overwrite").save("file") 它给了我这个错误 : java.lang.NoClassDefFoundError: org/apache/spark/sql/connector/catalog/TableProvider和 deltalake 文档 ..

发布时间：2021-11-14 22:49:22 apache-spark pyspark apache-spark-sql delta-lake 其他开发

如何从 Databricks Delta 表中删除一列?

我最近开始发现 Databricks 并面临需要删除增量表的某个列的情况.当我使用 PostgreSQL 时，它就像一样简单 ALTER TABLE main.metrics_table删除列度量_1；我正在浏览 Databricks 文档在 DELETE 上，但它仅涵盖删除与谓词匹配的行. 我还找到了关于 DROP 数据库、DROP 函数和 DROP 表的文档，但绝对没有关于如何 ..

发布时间：2021-11-14 22:38:23 sql apache-spark apache-spark-sql databricks delta-lake 其他开发

从Kafka主题读取文件路径，然后在结构化流中读取文件并写入DeltaLake

我有一个用例，其中存储在 s3 中的 json 记录的文件路径作为 kafka卡夫卡中的消息.我必须使用 Spark 结构化流处理数据. 我想到的设计如下: 在 kafka Spark 结构化流中，读取包含数据路径的消息. 在驱动程序中收集消息记录.(消息很小) 从数据位置创建数据框. kafkaDf.select($"value".cast(StringType)).wri ..

发布时间：2021-11-12 01:49:10 apache-spark apache-kafka spark-structured-streaming delta-lake 其他开发

在大量分区上处理 upsert 不够快

问题我们在 ADLS Gen2 之上有一个 Delta Lake 设置，其中包含下表: bronze.DeviceData:按到达日期划分(Partition_Date) silver.DeviceData:按事件日期和时间分区(Partition_Date 和 Partition_Hour) 我们从事件中心摄取大量数据(每天超过 6 亿条记录)到 bronze.Device ..

发布时间：2021-07-15 20:35:22 scala apache-spark databricks delta-lake azure-data-lake-gen2 其他开发

如何将 Parquet 转换为 Spark Delta Lake?

我试图将一组镶木地板文件转换为 delta 格式就地.我尝试使用 Databricks 文档中提到的 CONVERT 命令.https://docs.databricks.com/spark/latest/spark-sql/language-manual/convert-to-delta.html 转换为 DELTA parquet.'path/to/table' 我使用的是 Spa ..

发布时间：2021-06-25 18:37:47 apache-spark pyspark-sql delta-lake 其他开发

三角洲湖泊-在pyspark中插入sql失败，并出现java.lang.NoSuchMethodError:org.apache.spark.sql.catalyst.expressions.Alias

Dataproc集群是使用带有io包 io.delta:delta-core_2.12:0.7.0 的图像 2.0.x 创建的 Spark版本为3.1.1 Spark shell以开头: pyspark --conf"spark.sql.extensions = io.delta.sql.DeltaSparkSessionExtension"；\--conf spark.sql.ca ..

发布时间：2021-05-12 19:20:51 apache-spark pyspark google-cloud-dataproc delta-lake 其他开发

即使不满足条件，Delta Lake MERGE/UPDATE也会重写数据

我正在尝试减少不必要的数据写入，仅在特定条件下写入三角洲.为什么这些语句总是重写数据? ％sql合并到tblTest作为目标将temp_Source用作源ON target.ID = source.ID匹配时且1 = 0然后更新集* 或这个 deltaTable.alias("target").merge(source = dfSource.alias("source")，条件= exp ..

发布时间：2021-04-28 20:43:55 sql databricks delta-lake 其他开发

三角洲湖回滚

需要一种优雅的方式将Delta Lake回滚到以前的版本. 下面列出了我目前的方法: import io.delta.tables._val deltaTable = DeltaTable.forPath(spark，testFolder)spark.read.format("delta").option("versionAsOf"，0).load(testFolder).写.mode( ..

发布时间：2021-04-28 20:43:49 apache-spark rollback databricks delta-lake 其他开发

使用自动加载器从AWS S3加载到Azure Datalake时的增量表事务保证

尝试使用自动加载器，其中AWS S3是源，而Delta Lake在Azure Datalake Gen中.当我尝试读取文件时，出现以下错误从非AWS写入AWS上的Delta表在提供交易担保方面是不安全的.如果可以保证没有其他人会同时修改同一个Delta表，则可以通过设置SparkConf来关闭此检查:启动集群时为false. 尝试在集群级别设置设置，并且工作正常.我的问题是，有什么方 ..

发布时间：2021-04-13 20:25:26 amazon-s3 databricks azure-databricks azure-data-lake delta-lake 其他开发

我收到错误消息“无法将Delta表的时间旅行到版本X".而查看Azure Databricks的历史记录时可以看到版本X

我在三角洲湖中有一张桌子，这些桌子具有以下tblproperties: 但是当我尝试使用这样的命令访问它时: spark.read.format("delta").option("versionAsOf"，322).load(path) 我收到此错误: AnalysisException:无法将Delta表的时间计时到版本322.可用版本:[330，341]. 我不明白这个问 ..

发布时间：2021-04-13 19:01:00 azure databricks azure-databricks delta-lake 其他开发

可以删除基础实木复合地板文件而不会对DeltaLake _delta_log产生负面影响

在DeltaLake表上使用 .vacuum()非常慢(请参阅 Delta Lake(OSS)表在EMR和S3上-真空需要很长时间，没有任何工作). 如果我手动删除了底层实木复合地板文件，并且未添加新的 json 日志文件或未添加新的 .checkpoint.parquet 文件并更改了 _delta_log/_last_checkpoint 指向它的文件；如果有的话，对DeltaLake表 ..

发布时间：2021-04-08 20:30:35 apache-spark pyspark apache-spark-sql delta-lake 其他开发

如何每隔5分钟获取最近1小时的数据而不进行分组?

如何每5分钟触发一次并获取最近1个小时的数据?我想出了这一点，但似乎并没有给我最后1个小时的所有记录.我的理由是: 读取流，根据时间戳列过滤最近1小时的数据，并且使用 forEachbatch 进行写入/打印.还有为它添加水印，以免保留所有过去的数据. 火花.readStream.format("delta").table("xxx").withWatermark( ..

发布时间：2021-04-08 20:27:47 apache-spark-sql spark-streaming spark-structured-streaming delta-lake 其他开发

delta-lake相关内容

写入增量表时检测到架构不匹配-Azure数据库

NoSuchMethodError：org.apache.hadoop.conf.Configuration.reloadExistingConfigurations()V

将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark DataFrame数据库时，json文件中的重复列引发错误

如何将内联数据集(增量)的参数化链接服务的参数传递到数据流？

电光为什么在三角洲湖表中写空

如何在 Zeppelin notebook 和 pyspark 中导入 Delta Lake 模块?

是否可以删除底层镶木地板文件而不会对 DeltaLake _delta_log 产生负面影响

如何将 Parquet 转换为 Spark Delta Lake?

spark2.xx 是否支持 delta 湖

如何从 Databricks Delta 表中删除一列?

从Kafka主题读取文件路径，然后在结构化流中读取文件并写入DeltaLake

在大量分区上处理 upsert 不够快

如何将 Parquet 转换为 Spark Delta Lake?

三角洲湖泊-在pyspark中插入sql失败，并出现java.lang.NoSuchMethodError:org.apache.spark.sql.catalyst.expressions.Alias

即使不满足条件，Delta Lake MERGE/UPDATE也会重写数据

三角洲湖回滚

使用自动加载器从AWS S3加载到Azure Datalake时的增量表事务保证

我收到错误消息“无法将Delta表的时间旅行到版本X".而查看Azure Databricks的历史记录时可以看到版本X

可以删除基础实木复合地板文件而不会对DeltaLake _delta_log产生负面影响

如何每隔5分钟获取最近1小时的数据而不进行分组?