数据库引发.Readstream格式差异 [英] Databricks spark.readstream format differences

查看：12 发布时间：2022/4/11 15:18:35 apache-spark databricks spark-structured-streaming

本文介绍了数据库引发.Readstream格式差异的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

我对Databricks中以下代码的差异感到困惑

spark.readStream.format('json')

spark.readStream.format('cloudfiles').option('cloudFiles.format', 'json')

我知道CloudFiles，因为它的格式将被视为Databricks Autoloader。在性能/功能比较中，哪一个更好？有谁有这方面的经验吗？

谢谢

这两者之间有多个差异。当您使用Auto Loader时，您至少可以获得更多内容(参见doc for all details)：

Better performance, scalability and cost efficiency when discovering new files。您可以使用文件通知模式(当您收到有关使用云本地集成的新文件的通知时)或使用本地云API列出文件和目录的优化文件列表模式。Spark的文件流传输依赖于速度慢得多的Hadoop API，特别是在有很多嵌套目录和文件的情况下
Support for schema inference and evolution。使用自动加载器，您可以检测JSON/CSV/Avro架构中的更改，并对其进行调整以处理新字段。

这篇关于数据库引发.Readstream格式差异的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文