数据库引发.Readstream格式差异 [英] Databricks spark.readstream format differences
本文介绍了数据库引发.Readstream格式差异的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我对Databricks中以下代码的差异感到困惑
spark.readStream.format('json')
vs
spark.readStream.format('cloudfiles').option('cloudFiles.format', 'json')
我知道CloudFiles,因为它的格式将被视为Databricks Autoloader。在性能/功能比较中,哪一个更好?有谁有这方面的经验吗?
谢谢
推荐答案
这两者之间有多个差异。当您使用Auto Loader时,您至少可以获得更多内容(参见doc for all details):
- Better performance, scalability and cost efficiency when discovering new files。您可以使用文件通知模式(当您收到有关使用云本地集成的新文件的通知时)或使用本地云API列出文件和目录的优化文件列表模式。Spark的文件流传输依赖于速度慢得多的Hadoop API,特别是在有很多嵌套目录和文件的情况下
- Support for schema inference and evolution。使用自动加载器,您可以检测JSON/CSV/Avro架构中的更改,并对其进行调整以处理新字段。
这篇关于数据库引发.Readstream格式差异的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文