火花流中的ML模型更新 [英] ML model update in spark streaming

查看:18
本文介绍了火花流中的ML模型更新的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我已经通过Spark批处理作业在HDFS中持久化了机器学习模型,我正在使用它。基本上,ML模型是从Spark驱动程序向所有执行器广播的。 有人能建议我如何在不停止Spark流作业的情况下实时更新模型吗?基本上,当有更多的数据点可用时,将创建一个新的ML模型,但不知道如何将新模型发送给Spark Executor。 请求发布一些示例代码。

问候, Deepak。

推荐答案

最好的方法可能是updating the model on each batch。由于您可能不希望更新太频繁,因此您可能希望check if you actually need to load the model and skip that if possible

如果您的模型存储在HDFS上,则在更新保存加载的模型的变量的值之前,您只需检查模型文件(或目录中存在的新模型)上的新时间戳。

这篇关于火花流中的ML模型更新的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆