在聚类数据集上训练模型,并将其与未标记/非聚集数据集一起使用 [英] Train a model over clustered dataset and use it with an non-labeled/non-clustered dataset

查看:99
本文介绍了在聚类数据集上训练模型,并将其与未标记/非聚集数据集一起使用的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

男士,

   我有一个标记的数据集,其中标签是在其余列上进行的计算的结果。我正在寻找的是拥有一个基于最初聚类数据集的训练模型,以便与非聚集的
数据一起使用。

   I have a dataset that is labeled where the label is the result of calculations conducted over the remainder of the columns. What I am looking for is to have a trained model based on the initially clustered dataset to be reused with non-clustered data.

示例:

具有预定义逻辑的现有聚簇数据(参见末尾的索引)

Existing clustered data with pre-defined logic (see index at the end)

拥有经过训练的模型之后,我想能够导入一个没有训练模型的数据集拥有机器必须复制的最后一列与训练模型相同的簇(我有数百个数据集,每个数据集都有数百万行)

After having a trained model, I wanna be able to import a dataset that does not have the last column where the machine will have to replicate the same clusters as the trained model (I have hundreds of datasets with each having millions of rows)

有什么建议吗?

谢谢

Oussama

推荐答案

您好,

我认为您应该使用
评估模型
,其中培训数据或测试数据用于评估模型。这些数据可以使用
来分割
Partition and Sample
模型。您可以查看这些
示例  ;
使用类似的方法并实现相同的方法。

I think you should use Evaluate Model, where the training data or testing data to evaluate the model. This data can be split using Partition and Sample model. You can take a look at these examples which use similar methods and implement the same.





这篇关于在聚类数据集上训练模型,并将其与未标记/非聚集数据集一起使用的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆