缺失值和偏差的排名算法 [英] Ranking algorithm with missing values and bias

查看:106
本文介绍了缺失值和偏差的排名算法的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问题是:

一组5个独立用户,需要对给他们的50种产品进行评分.用户可能会在某个时间点使用全部50种产品.一些用户对某些产品有更大的偏见.一位用户没有真正完成调查,而是给出了随机值.用户不必对所有产品进行评分.现在给出4个样本数据集,根据评分对产品进行排名

A set of 5 independent users where asked to rate 50 products given to them. All 50 products would have been used by the users in some point of time. Some users have more bias towards certain products. One user did not truly complete the survey and gave random values. It is not necessary for the users to rate all the products. Now given a 4 sample dataset , rank the products based on ratings

datset :
product #user1 #user2 #user3 #user4 #user5
 0        29    -        10   90     12 
 1         -    -         -    -      7
 2         -    -        95    6      1
 3         -    -         -    -      2
 4         -    -         -    -     50
 5         -    35       21    13     -
 6         -     -        -     -     5
 7         4     -        -    30     -
 8        11     -        -     -    14  
 .
 .
 .

如何对产品进行排名.

这是一个改版的问题,非常接近原始问题.

This is a remodeled problem very close to the original problem.

解决方案: 我试图使用PCA清理数据并填充缺失值并应用NMF,但是我不确定该解决方案.

Solution: I tried to clean the data and fill missing values using PCA and apply NMF but i'm not sure about the solution .

任何帮助将深表感谢

推荐答案

在这种情况下,可以使用两种插补方法:

In this case, two imputation methods can be used:

  • 就像每个人都会一开始尝试的那样,用最可能的值即平均均值填充.
  • 根据其他属性进行预测,这称为回归插补.

实际上,我认为对于该数据集(用户大多对一种产品进行排名)而言,第二种方法似乎更好.

Actually, I think the second method seems better for this dataset where users mostly rank more than one product.

此外,如果您还有其他数据集(取决于用户),也可以将其用于预测该数据集中的缺失值.

Also, if you have another datasets depending on users, you may use it too for prediction of the missing values in this dataset.

这篇关于缺失值和偏差的排名算法的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆