使用Doc2vec后如何解释Clusters结果? [英] How to intrepret Clusters results after using Doc2vec?

查看:104
本文介绍了使用Doc2vec后如何解释Clusters结果?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在使用doc2vec转换矢量表示形式中我的关注者的前100条推文(例如v1 ..... v100)。之后,我使用矢量表示法来做K均值聚类。

I am using doc2vec to convert the top 100 tweets of my followers in vector representation (say v1.....v100). After that I am using the vector representation to do the K-Means clusters.

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

我可以看到群集0由某些值控制(例如v10,v12,v23 ,....)。我的问题是这些v10,v12 ...等代表什么。我可以推断出这些特定的列将文档的特定关键字聚类。

I can see that cluster 0 is dominated by some values (say v10, v12, v23, ....). My question is what does these v10, v12 ... etc represents. Can I deduce that these specific column clusters specific keywords of document.

推荐答案

不要使用单个变量。由于对这些嵌入的训练方式,应该只对它们进行一起分析。

Don't use the individual variables. They should be only analyzed together because of the way these embeddings are trained.

对于初学者来说,找到


  1. 与质心最相似的文档向量,可以看到典型的簇成员

  2. 从嵌入最典型的术语向量到描述簇的典型单词

  3. 记下距离,看看自己的健康状况如何。

这篇关于使用Doc2vec后如何解释Clusters结果?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆