使用Java中的Mallet折叠(估计新文档的主题)在LDA中 [英] Folding in (estimating topics for new documents) in LDA using Mallet in Java

查看:115
本文介绍了使用Java中的Mallet折叠(估计新文档的主题)在LDA中的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在使用Mallet通过Java,我无法弄清楚如何根据我训练过的现有主题模型评估新文档。

I'm using Mallet through Java, and I can't work out how to evaluate new documents against an existing topic model which I have trained.

我的初始生成我的模型的代码与 Mallett开发人员主题建模指南,之后我只是将模型保存为Java对象。在稍后的过程中,我从文件重新加载该Java对象,通过 .addInstances()添加新实例,然后根据在该文件中找到的主题仅评估这些新实例。原始训练集。

My initial code to generate my model is very similar to that in the Mallett Developers Guide for Topic Modelling, after which I simply save the model as a Java object. In a later process, I reload that Java object from file, add new instances via .addInstances() and would then like to evaluate only these new instances against the topics found in the original training set.

此统计数据。 SE线程提供了一些高级建议,但我看不出如何将它们用于Mallet框架。

This stats.SE thread provides some high-level suggestions, but I can't see how to work them into the Mallet framework.

任何帮助都非常感谢。

推荐答案

我发现答案隐藏在 slide-deck

TopicInferencer inferencer = model.getInferencer();
double[] topicProbs = inferencer.getSampledDistribution(newInstance, 100, 10, 10);

这篇关于使用Java中的Mallet折叠(估计新文档的主题)在LDA中的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆