topic-modeling相关内容
我有一个数据库,里面有1998至2008年间报纸上有关水资源政策的文章。我想看看这段时间报纸的发布情况是如何变化的。我的问题是,我应该使用动态主题建模还是主题随时间推移模型来处理这项任务?它们是否会明显好于传统的LDA模型(在LDA模型中,我基于整个文本语料库来拟合主题模型,并根据每个文档的标记方式绘制主题的趋势图)?如果是,是否有可以在R中用于DTA/TOT型号的包? 推荐答案 所以
..
我已经运行我的代码来加载由PICKLE保存的变量。这是我的代码 import pickle last_priors_file = open('simpanan/priors', 'rb') priors = pickle.load(last_priors_file) 我得到的错误如下:AttributeError: Can't get attribute 'Wishart' on
..
我想知道一致性分数为0.4是好是坏?我使用LDA作为主题建模算法。 此上下文中的平均一致性分数是多少? 推荐答案 连贯性度量主题内单词之间的相对距离。有两种主要的C_V类型,通常是0<;x<;1和UMass14<;x<;14。除非被测量的词是相同的单词或二元语法,否则很少看到连贯性为1或+.9。就像United和States可能会返回~.94的连贯性分数,或者HE
..
我一直无法从 topicmodels 的 LDA 函数中创建可重现的结果.以他们的文档为例: 库(主题模型)设置种子(0)lda1 如何从对 LDA 的两次单独调用中获得相同的结果? 顺便说一句(以防软件包作者在这里),我发现 control=list(seed=0) 片段很不幸且不必要.在幕后,有一行表示 if (missing(seed)) seed .这不会使过程更可靠地随机,它
..
使用 gensim 我能够从 LSA 中的一组文档中提取主题,但如何访问从 LDA 模型生成的主题? 打印 lda.print_topics(10) 时,代码给出以下错误,因为 print_topics() 返回 NoneType: 回溯(最近一次调用最后一次): 中的文件“/home/alvas/workspace/XLINGTOP/xlingtop.py",第 93 行对于 lda.p
..
我正在使用 python gensim 从 231 个句子的小语料库中训练潜在狄利克雷分配 (LDA) 模型.然而,每次我重复这个过程时,它都会产生不同的主题. 为什么相同的LDA参数和语料每次都会生成不同的主题? 我该如何稳定话题生成? 我正在使用这个语料库(http://pastebin.com/WptkKVF0)和这个停用词列表(http://pastebin.com/LL
..
我对使用 Spark MLlib 应用 LDA 主题建模感兴趣.我已经检查了 here 但我找不到如何使用该模型然后在一个新的看不见的文档中找到主题分布. 解决方案 从 Spark 1.5 开始,此功能尚未为 DistributedLDAModel 实现.您需要做的是使用 toLocal 方法将模型转换为 LocalLDAModel,然后调用 topicDistributions(docu
..
我对使用 Spark MLlib 应用 LDA 主题建模感兴趣.我已经检查了 here 但我找不到如何使用该模型然后在一个新的看不见的文档中找到主题分布. 解决方案 从 Spark 1.5 开始,此功能尚未为 DistributedLDAModel 实现.您需要做的是使用 toLocal 方法将模型转换为 LocalLDAModel,然后调用 topicDistributions(docu
..
这是使用 R text2vec 包进行 LDA 主题建模的代码: 库(text2vec)token = docs$text %>% # docs$text:文本文档的集合word_tokenizerit = itoken(令牌,ids = docs$id,progressbar = FALSE)v = create_vocabulary(it) %>%prune_vocabulary(term_
..
在 R 中安装 topicmodels 包时出现错误. 在运行 install.packages("topicmodels",dependencies=TRUE) 以下是我得到的最后几行.请帮忙.我的 R 版本是 3.1.3. g++ -I/usr/share/R/include -DNDEBUG -fpic -g -O2 -fstack-protector --param=ssp-buf
..
因此,我正在尝试将 topicmodels 包用于 R(大约 6400 个文档的语料库中的 100 个主题,每个文档大约 1000 个字).该进程运行然后死亡,我认为是因为它的内存不足. 所以我尝试缩小 lda() 函数作为输入的文档术语矩阵的大小;我想我可以在生成文档术语矩阵时使用 minDocFreq 函数来做到这一点.但是当我使用它时,它似乎没有任何区别.这是一些代码: 这是相关
..
我有一组文件: documents = c("她早餐吃了吐司",“今天早上的咖啡很棒",“午餐让我们都吃煎饼",“后天,会有更多的谈话",“第一天的谈话很棒",“第二天也应该有很好的演讲") 在这组文档中,我想删除停用词.我已经删除了标点符号并转换为小写,使用: documents = tolower(documents) #使其小写文档 = gsub('[[:punct:]]', '',
..
我正在尝试对跨越 2 个世纪的政治演讲数据集进行主题建模,并且理想情况下希望使用考虑时间的主题模型,例如随时间推移的主题(McCallum 和 Wang 2006)或 Dynamic主题模型(Blei 和 Lafferty 2006). 然而,鉴于我不是一个有经验的编码员,R 包或一些实现这些主题模型中的任何一个的示例代码的帮助真的会有所帮助. 有谁知道 R 是否存在此类包或已发布的代
..
我正在尝试理解潜在狄利克雷分配(LDA)的技术部分,但是我心中有几个问题: 首先:为什么每次采样下面的方程式时都需要添加alpha和gamma?如果我们从等式中删除alpha和gamma怎么办?是否还有可能得到结果? 后验推理被联合概率推理所取代,至少在Gibbs抽样中,您需要联合概率,同时选择一个维来“转变状态",就像Metropolis-Hasting范例所做的那样.您在此处输入的
..
我不理解lda.collapsed.gibbs.sampler命令的输出内容.我不明白的是为什么同一个单词在不同主题中的编号不同?例如,为什么在主题8中有37个主题时,第二个主题中有4个单词用于“测试".不同主题中相同单词的数量不应该是相同的整数还是0? 还是我误解了一些,这些数字不代表主题中的单词数? $ topicstests-loc失败测试testmultisendcookiege
..
我使用 scikit-learn LDA 生成LDA模型,然后获得主题词.我想知道如何获得每个文档的每个主题的概率? 解决方案 在拟合模型后,使用 LatentDirichletAllocation 类的 transform 方法.它将返回文档主题分布. 如果您使用
..
我正在寻找一些适用于大型数据集的主题建模工具. 我当前用于训练的数据集为30 GB.我尝试了 MALLET主题建模,但总是遇到OutOfMemoryError. 如果您有任何提示,请告诉我. 解决方案 您可以使用许多选项,并且此响应与它们的比较方式不可知. 我认为具有如此大数据集的重要事情是所使用的近似后验推断方法,而不一定是软件实现.根据本文所述,在线变分贝叶斯推理效率
..
我正在使用一种非英语的语言,并且我已经从不同来源收集了数据.我已经完成了标点删除,停用词删除和标记化之类的预处理.现在我想提取特定领域的词典.假设我拥有与体育,娱乐等相关的数据,并且我想提取与这些特定领域(例如板球等)相关的单词,并将其放在紧密相关的主题中.我尝试为此使用lda,但没有获得正确的群集.同样,在一个单词是一个主题的一部分的群集中,它也出现在其他主题中. 如何改善搜索结果? #
..
我已经阅读了LDA,并且了解了当人们输入一组文档时如何生成主题的数学方法. 参考文献说LDA是一种算法,给定一个文档集合,仅此而已(无需监督),就可以发现该集合中文档表示的“主题".因此,通过使用LDA算法和Gibbs采样器(或变分贝叶斯),我可以输入一组文档,并且可以输出主题.每个主题都是一组具有指定概率的术语. 我不明白的是,如果以上都是对的,那么为什么许多主题建模教程都讨论将数据
..
我尝试使用gensim生成300000条记录的主题.在尝试使主题形象化时,出现验证错误.我可以在模型训练后打印主题,但是使用pyLDAvis失败 #在文档术语矩阵上运行和训练LDA模型.ldamodel1 = Lda(doc_term_matrix1,num_topics = 10,id2word = dictionary1,passs = 50,workers = 4)(ldamodel1.p
..