machine-learning相关内容

为什么斯坦福主题建模工具箱不生成lda-output目录?

我尝试运行github上的代码(按照1-2-3步骤),在Sarah Palin的14,500封电子邮件中确定了30个主题.作者发现的主题是此处.但是,斯坦福主题建模工具箱并未为我生成lda-output目录.它生成了lda-86a58136-30-2b1a90a6,但是此文件夹中的summary.txt仅显示主题的初始分配,而不显示最终主题.任何想法如何产生带有已发现主题的最终摘要的lda-out ..
发布时间:2020-04-30 08:39:02 AI人工智能

使用Python实现主题模型(numpy)

最近,我使用numpy在Python上实现了针对LDA主题模型的Gibbs采样,并参考了站点中的一些代码.在Gibbs抽样的每次迭代中,我们都删除一个(当前)单词,根据LDA模型推断出的后验条件概率分布对该单词抽取一个新主题,并更新单词主题计数,如下所示: for m, doc in enumerate(docs): #m: doc id for n, t in enumerate(do ..
发布时间:2020-04-30 08:38:46 AI人工智能

协作主题建模的简单Python实现?

我碰到了这两篇论文,它们结合了协作过滤(矩阵分解)和主题建模(LDA),根据用户感兴趣的帖子/文章的主题词向用户推荐相似的文章/帖子. 论文(以PDF格式)为: " 用于推荐科学文章的协作主题建模 "和 " 协作推荐GitHub存储库的主题建模 " 新算法称为协作主题回归.我希望找到一些实现此功能的python代码,但无济于事.这可能是一个长镜头,但是有人可以显示一个简单的python ..

Spark 2.1.1:如何在Spark 2.1.1中已经训练有素的LDA模型上预测看不见的文档中的主题?

我正在pyspark(spark 2.1.1)的客户评论数据集中训练一个LDA模型.现在,基于该模型,我想预测看不见的新文本中的主题. 我正在使用以下代码制作模型 from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.sql import SQLCont ..
发布时间:2020-04-30 08:38:15 AI人工智能

Python 3.6:处理MemoryError

我已经编写了用于“机器学习"任务的软件. 为此,我需要将大量数据加载到程序的RAM中(用于所需的“拟合"功能). 实际上,在口语运行中,"load_Data"函数应返回2个"ndarrays"(来自"numpy"库),其大小约为float64类型的12,000至110,000. 在运行过程中出现内存错误. 我在一个较小的数据集(2,000 x 110,000数组)上测试了该程序,它 ..
发布时间:2020-04-29 03:26:22 AI人工智能

如何为针对命名实体识别的分类器形成特征向量?

我有一组标签(不同于常规的名称,位置,对象等).就我而言,它们是特定于域的,我称它们为:实体,动作,事件.我想将它们用作提取更多命名实体的种子. 我碰到过这篇论文:Isozaki等人的“用于命名实体识别的有效支持向量分类器".尽管我喜欢使用支持向量机进行命名实体识别的想法,但我仍然坚持如何对特征向量进行编码.他们的论文就是这样说的: 例如,“总统乔治·赫伯特·布什说克林顿 是 . . ..
发布时间:2020-04-27 03:53:42 AI人工智能

自动同义词检测的方法

我目前正在研究基于神经网络的短文档分类方法,由于我使用的语料库通常为10个单词左右,因此标准的统计文档分类方法使用有限.由于这个事实,我正在尝试对培训中提供的匹配项实施某种形式的自动同义词检测.我的问题更具体地是关于解决如下情况: 说我有“涉及食物"的分类和“涉及领域"之一,数据集如下: "Eating Apples"(Food);"Eating Marbles"(Spheres); ..

通过强化学习训练神经网络

我了解前馈神经网络的基础知识,以及如何使用反向传播算法对其进行训练,但是我正在寻找一种算法,可以用来通过强化学习在线训练ANN. 例如,购物车杆向上摆动问题是我想用一个人工神经网络解决.在那种情况下,我不知道应该怎么做来控制摆,我只知道我离理想位置有多近.我需要让ANN基于奖励和惩罚来学习.因此,监督学习不是一种选择. 另一种情况是蛇游戏,反馈被延迟了,并且仅限于目标和反目标,而不是奖 ..

什么是“随机森林"中的出库错误?

什么是随机森林中的出库错误? 是在随机森林中找到正确数量的树木的最佳参数吗? 解决方案 我将尝试解释: 假设我们的训练数据集由T表示,并且假设数据集具有M个特征(或属性或变量). T = {(X1,y1), (X2,y2), ... (Xn, yn)} 和 Xi is input vector {xi1, xi2, ... xiM} yi is the label ..

有趣的NLP/机器学习风格项目-分析隐私政策

我想就分配给我的一个有趣的问题提供一些意见.任务是分析成百上千个,最后成千上万个隐私策略,并确定它们的核心特征.例如,他们获取用户的位置吗?是否与第三方共享/出售?等等. 我已经与一些人进行了交谈,阅读了很多有关隐私政策的内容,并亲自思考了一下.这是我目前的攻击计划: 首先,阅读大量隐私,找到满足特定特征的主要“线索"或指标.例如,如果成百上千的隐私策略在同一行:“我们将前往您的位置. ..

为什么将这些词视为停用词?

我没有自然语言处理方面的正式背景,我想知道NLP方面是否有人可以对此有所阐明.我在玩 NLTK 库,并且我专门研究了此程序包提供的停用词功能: 在[80]中: nltk.corpus.stopwords.words('english') 出[80]: ['i','me','my', “我自己",“我们",“我们的",“我们的", “我们自己",“您",“您的", “您的",“您自 ..

从句子中提取“有用的"信息?

我目前正在尝试理解这种形式的句子: The problem was more with the set-top box than the television. Restarting the set-top box solved the problem. 我对自然语言处理完全陌生,开始使用Python的NLTK程序包弄脏了我的手.但是,我想知道是否有人可以概述实现此目标的高级步骤. ..
发布时间:2020-04-27 03:40:37 AI人工智能

在非常大的稀疏矩阵上应用PCA

我正在用R进行文本分类任务,我得到了一个文档项矩阵,其大小为22490 x 120,000(只有400万个非零条目,少于1%的条目).现在,我想通过使用PCA(主成分分析)来降低尺寸.不幸的是,R无法处理这个庞大的矩阵,因此我将这个稀疏矩阵存储在“矩阵市场格式"的文件中,希望使用其他技术来进行PCA. 所以任何人都可以给我一些有用的库的提示(无论使用哪种编程语言),这些库可以轻松地使用这种大 ..

Matlab:如何在保留标签信息的同时将数据矩阵拆分为列向量的两个随机子集?

我有一个数据矩阵X(60x208)和一个标签矩阵Y(1x208).我想将数据矩阵X分为列向量的两个随机子集:训练(将占数据的70%)和测试(将占数据的30%),但是我仍然需要能够确定哪个Y的标签对应于每个列向量.我找不到任何执行此操作的功能,有任何想法吗? 编辑:以为我应该补充一下,Y中只有两个标签:1和2(不确定是否会有所不同) 解决方案 这很容易做到.使用 randperm 生成 ..
发布时间:2020-04-26 14:34:06 AI人工智能

使用scikit使用余弦距离学习KNeighborsClassifier

是否可以在scikit learning的KNeighborsClassifier中使用类似1的余弦值? 此回答为否,但在文档中KNeighborsClassifier,表示 DistanceMetrics 中提到的指标.距离度量标准不包括明确的余弦距离,可能是因为它并不是真正的距离,但是可以将一个函数输入到度量标准中.我尝试将scikit学习线性内核输入到KNeighborsClassif ..
发布时间:2020-04-26 11:02:16 AI人工智能

kNN:培训,测试和验证

我正在从10个类中提取图像特征,每个类具有1000张图像.由于我可以提取50个特征,因此我正在考虑找到最佳的特征组合以在此处使用.培训,验证和测试集划分如下: Training set = 70% Validation set = 15% Test set = 15% 我在验证集上使用正向特征选择来找到最佳特征组合,最后使用测试集检查总体准确性.有人可以告诉我我做对了吗? 解决方案 ..