unsupervised-learning相关内容
据我所知,Python中没有针对Rand Index的软件包,而对于调整后的Rand Index,您可以选择使用sklearn.metrics.adjusted_rand_score(labels_true, labels_pred)。 我为Rand Score编写了代码,我将把它作为帖子的答案与其他人分享。 推荐答案 from scipy.misc import comb from
..
我正在使用 卷积神经网络(无监督特征学习来检测特征 + Softmax 回归分类器)进行图像分类.我已经阅读了 Andrew NG 在这方面的所有教程.(http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial). 我开发的网络有一个: 输入层 - 大小 8x8(64 个神经元) 隐藏层 - 大小为 400 个神经元 输出层 -
..
我有大量矩阵形式的数据.我已经在 MATLAB R2013a 中使用 k 均值聚类对其进行了聚类.我想要形成的每个簇的质心的确切坐标..是否可以使用任何公式或其他任何东西? 我想找出每个簇的质心,这样每当有新数据到达矩阵时,我就可以计算它与每个质心的距离,从而找出新数据所属的簇 我的数据本质上是异构的.所以,很难找出每个集群的数据的平均值.所以,我正在尝试编写一些代码来自动打印质心位置
..
我们可以使用以下 YAML 文件(以及 pylearn2/scripts/train.py)在 pylearn2 中训练自动编码器 !obj:pylearn2.train.Train {数据集:&train !obj:pylearn2.datasets.mnist.MNIST {which_set: '火车',开始:0,停止:50000},模型:!obj:pylearn2.models.auto
..
我正在使用卷积神经网络(无监督特征学习来检测特征 + Softmax 回归分类器)进行图像分类.我已经阅读了 Andrew NG 在这方面的所有教程.(http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial). 我开发的网络有一个: 输入层 - 大小为 8x8(64 个神经元) 隐藏层 - 大小为 400 个神经元 输出层 -
..
在人工智能和机器学习方面,有监督学习和无监督学习有什么区别?你能用一个例子提供一个基本的、简单的解释吗? 解决方案 既然你问了这个非常基本的问题,那么看起来值得说明机器学习本身是什么. 机器学习是一类数据驱动的算法,即与“普通"算法不同的是,数据“告诉"了“好的答案"是什么.示例:用于图像中人脸检测的假设非机器学习算法将尝试定义人脸是什么(圆形皮肤颜色的圆盘,在您期望眼睛的地方有暗区
..
我正在尝试使用levenshtein距离使用kmeans聚类.我很难插拔结果. # courtesy: code is borrowed from the other thread listed below with some additions of k-means clustering set.seed(1) rstr
..
我正在尝试创建使用分层聚类聚类对文档进行聚类的程序,该程序的输出取决于将树状图切割到我获得最大纯度的水平。 下面是我现在正在使用的算法。 为数据集中$ b $中的文档创建数据图b纯度= 0 final_clusters 在树状图 簇中的所有水平lvl =切割树状图在lvl new_purity =计算_purity_of(clusters) 如果new_purity> ;
..
我正在scikit learning中使用标签传播进行半监督分类。我有7个维度的17,000个数据点。我无法在此数据集上使用它。它引发了一个numpy的大数组错误。但是,当我处理相对较小的数据集(例如200点)时,它工作正常。谁能建议修复? label_prop_model.fit(np.array(data),labels) File“ / usr / lib / pymodules
..
我们可以使用下面的YAML文件(以及pylearn2/scripts/train.py)在pylearn2中训练自动编码器 !obj:pylearn2.train.Train { dataset: &train !obj:pylearn2.datasets.mnist.MNIST { which_set: 'train', start: 0,
..
给出一个包含混合变量(即分类变量和连续变量)的数据框,例如 digits = 0:9 # set seed for reproducibility set.seed(17) # function to create random string createRandString
..
我想设计一个深层网络,在其顶部具有一个(或多个)卷积层(CNN)和一个或多个完全连接的隐藏层. 对于具有完全连接层的深度网络,theano中提供了无监督预训练的方法,例如,使用去噪自动编码器或 RBM . 我的问题是:我如何在卷积层中实现无人值守的预训练阶段(在theano中)? 我不希望得到完整的实施方案,但是希望获得指向优秀教程或可靠参考的链接. 解决方案 本文描述了一种
..
我们如何使用Weka计算群集的准确性? 我可以使用以下公式: Accuracy (A) = (tp+tn)/Total # samples 但是在Weka工具的实验输出中,我怎么知道什么是真阳性,假阳性,真阴性和假阴性? 解决方案 Weka中有几种不同的集群模式: 使用训练集(默认)::聚类后,Weka将训练实例分类为它开发的聚类,并计算每个聚类中的实例所占的百分比.
..
我需要在不预先知道群集数量的情况下执行群集.群集的数量可能是1到5,因为我可能会发现所有样本都属于同一实例或属于有限数量的组的情况. 我认为亲和力传播可能是我的选择,因为我可以通过设置首选项参数来控制群集的数量. 但是,如果我人工生成一个群集,并且将节点之间的最小欧几里德距离设置为优先级(以最小化群集数),那么群集会变得很糟糕. """ ===========================
..
我已经基于EM(期望最大化算法)在Python中构建了NLTK朴素贝叶斯的半监督版本.但是,在EM的某些迭代中,我得到的对数可能性为负(EM的对数可能性在每次迭代中都必须为正),因此我认为我的代码中肯定有一些错误.仔细检查我的代码后,我不知道为什么会这样.如果有人在下面的代码中发现任何错误,将不胜感激: (半监督朴素贝叶斯的参考资料) EM算法主循环 #initial assum
..
假设我有10个单独的观测值,每个观测值的大小分别为(125,59).我想基于它们的2d特征矩阵((125,59))将这10个观测值分组.是否可以在不将每个观测值展平为125 * 59 1D矩阵的情况下进行?我什至不能实现PCA或LDA来进行特征提取,因为数据是高度可变的.请注意,我正在尝试通过自组织图或神经网络来实现聚类.深度学习和神经网络与所提出的问题完全相关. 解决方案 当然可以.
..
就人工智能和机器学习而言,有监督和无监督学习有什么区别? 您能否通过示例提供基本,简单的说明? 解决方案 由于您问了一个非常基本的问题,因此似乎值得指定机器学习本身. 机器学习是一类由数据驱动的算法,即与“普通"算法不同的是,数据“说明"了“好答案".示例:一种用于图像中人脸检测的假想非机器学习算法将尝试定义人脸(皮肤圆形的彩色圆盘,期望眼睛的区域较暗,等等).机器学习算法将没有这样
..
谁能解释prcomp和princomp函数之间的主要区别是什么? 我是否应该选择一个理由而不是另一个理由?如果这是相关的,我正在研究的应用程序类型是对基因组(表达)数据集的质量控制分析. 谢谢! 解决方案 这两个函数w/r/t有区别 功能参数(在调用 功能); 每个 返回的值;和 每个人用来计算本金的数字技术 组件. 用于计算PCA的数值技术 尤其是pri
..
我有大量的矩阵形式的数据.我已经使用MATLAB R2013a中的k-means聚类对其进行了聚类.我想要形成的每个簇的质心的精确坐标.是否可以使用任何公式或其他方法? 我想找出每个聚类的质心,以便每当一些新数据到达矩阵时,我就可以计算出它与每个质心的距离,从而找出新数据将属于的聚类 我的数据本质上是异构的.因此,很难找到每个群集的平均数据.因此,我正在尝试编写一些代码以自动打印质心位
..
我的生成器总是从我的数据集中随机产生两个图像,然后我使用这两个样本来计算损失.假设我设置了steps_per_epoch=40和epochs=5,如果设置了steps_per_epoch=5和epochs=40(我在优化程序中使用Adam)有什么区别? 解决方案 epochs参数(也称为迭代)是指整个训练数据的通过次数. steps_per_epoch参数是指一个时期内生成的批处理数.因此
..