data-mining相关内容
我正在尝试创建使用分层聚类聚类对文档进行聚类的程序,该程序的输出取决于将树状图切割到我获得最大纯度的水平。 下面是我现在正在使用的算法。 为数据集中$ b $中的文档创建数据图b纯度= 0 final_clusters 在树状图 簇中的所有水平lvl =切割树状图在lvl new_purity =计算_purity_of(clusters) 如果new_purity> ;
..
聚类/分类问题: 使用k均值聚类生成这些聚类和质心: 这是具有以下特征的数据集:初始运行: > dput(sampledata) structure(list(Player = structure(1:5,.Label = c(“ A”,“ B”,“ C”, “ D”,“ E”), class =“ factor”),Metric.1 = c(0.3938961,0.2806233
..
我有五个要点,我需要根据这些要点创建树状图。可以使用“树状图”功能来查找这些点的顺序,如下所示。但是,我不想使用树状图,因为它速度慢并且会导致大量点错误(我在这里问这个问题找到树状图的Python替代方法)。有人可以指出我如何将“链接”输出(Z)转换为“树状图(Z)[’ivl”]值。 >>来自hcluster import pdist,链接,树状图 >> import numpy >>>来
..
我需要根据名词具有不同介词的分布来查找自然存在的名词类别(例如,实物,工具,时间,地点等)。我尝试使用k-means聚类,但效果不佳,效果不佳,在我要查找的类上有很多重叠(可能是由于类的非球形形状和k-means中的随机初始化) )。 我现在正在使用DBSCAN,但是在理解该聚类算法中的epsilon值和最小点值时遇到了麻烦。我可以使用随机值还是需要计算它们。谁能帮忙。特别是对于epsilo
..
有人可以帮助我共同计算F值吗?我知道如何计算召回率和精度,但是不知道如何为给定算法计算一个F度量值。 例如,假设我的算法创建了 m 簇,但是我知道有 n 个簇用于相同的数据(由另一个基准算法创建)。 我找到了一个pdf,但是由于我得到的总价值大于1,所以它没有用。pdf的参考是 F度量说明。具体来说,我已经阅读了一些研究论文,其中作者基于F测度比较了两种算法,它们的总值介于0和1之间。
..
所以你有一个数组 1 2 3 60 70 80 100 220 230 250 为了更好地理解: 您将如何对python(v2.6)数组中的三个区域进行分组/群集,因此在这种情况下,您将获得三个包含 [1 2 3] [60 70 80 100] [220230250] 背
..
如何使用DBSCAN算法对相似的网址进行分组。我见过很多数据集,但是url都没有,我想采用类似类型的url并将其分组。在这里,我无法得知距离(eps),而最小点可以是要分组的URL数量。 解决方案 DBSCAN需要距离函数和检测相似物体的阈值。 因此,首先,您需要定义适当的距离函数和阈值,然后我们可以为您提供DBSCAN的帮助(但是您应该能够找到可以扩展到任意距离函数的DBSCAN实
..
我正尝试使用scikit-learn库中的DBSCAN算法和余弦度量,但因错误而卡住了。 代码行是 db = DBSCAN(eps = 1,min_samples = 2,metric ='cosine' ).fit(X) 其中 X 是 csr_matrix 。错误如下: 度量'余弦'对算法'auto'无效, 尽管文档说可以使用此度量。
..
很长一段时间以来,我一直在寻找这个问题的答案,所以希望有人能帮助我。我正在使用R中的fpc库中的dbscan。例如,我正在查看USArrests数据集,并在其上使用dbscan,如下所示: library(fpc) ds
..
使用软件包 fpc 中的 dbscan 我可以得到以下输出: dbscan Pts = 322 MinPts = 20 eps = 0.005 0 1 种子0233 边界87 2 总计87235 但是我需要找到聚类中心(具有多数种子的聚类的平均值)。谁能告诉我如何进行此操作? 解决方案 只需使用您选择的集群ID索引回原始数据即可。然后,您可以轻松地对子集
..
我是R的新手。我正在尝试对大约5万个项目运行hclust()。我有10列要比较和5万行数据。当我尝试分配距离矩阵时,得到:“无法分配5GB的向量”。 对此是否有大小限制?如果是这样,我该如何做一些大型的事情呢? EDIT 我最终增加了最大限制,并将机器的内存增加到8GB,这似乎已经解决了。 解决方案 经典分层聚类方法是在运行时 O(n ^ 3)和在内存中 O(n ^ 2)
..
我听说过将相似数据分组的聚类。我想知道它在String的特定情况下是如何工作的。 我有一个表,该表包含的不同单词超过100,000个。 我想识别相同的单词,但有一些区别(例如: house,house !!,hooouse,HoUse,@house,“ house “,等等... )。 需要什么来识别相似性并将每个单词分组到一个集群中?为此,更推荐使用哪种算法? 解决方案
..
更新:最后,我选择用于对大型数据集进行聚类的解决方案是以下Anony-Mousse提出的一种解决方案。也就是说,使用ELKI的DBSCAN隐式方法进行群集,而不是scikit-learn。它可以从命令行运行,并具有适当的索引编制,可以在几个小时内执行此任务。使用GUI和小型样本数据集找出您要使用的选项,然后前往城镇。值得一看。任何人,请继续阅读,以描述我的原始问题和进行一些有趣的讨论。 我有
..
根据chawla等人的论文(2002年), 平衡数据的最佳性能是将欠采样与SMOTE相结合。 试图使用欠采样和SMOTE( )组合我的数据集,但我对欠采样的属性有些困惑。 在Weka中,减少多数阶层。 在Resample中有一个属性 biasToUniformClass-是否对统一类使用偏见。值为0会使类分布保持原样,值为1则确保输出数据中的类分布是均匀的。 我使用值0,
..
在数据挖掘领域,是否有一个特定的子学科称为“相似性"?如果是,请问该如何处理.任何示例,链接,参考都将有所帮助. 此外,作为该领域的新手,我希望社区对于数据挖掘和人工智能之间的紧密联系提出意见.它们是同义词,是另一个的子集吗? 预先感谢您分享知识. 解决方案 在数据挖掘领域,是否有一个特定的子学科称为“相似性"? 是的.数据挖掘和机器学习中有一个特定的子领域,称为度量
..
我正在使用Apriori算法来识别客户的常用商品集.基于已标识的常用商品集,我想在客户将新商品添加到购物清单时向客户提示建议商品,作为常用商品集,我得到的结果如下; [1],[3],[2],[5] [2.3],[3,5],[1,3],[2,5] [2,3,5] 我的问题是,如果我仅考虑设置[2,3,5]来向客户提出建议,那我错了吗?例如,如果客户将项目3添加到他的购物清单中,我会推荐项目
..
我正在尝试将apriori算法应用于二进制矩阵,但是我所有的值都返回0. 我对矩阵执行了汇总函数,以确认其具有非零值.我尝试使用以下方法强制进入交易表格: trans
..
假设我正在使用以下电影收视率数据集: http://www.grouplens.org/node/73 它包含格式为以下格式的评分 userID :: movieID :: rating :: timestamp 鉴于此,我想在R项目中构造一个特征矩阵,其中每一行对应一个用户,每列指示该用户对电影的评价(如果有). 例如,如果数据文件包含 1::1::1::10 2::2:
..
我有一些句子,我想从这些句子中分离出每个单词以获得行向量.但是这些单词正在重复以与我不想使用的最大句子的行向量匹配.我想不管句子有多大,每个句子的行向量只会是单词一次. sentence
..
我刚刚在训练集中计算了PCA,Weka用选择和计算新属性的方式向我返回了新属性. 现在,我想使用这些数据构建一个模型,然后在测试集上使用该模型. 您知道是否有一种方法可以根据新的属性类型自动修改测试集吗? 解决方案 您是否需要主要成分进行分析或仅将其输入分类器?如果不是,则仅使用Meta-> FilteredClassifier分类器.将过滤器设置为PrincipalComponen
..