data-mining相关内容

以最高纯度切割树状图

我正在尝试创建使用分层聚类聚类对文档进行聚类的程序,该程序的输出取决于将树状图切割到我获得最大纯度的水平。 下面是我现在正在使用的算法。 为数据集中$ b $中的文档创建数据图b纯度= 0 final_clusters 在树状图 簇中的所有水平lvl =切割树状图在lvl new_purity =计算_purity_of(clusters) 如果new_purity> ; ..

围绕固定质心重整簇

聚类/分类问题: 使用k均值聚类生成这些聚类和质心: 这是具有以下特征的数据集:初始运行: > dput(sampledata) structure(list(Player = structure(1:5,.Label = c(“ A”,“ B”,“ C”, “ D”,“ E”), class =“ factor”),Metric.1 = c(0.3938961,0.2806233 ..
发布时间:2020-10-03 02:11:32 AI人工智能

计算树状图叶的排序

我有五个要点,我需要根据这些要点创建树状图。可以使用“树状图”功能来查找这些点的顺序,如下所示。但是,我不想使用树状图,因为它速度慢并且会导致大量点错误(我在这里问这个问题找到树状图的Python替代方法)。有人可以指出我如何将“链接”输出(Z)转换为“树状图(Z)[’ivl”]值。 >>来自hcluster import pdist,链接,树状图 >> import numpy >>>来 ..
发布时间:2020-10-03 02:08:37 AI人工智能

DBSCAN中的参数估计

我需要根据名词具有不同介词的分布来查找自然存在的名词类别(例如,实物,工具,时间,地点等)。我尝试使用k-means聚类,但效果不佳,效果不佳,在我要查找的类上有很多重叠(可能是由于类的非球形形状和k-means中的随机初始化) )。 我现在正在使用DBSCAN,但是在理解该聚类算法中的epsilon值和最小点值时遇到了麻烦。我可以使用随机值还是需要计算它们。谁能帮忙。特别是对于epsilo ..
发布时间:2020-10-03 02:06:16 AI人工智能

计算F度量以进行聚类

有人可以帮助我共同计算F值吗?我知道如何计算召回率和精度,但是不知道如何为给定算法计算一个F度量值。 例如,假设我的算法创建了 m 簇,但是我知道有 n 个簇用于相同的数据(由另一个基准算法创建)。 我找到了一个pdf,但是由于我得到的总价值大于1,所以它没有用。pdf的参考是 F度量说明。具体来说,我已经阅读了一些研究论文,其中作者基于F测度比较了两种算法,它们的总值介于0和1之间。 ..
发布时间:2020-10-03 02:06:08 AI人工智能

如何将DBSCAN算法应用于相似网址的分组

如何使用DBSCAN算法对相似的网址进行分组。我见过很多数据集,但是url都没有,我想采用类似类型的url并将其分组。在这里,我无法得知距离(eps),而最小点可以是要分组的URL数量。 解决方案 DBSCAN需要距离函数和检测相似物体的阈值。 因此,首先,您需要定义适当的距离函数和阈值,然后我们可以为您提供DBSCAN的帮助(但是您应该能够找到可以扩展到任意距离函数的DBSCAN实 ..
发布时间:2020-10-03 02:04:30 AI人工智能

R中DBSCAN的群集中心均值?

使用软件包 fpc 中的 dbscan 我可以得到以下输出: dbscan Pts = 322 MinPts = 20 eps = 0.005 0 1 种子0233 边界87 2 总计87235 但是我需要找到聚类中心(具有多数种子的聚类的平均值)。谁能告诉我如何进行此操作? 解决方案 只需使用您选择的集群ID索引回原始数据即可。然后,您可以轻松地对子集 ..
发布时间:2020-10-03 02:00:58 AI人工智能

hclust大小限制?

我是R的新手。我正在尝试对大约5万个项目运行hclust()。我有10列要比较和5万行数据。当我尝试分配距离矩阵时,得到:“无法分配5GB的向量”。 对此是否有大小限制?如果是这样,我该如何做一些大型的事情呢? EDIT 我最终增加了最大限制,并将机器的内存增加到8GB,这似乎已经解决了。 解决方案 经典分层聚类方法是在运行时 O(n ^ 3)和在内存中 O(n ^ 2) ..
发布时间:2020-10-03 02:00:53 AI人工智能

群集(尤其是字符串群集)如何工作?

我听说过将相似数据分组的聚类。我想知道它在String的特定情况下是如何工作的。 我有一个表,该表包含的不同单词超过100,000个。 我想识别相同的单词,但有一些区别(例如: house,house !!,hooouse,HoUse,@house,“ house “,等等... )。 需要什么来识别相似性并将每个单词分组到一个集群中?为此,更推荐使用哪种算法? 解决方案 ..
发布时间:2020-10-03 01:59:26 AI人工智能

scikit学习DBSCAN内存使用情况

更新:最后,我选择用于对大型数据集进行聚类的解决方案是以下Anony-Mousse提出的一种解决方案。也就是说,使用ELKI的DBSCAN隐式方法进行群集,而不是scikit-learn。它可以从命令行运行,并具有适当的索引编制,可以在几个小时内执行此任务。使用GUI和小型样本数据集找出您要使用的选项,然后前往城镇。值得一看。任何人,请继续阅读,以描述我的原始问题和进行一些有趣的讨论。 我有 ..

Weka上的烟雾和欠采样的组合

根据chawla等人的论文(2002年), 平衡数据的最佳性能是将欠采样与SMOTE相结合。 试图使用欠采样和SMOTE( )组合我的数据集,但我对欠采样的属性有些困惑。 在Weka中,减少多数阶层。 在Resample中有一个属性 biasToUniformClass-是否对统一类使用偏见。值为0会使类分布保持原样,值为1则确保输出数据中的类分布是均匀的。 我使用值0, ..
发布时间:2020-10-02 03:22:49 AI人工智能

数据挖掘中的“相似性"

在数据挖掘领域,是否有一个特定的子学科称为“相似性"?如果是,请问该如何处理.任何示例,链接,参考都将有所帮助. 此外,作为该领域的新手,我希望社区对于数据挖掘和人工智能之间的紧密联系提出意见.它们是同义词,是另一个的子集吗? 预先感谢您分享知识. 解决方案 在数据挖掘领域,是否有一个特定的子学科称为“相似性"? 是的.数据挖掘和机器学习中有一个特定的子领域,称为度量 ..
发布时间:2020-09-07 18:54:06 AI人工智能

Apriori算法-频繁项目集生成

我正在使用Apriori算法来识别客户的常用商品集.基于已标识的常用商品集,我想在客户将新商品添加到购物清单时向客户提示建议商品,作为常用商品集,我得到的结果如下; [1],[3],[2],[5] [2.3],[3,5],[1,3],[2,5] [2,3,5] 我的问题是,如果我仅考虑设置[2,3,5]来向客户提出建议,那我错了吗?例如,如果客户将项目3添加到他的购物清单中,我会推荐项目 ..
发布时间:2020-08-22 21:12:17 AI人工智能

如何使用R项目创建电影评分的矢量矩阵?

假设我正在使用以下电影收视率数据集: http://www.grouplens.org/node/73 它包含格式为以下格式的评分 userID :: movieID :: rating :: timestamp 鉴于此,我想在R项目中构造一个特征矩阵,其中每一行对应一个用户,每列指示该用户对电影的评价(如果有). 例如,如果数据文件包含 1::1::1::10 2::2: ..
发布时间:2020-08-06 02:45:31 AI人工智能

用R语句到单词表

我有一些句子,我想从这些句子中分离出每个单词以获得行向量.但是这些单词正在重复以与我不想使用的最大句子的行向量匹配.我想不管句子有多大,每个句子的行向量只会是单词一次. sentence ..
发布时间:2020-08-06 01:47:32 AI人工智能

Weka的主成分分析

我刚刚在训练集中计算了PCA,Weka用选择和计算新属性的方式向我返回了新属性. 现在,我想使用这些数据构建一个模型,然后在测试集上使用该模型. 您知道是否有一种方法可以根据新的属性类型自动修改测试集吗? 解决方案 您是否需要主要成分进行分析或仅将其输入分类器?如果不是,则仅使用Meta-> FilteredClassifier分类器.将过滤器设置为PrincipalComponen ..
发布时间:2020-07-31 04:10:37 AI人工智能