data-mining 第6页 - IT屋-程序员软件开发技术分享社区

以最高纯度切割树状图

我正在尝试创建使用分层聚类聚类对文档进行聚类的程序，该程序的输出取决于将树状图切割到我获得最大纯度的水平。下面是我现在正在使用的算法。为数据集中$ b $中的文档创建数据图b纯度= 0 final_clusters 在树状图簇中的所有水平lvl =切割树状图在lvl new_purity =计算_purity_of（clusters）如果new_purity> ; ..

发布时间：2020-10-03 02:19:56 data-mining cluster-analysis hierarchical-clustering unsupervised-learning AI人工智能

围绕固定质心重整簇

聚类/分类问题：使用k均值聚类生成这些聚类和质心：这是具有以下特征的数据集：初始运行： > dput（sampledata） structure（list（Player = structure（1：5，.Label = c（“ A”，“ B”，“ C”， “ D”，“ E”）， class =“ factor”），Metric.1 = c（0.3938961，0.2806233 ..

发布时间：2020-10-03 02:11:32 r classification cluster-analysis data-mining AI人工智能

计算树状图叶的排序

我有五个要点，我需要根据这些要点创建树状图。可以使用“树状图”功能来查找这些点的顺序，如下所示。但是，我不想使用树状图，因为它速度慢并且会导致大量点错误（我在这里问这个问题找到树状图的Python替代方法）。有人可以指出我如何将“链接”输出（Z）转换为“树状图（Z）[’ivl”]值。 >>来自hcluster import pdist，链接，树状图 >> import numpy >>>来 ..

发布时间：2020-10-03 02:08:37 python data-mining cluster-analysis dendrogram AI人工智能

DBSCAN中的参数估计

我需要根据名词具有不同介词的分布来查找自然存在的名词类别（例如，实物，工具，时间，地点等）。我尝试使用k-means聚类，但效果不佳，效果不佳，在我要查找的类上有很多重叠（可能是由于类的非球形形状和k-means中的随机初始化））。我现在正在使用DBSCAN，但是在理解该聚类算法中的epsilon值和最小点值时遇到了麻烦。我可以使用随机值还是需要计算它们。谁能帮忙。特别是对于epsilo ..

发布时间：2020-10-03 02:06:16 data-mining cluster-analysis dbscan AI人工智能

计算F度量以进行聚类

有人可以帮助我共同计算F值吗？我知道如何计算召回率和精度，但是不知道如何为给定算法计算一个F度量值。例如，假设我的算法创建了 m 簇，但是我知道有 n 个簇用于相同的数据（由另一个基准算法创建）。我找到了一个pdf，但是由于我得到的总价值大于1，所以它没有用。pdf的参考是 F度量说明。具体来说，我已经阅读了一些研究论文，其中作者基于F测度比较了两种算法，它们的总值介于0和1之间。 ..

发布时间：2020-10-03 02:06:08 cluster-analysis data-mining precision-recall AI人工智能

您如何在python数组中对这三个区域进行分组/集群？

所以你有一个数组 1 2 3 60 70 80 100 220 230 250 为了更好地理解：您将如何对python（v2.6）数组中的三个区域进行分组/群集，因此在这种情况下，您将获得三个包含 [1 2 3] [60 70 80 100] [220230250] 背 ..

发布时间：2020-10-03 02:05:38 python cluster-analysis data-mining pattern-recognition AI人工智能

如何将DBSCAN算法应用于相似网址的分组

如何使用DBSCAN算法对相似的网址进行分组。我见过很多数据集，但是url都没有，我想采用类似类型的url并将其分组。在这里，我无法得知距离（eps），而最小点可以是要分组的URL数量。解决方案 DBSCAN需要距离函数和检测相似物体的阈值。因此，首先，您需要定义适当的距离函数和阈值，然后我们可以为您提供DBSCAN的帮助（但是您应该能够找到可以扩展到任意距离函数的DBSCAN实 ..

发布时间：2020-10-03 02:04:30 data-mining cluster-analysis dbscan AI人工智能

python中的余弦量度出现DBSCAN错误

我正尝试使用scikit-learn库中的DBSCAN算法和余弦度量，但因错误而卡住了。代码行是 db = DBSCAN（eps = 1，min_samples = 2，metric ='cosine' ）.fit（X）其中 X 是 csr_matrix 。错误如下：度量'余弦'对算法'auto'无效，尽管文档说可以使用此度量。 ..

发布时间：2020-10-03 02:03:12 scikit-learn cluster-analysis data-mining cosine-similarity dbscan AI人工智能

为DBSCAN（R）选择eps和minpts？

很长一段时间以来，我一直在寻找这个问题的答案，所以希望有人能帮助我。我正在使用R中的fpc库中的dbscan。例如，我正在查看USArrests数据集，并在其上使用dbscan，如下所示： library（fpc） ds ..

发布时间：2020-10-03 02:01:02 r data-mining cluster-analysis dbscan AI人工智能

R中DBSCAN的群集中心均值？

使用软件包 fpc 中的 dbscan 我可以得到以下输出： dbscan Pts = 322 MinPts = 20 eps = 0.005 0 1 种子0233 边界87 2 总计87235 但是我需要找到聚类中心（具有多数种子的聚类的平均值）。谁能告诉我如何进行此操作？解决方案只需使用您选择的集群ID索引回原始数据即可。然后，您可以轻松地对子集 ..

发布时间：2020-10-03 02:00:58 r cluster-analysis data-mining dbscan AI人工智能

hclust大小限制？

我是R的新手。我正在尝试对大约5万个项目运行hclust（）。我有10列要比较和5万行数据。当我尝试分配距离矩阵时，得到：“无法分配5GB的向量”。对此是否有大小限制？如果是这样，我该如何做一些大型的事情呢？ EDIT 我最终增加了最大限制，并将机器的内存增加到8GB，这似乎已经解决了。解决方案经典分层聚类方法是在运行时 O（n ^ 3）和在内存中 O（n ^ 2） ..

发布时间：2020-10-03 02:00:53 r cluster-analysis data-mining hclust AI人工智能

群集（尤其是字符串群集）如何工作？

我听说过将相似数据分组的聚类。我想知道它在String的特定情况下是如何工作的。我有一个表，该表包含的不同单词超过100,000个。我想识别相同的单词，但有一些区别（例如： house，house !!，hooouse，HoUse，@house，“ house “，等等... ）。需要什么来识别相似性并将每个单词分组到一个集群中？为此，更推荐使用哪种算法？解决方案 ..

发布时间：2020-10-03 01:59:26 string cluster-analysis data-mining AI人工智能

scikit学习DBSCAN内存使用情况

更新：最后，我选择用于对大型数据集进行聚类的解决方案是以下Anony-Mousse提出的一种解决方案。也就是说，使用ELKI的DBSCAN隐式方法进行群集，而不是scikit-learn。它可以从命令行运行，并具有适当的索引编制，可以在几个小时内执行此任务。使用GUI和小型样本数据集找出您要使用的选项，然后前往城镇。值得一看。任何人，请继续阅读，以描述我的原始问题和进行一些有趣的讨论。我有 ..

发布时间：2020-10-03 01:56:13 python scikit-learn cluster-analysis data-mining dbscan AI人工智能

Weka上的烟雾和欠采样的组合

根据chawla等人的论文（2002年），平衡数据的最佳性能是将欠采样与SMOTE相结合。试图使用欠采样和SMOTE（）组合我的数据集，但我对欠采样的属性有些困惑。在Weka中，减少多数阶层。在Resample中有一个属性 biasToUniformClass-是否对统一类使用偏见。值为0会使类分布保持原样，值为1则确保输出数据中的类分布是均匀的。我使用值0， ..

发布时间：2020-10-02 03:22:49 dataset classification data-mining AI人工智能

数据挖掘中的“相似性"

在数据挖掘领域，是否有一个特定的子学科称为“相似性"?如果是，请问该如何处理.任何示例，链接，参考都将有所帮助. 此外，作为该领域的新手，我希望社区对于数据挖掘和人工智能之间的紧密联系提出意见.它们是同义词，是另一个的子集吗? 预先感谢您分享知识. 解决方案在数据挖掘领域，是否有一个特定的子学科称为“相似性"? 是的.数据挖掘和机器学习中有一个特定的子领域，称为度量 ..

发布时间：2020-09-07 18:54:06 artificial-intelligence data-mining similarity AI人工智能

Apriori算法-频繁项目集生成

我正在使用Apriori算法来识别客户的常用商品集.基于已标识的常用商品集，我想在客户将新商品添加到购物清单时向客户提示建议商品，作为常用商品集，我得到的结果如下； [1],[3],[2],[5] [2.3],[3,5],[1,3],[2,5] [2,3,5] 我的问题是，如果我仅考虑设置[2,3,5]来向客户提出建议，那我错了吗?例如，如果客户将项目3添加到他的购物清单中，我会推荐项目 ..

发布时间：2020-08-22 21:12:17 algorithm data-mining apriori AI人工智能

当我将矩阵转换为“交易"时，与arules包一起使用时，我所有的值都变为0

我正在尝试将apriori算法应用于二进制矩阵，但是我所有的值都返回0. 我对矩阵执行了汇总函数，以确认其具有非零值.我尝试使用以下方法强制进入交易表格: trans ..

发布时间：2020-08-06 02:48:05 r data-mining sparse-matrix AI人工智能

如何使用R项目创建电影评分的矢量矩阵?

假设我正在使用以下电影收视率数据集: http://www.grouplens.org/node/73 它包含格式为以下格式的评分 userID :: movieID :: rating :: timestamp 鉴于此，我想在R项目中构造一个特征矩阵，其中每一行对应一个用户，每列指示该用户对电影的评价(如果有). 例如，如果数据文件包含 1::1::1::10 2::2: ..

发布时间：2020-08-06 02:45:31 r data-mining sparse-matrix AI人工智能

用R语句到单词表

我有一些句子，我想从这些句子中分离出每个单词以获得行向量.但是这些单词正在重复以与我不想使用的最大句子的行向量匹配.我想不管句子有多大，每个句子的行向量只会是单词一次. sentence ..

发布时间：2020-08-06 01:47:32 r data-mining text-mining word sentencecase AI人工智能

Weka的主成分分析

我刚刚在训练集中计算了PCA，Weka用选择和计算新属性的方式向我返回了新属性. 现在，我想使用这些数据构建一个模型，然后在测试集上使用该模型. 您知道是否有一种方法可以根据新的属性类型自动修改测试集吗? 解决方案您是否需要主要成分进行分析或仅将其输入分类器?如果不是，则仅使用Meta-> FilteredClassifier分类器.将过滤器设置为PrincipalComponen ..

发布时间：2020-07-31 04:10:37 data-mining weka pca AI人工智能

data-mining相关内容