cluster-analysis相关内容

我们应该用K-手段++而不是K-手段?

借助 K均值++ 算法有助于在原来两个以下几点k-means算法 在原来的k-means算法具有运行超级多项式输入大小的时候最坏的情况下,当k均值++声称是为O(log k)的。 在发现可以产生一个不那么令人满意的结果对于目标函数相比,最优聚类逼近。 但那里的k-means什么缺点++?我们应该始终从现在开始使用K-意味着它呢? 解决方案 没有人声称的 K 的-means ++ 为O(LG ..
发布时间:2015-11-30 16:28:26 C/C++

集群给予成对距离与未知的簇号?

我有一组对象的 {OBJ1,OBJ2,obj3,...,objn} 。我算过所有可能对的成对距离。的距离存储在 N *ñ矩阵 M ,与自我介绍是在 obji 和 objj 的距离。然后很自然地看到 M 是一个对称矩阵。 现在我要执行无监督聚类对这些对象。经过一番搜索,我发现谱聚类可能是一个不错的选择,因为它涉及这样的pairwise-距离的情况。 不过,经过仔细阅读其描述,我觉得我的情况不适合 ..
发布时间:2015-11-30 16:24:40 AI人工智能

使用gensim隐含狄利克雷分布算法中聚类

是否有可能做聚类gensim使用LDA一组给定的输入?我该如何去做? 解决方案 LDA产生在语料库中的文档的低维重presentation。为了这种低-D再presentation,你可以申请一个聚类算法,例如: K-手段。由于各轴对应一个主题,一个简单的方法是赋予每个文档的话题其上的投影是最大的。 ..
发布时间:2015-11-30 16:24:04 Python

分层集群化启发式

我想探索在大型阵列中的数据项之间的关系。每个数据项重$ P $由多维向量psented。首先,我已经决定使用集群化。我感兴趣的是找到集群(组数据向量)之间的层次关系。我能计算出我的向量之间的距离。因此,在第一步中我发现的最小生成树的。从那以后,我需要组数据向量按照我的生成树链接。但在这一步,我感到不安 - 如何在不同的载体结合成分层聚类我使用的是启发式:? 如果两个向量的联系,它们之间的距离非常小 ..

算法 - 字符串相似性得分/哈希

有没有一种方法来计算像一串一般的“相似性得分”?在我不是比较两个字符串连接在一起,而是我得到一些数/分(散),每串可后来告诉我,两个字符串或不相似的方式。两个类似的字符串应该有类似(接近)分数/哈希值。 让我们考虑这些字符串和分数作为一个例子: 您好世界1000 世界,你好! 1010 您好地球1125 富巴3250 FooBarbar 3750 富吧! 3300 富天下! 235 ..
发布时间:2015-11-30 16:14:24 Python

其中数据聚类算法是适当的,以检测在一时间系列事件未知数量簇?

下面是我的方案。考虑一组发生在不同的地点和时间的事件 - 作为一个例子,考虑一个人高高在上风暴期间记录在一个城市的雷击。对于我的目的,闪电的瞬间,只能打到特定的位置(如高层建筑)。此外想象每个雷击都有一个唯一的ID,这样可以日后参考罢工。还有在这个城市约10万这样的位置(如你猜,这是一个比喻为我现在​​的老板是关于实际问题的敏感)。 有关第一阶段,我的输入是一组(打击ID,罢工时,罢工位置)的元 ..
发布时间:2015-11-30 16:06:41 C/C++

结构化聚类树数据

假设我们在一个半结构化的格式为一棵树给定的数据。作为一个例子,该树可以形成为一个有效的XML文档或为有效JSON文档。你可以把它想象成为一个类Lisp S-EX pression或(G)代数数据类型在Haskell或者Ocaml。 我们都获得了大量的树结构“文件”。我们的目标是群集的文献是相似。通过聚类,我们指的是一种方法,把文档分到的Ĵ的基团,使得在每个元件的样子彼此 我相信有论文在那里,它 ..

使用用L的方法更平滑的,以确定K均值群集数

有没有人尝试应用L-方法确定的k-means聚类数据集中在号码前加应用顺畅的评价指标?如果是的话,它提高了结果?或允许的下数k-装置试验和速度,因此更大的增加?其中平滑算法/方法,你用了? 在“L-法”,详见: 确定集群/段的数量在分层聚类/分割算法 ,萨尔瓦多和放大器;陈 该计算评价指标的各种不同的试验集群计数。然后,找到膝盖(发生于簇的最佳数目),两线使用线性回归拟合。一个简单的迭代过程被 ..
发布时间:2015-11-30 15:59:44 C/C++

新闻聚类

如何类似于谷歌新闻和Techmeme集群新闻项目?是否有任何众所周知的算法来实现这一目标? 鸭preciate你的帮助。 在此先感谢。 解决方案 根据内容进行聚类文本的一个相当普遍的方法是使用的主成分分析的上的字向量(n维的向量,其中每一个可能的字再presents一维和幅度在每个方向,对于每个向量,是出现次数的字在该特定文章)中,随后只是一个简单的聚类诸如K均值 ..
发布时间:2015-11-30 15:56:10 C/C++

我如何才能找到数据点集群的中心?

比方说,我每天都绘制直升机的位置,在过去的一年,并提出了如下图: 任何人看,这将能够告诉我,这架直升机是出自芝加哥的。 我如何能找到相同的结果code? 我在寻找这样的事情: $ GEO $ C $ =的cArray阵列([GET = HTTP://pastebin.com/grVsbgL9]); 功能findHome($ GEO $ C $的cArray){ // 魔法 ..

聚类算法纸男孩

我按照一定的标准需要帮助选择或创建一个聚类算法。 想象一下,你所管理的送报人。 您有一组街道地址,其中每个地理codeD。 您要群集的地址,使得每个集群被分配给送货人 递送者,或集群的数量,不固定。如果需要,我随时可以雇佣更多的人交货,或躺在它们赶走。 每个集群有关于地址的数量相同。然而,一个集群可能较少有地址,如果群集的地址是多个S $ P $垫出来。 (措辞另一种方式:其中,每个集群包含地 ..
发布时间:2015-11-30 15:49:59 C/C++

有效地把相似的数字相加

可能重复: 维数阵列集群 我有数字数组像 [1,20,300,45,5,60,10,270,3] 。什么是一个高效的算法基于接近分组这些数字相加?在这种情况下,我期望像 [1,3,5] , [20,45,60] 和 [270,300] 。 解决方案 你问的最难的是如何真正界定接近。你会期望的输出从 [5,10,15,20] ?难道是相同的分组为 [500,1000,1500,2000] ? ..
发布时间:2015-11-30 15:45:34 C/C++

获得在研发多种划分方法达成共识

我的数据: 数据= cbind(C(1,1,2,1,1,3),C(1,1,2,1,1,1),C(2, 2,1,2,1,2)) colnames(数据)=糊(“项目”,1:3) rownames(数据)=糊(“方法”,1:6) 我想这一点,与多数表决,有两个社区(他们的元素)的输出。是这样的:组别1 = {ITEM1,ITEM2} ,组2 = {项目3} 。 解决方案 此函数传递一个矩 ..
发布时间:2015-11-30 15:40:30 C/C++

如何比较集群?

我希望这可以使用Python来完成!我用相同的数据的两个集群方案,现在有来自两个群集文件。我重新格式化文件,使它们看起来是这样的: 集群0: Brucellaceae(10) 布鲁氏菌(10) 流产(1) 犬(1) CETI(1) inopinata(1) melitensis(1) 田鼠(1 ..
发布时间:2015-11-30 15:38:22 Python

k均值聚类的超过500万矢量

我已经打了一个真正的问题。我需要做一些k均值聚类500万矢量,每个约含32 COLS。 我尝试了Mahout的需要linux和我在窗口,我是从使用的是Linux操作系统和任何形式的模拟器限制。 任何人都可以提出一个k均值聚类算法,该算法可扩展高达5M的载体,可以快速收敛? 我已经测试了几个,但他们不会规模。这意味着它们是缓慢的,并采取永远完成。 感谢 解决方案 确定,那么,谁曾经想聚集大 ..
发布时间:2015-11-30 15:34:56 C/C++

关联字接近

让我们说我有一个对话的文字抄本经过一段aprox的了。 1小时。我想知道发生在靠近proximatey什么话彼此。我会用什么样的统计方法来确定什么话都聚集在一起,另一个是他们的proximatey有多近呢? 我怀疑某种聚类分析和主成分分析。 解决方案 要确定字接近,你就必须建立一个图: 每个字是一个顶点(或“节点”),和 在左,右的话是边 所以,“我喜欢狗”将有2边和3个顶点。 现在, ..
发布时间:2015-11-30 15:21:38 C/C++

轨迹集群:哪种聚类方法?

作为机器学习一个新手,我有一组轨迹,可能是不同长度的。我想集群他们,因为他们中的一些是其实是相同的路径,然后他们只是 SEEM不同由于噪声。 此外,不可以所有这些都是在相同的长度。因此,也许虽然轨迹A是不一样的轨迹B,但它的的一部分轨迹B.我想为 present这个属性集群后也是如此。 我有的只有一点点知识的K-means聚类和模糊的N-均值聚类。 如何我可以选择它们两者之间?或者我应该采取其 ..

我可以使用K-means算法的一个字符串?

我的工作我的研究RNA结构演变Python项目(psented作为一个字符串,例如重新$ P $:“(((?)))”,其中括号再present个碱基对)。该点的存在是我有一个理想的结构和演变朝着理想的结构人口。我已经实现的事情,但是我想补充一个功能,我可以在每一代获得了“数桶”,即第k最重presentative结构在人群中。 我想用K-means算法,但我不知道如何使用它的字符串。我发现 sc ..
发布时间:2015-11-30 15:05:20 Python

计算字符串的相似分数时,样本量较大的有效方法是什么?

假设你有10000电子邮件地址的列表,你想查找一些在此列表中最接近的“邻居”是 - 定义为是可疑接近其他电子邮件地址在列表中的电子邮件地址 我知道如何计算两个字符串之间的 Levenshtein距离(感谢到让我们说,我定义“可疑接近另一个电子邮件地址”为具有莱文斯坦两串得分小于N。 有没有更有效的方式来找到对的字符串,其得分比除每一个可能比较字符串列表中的其他所有可能的字符串,这个阈值吗?换句 ..