data-mining相关内容

相似矩阵 - >特征向量算法?

如果我们有一组的M个字,并且知道每个单词对的含义提前的相似度(具有相似的A M×M矩阵),该算法可以我们使用使一个k维位向量对于每个字,以使每对词可以只是通过比较其矢量比较(例如得到向量的绝对差)? 我不知道这方面的问题是如何调用。如果我知道,这将是更容易找到之间的一堆类似的描述,它做别的事情的算法。 其他观察: 我觉得这个算法将有无,以生产一,在这种情况下想,副作用。如果,从矩阵,A字类似 ..

找到一个簇的中心

我有以下问题 - 作出抽象带出的关键问题 我有10个点,每个从其他一些距离。我想 能够找到群集即点的量彼此点成对的距离被最小化的中心, 设p(J)〜P(k)的再present高炮点J和K成对的距离 P(I)是中心点群集当且仅当P(I)的圣分[之和(p(j)条〜P(k))的]所有0℃ J,K< = n,其中我们在集群中有n个点 确定如何分割群集中两个群集一次数据点的集群的数量必须高于某 ..
发布时间:2015-11-30 20:34:49 AI人工智能

DBSCAN - 的最大簇跨度设定上限

据我DBSCAN的理解,它可能为你指定的,比如说一个小量,100米, - 因为DBSCAN考虑的密度可达和不可以 直接密度可达的发现群集时 - 结束了一个集群中任意两点之间的最大距离> 100米。在更极端的可能性,似乎有可能,你可以设置为100米小量,最终以1公里集群: 参见[2] [6]在该数组中的图像从scikit学习获得的一个例子时可能发生的。 (我更愿意被告知我是一个总的白痴,我误解DBS ..
发布时间:2015-11-30 20:27:39 AI人工智能

可以K-均值聚类做分类?

我想知道K-均值聚类算法是否可以做分类? 如果我做了一个简单的K-均值聚类。 假设我有很多数据,我用的k-means聚类,再得2集A,B。和质心计算方法是欧氏距离。 集A在左侧。 集群右侧的B面。 所以,如果我有一个新的数据。我该怎么办? 运行K-均值再次聚类算法,并能得到哪些集群新的联合国数据属于哪一种? 记录的最后一个质心,用欧氏距离​​来计算,以决定新的数据属于哪一种? ..
发布时间:2015-11-30 20:27:19 AI人工智能

最简单的特征选择算法

我想创建自己的简单特征选择算法。该数据集,我要一起工作是这里 (非常著名的数据集)。有人可以给我如何做到这一点的指针? 我打算写一个特点排名算法的文本分类。这是电影审查的情感分析,将之列为无论是积极的还是消极的。 所以我的问题是关于如何编写一个文本数据集的简单特征选择。 解决方案 特征选择方法是一个很大的话题。你可以用下面的启动: 卡方 互信息 词频 等。阅读本文,如果你有时间 ..

期望最大化抛硬币的例子

我一直在自学期望最大化最近,并抓住自己在这个过程中一些简单的例子: 虽然我可以得到计算,我可以不涉及他们解决了原来的电磁理论的方式。具体而言,在对两个例子中,M-步骤,我看不出他们是如何最大限度地提高任何东西。这似乎只是他们重新计算参数,并以某种方式,新参数比旧的好。此外,两个E-步骤甚至不看彼此相似,更何况原有理论的E-步骤。 那么究竟如何做这些例子的工作? 解决方案 第二个PDF不 ..

分层集群化启发式

我想探索在大型阵列中的数据项之间的关系。每个数据项重$ P $由多维向量psented。首先,我已经决定使用集群化。我感兴趣的是找到集群(组数据向量)之间的层次关系。我能计算出我的向量之间的距离。因此,在第一步中我发现的最小生成树的。从那以后,我需要组数据向量按照我的生成树链接。但在这一步,我感到不安 - 如何在不同的载体结合成分层聚类我使用的是启发式:? 如果两个向量的联系,它们之间的距离非常小 ..

频繁项集和放大器;关联规则 - Apriori算法

我想了解的先验(篮)算法的基本原理进行数据挖掘,使用 它是最好的,我解释了并发症我遇到一个例子: 下面是事务性的数据集: T1:牛奶,鸡肉,啤酒 T2:鸡肉,奶酪 T3:奶酪,靴子 T4:奶酪,鸡肉,啤酒 T5:鸡,啤酒,服装,奶酪,牛奶 T6:服装,啤酒,牛奶 T7:啤酒,牛奶,衣服 在最小支持度的上面是0.5或50%。 考虑从上面,我的交易数量显然是7 ,意为一个项集是“频 ..
发布时间:2015-11-30 16:21:01 AI人工智能

期望最大化算法的数字例子

谁能提供EM算法的一个简单的数字例子,因为我不知道给出的公式?一个非常简单的有4个或5个笛卡尔坐标会完全做到。 解决方案 你看这个: 我也写在(编辑)一个简单的例子R A年前,不幸的是我无法找到它。我会稍后再试找到它。 编辑:这是 - EM< - 函数() { ###读取文件,获取必要的COLS 数据文件< - read.csv(“wine.csv”,头= ..
发布时间:2015-11-30 16:13:37 AI人工智能

我如何才能找到数据点集群的中心?

比方说,我每天都绘制直升机的位置,在过去的一年,并提出了如下图: 任何人看,这将能够告诉我,这架直升机是出自芝加哥的。 我如何能找到相同的结果code? 我在寻找这样的事情: $ GEO $ C $ =的cArray阵列([GET = HTTP://pastebin.com/grVsbgL9]); 功能findHome($ GEO $ C $的cArray){ // 魔法 ..

mlpy - 动态时间规整主要依靠X?

我想获得由大田下面显示这两个数组之间的距离。 我使用Python mlpy 软件包,提供了 DIST,成本,路径= mlpy.dtw_std(Y1,Y2,dist_only = FALSE) 据我所知,大田确实照顾了“转移”的。此外,如可以从上面所看到的,在 mlpy.dtw_std()只需要在2 1-D阵列。所以我希望,不管我怎么左/右移我的曲线,在 DIST 返回的功能应该不会改 ..

轨迹集群:哪种聚类方法?

作为机器学习一个新手,我有一组轨迹,可能是不同长度的。我想集群他们,因为他们中的一些是其实是相同的路径,然后他们只是 SEEM不同由于噪声。 此外,不可以所有这些都是在相同的长度。因此,也许虽然轨迹A是不一样的轨迹B,但它的的一部分轨迹B.我想为 present这个属性集群后也是如此。 我有的只有一点点知识的K-means聚类和模糊的N-均值聚类。 如何我可以选择它们两者之间?或者我应该采取其 ..

有没有好的办法做到这一点类型的挖掘?

我试图找到最接近在X和Y方向(在最后给定的样本数据集)的空间,我想看看是否有更聪明的办法比我微不足道的(和未经测试)的方法来做到这点。这些点在空间中的情节看起来像下面这样,我试图找到套标志着内部的箱点,即我要找的输出是一组集: 第1组:(1,23),(2,23),(3,23)... 第2组:(68200),(68201),(68203),(68204),(68100),(68101),(6810 ..
发布时间:2015-11-30 14:19:52 AI人工智能

如何处理猜数字游戏(一捻)的算法?

我学习编程(Python和算法中的),并试图做一个项目,我觉得有趣。我设计了几个基本的Python脚本,但我不知道如何着手解决一个游戏,我想建立。 以下是本场比赛是如何工作的: 用户,将得到一个值的项目。例如 苹果= 1 梨= 2 橙子= 3 然后,他们将有机会选择他们自己喜欢(即100苹果,梨20,和1个橙子)的任何组合。计算机得到的唯一输出是总值(在这个例子中,其目前$ 143页 ..
发布时间:2015-11-30 14:15:52 Java开发

如何找出如果一个句子是一个问题,(疑问)?

有一个开源的Java库/算法发现,如果一个特定的一段文字,一个问题或不? 我的工作需要,如果用户的文字输入是一个问题,分析问题应答系统。 我想这个问题或许可以通过使用开源NLP库,但它明显比词性标注的简单零件更复杂的解决。因此,如果有人能代替告诉算法,它利用现有的开源NLP库,这将是一件好事。 也让我知道,如果你知道一个图书馆/工具包,利用数据挖掘技术来解决这个问题。虽然这将是很难得到足够的 ..
发布时间:2015-11-30 13:59:20 Java开发

如何在亚马逊的推荐功能工作?

去什么技术在亚马逊推荐技术的屏幕后面?我认为,亚马逊的建议是目前最好的市场,但他们如何为我们提供了这样的相关建议? 最近,我们已经参与了类似的建议类型的项目,但一定会想知道亚马逊的推荐技术,从技术角度看,在和输出。 任何投入将是非常美联社preciated。 更新: 这这是大卫,亲和分析形成的基础,这种类型的推荐引擎的意见。而且,这里有关于这个专题的一些好读 揭秘购物篮分析 购物篮分析 ..
发布时间:2015-11-30 13:30:32 AI人工智能

从使用Python基于AJAX的网站提取信息

我想检索基于Ajax等网站www.snapbird.org使用Python查询结果。因为它没有在网页源代码显示,我不知道如何着手。 我是一个Python新手,因此这将是巨大的,如果我能得到一个指向正确的方向前进。 我也开到一些其他的方法来工作,如果这是更容易 解决方案 可能会使用类似浏览器的一个简单的解决方案机械化。所以,你可以浏览网站,跟踪链接,让搜索和几乎一切,你可以与用户界面的浏览器做的 ..
发布时间:2015-11-29 00:54:55 AI人工智能

如何寻找最大频繁项集,从大的交易数据文件

我的输入文件包含大量的交易像 事务ID项目 T1面包,牛奶,咖啡,果汁 T2果汁,牛奶,咖啡 T3面包,果汁 T4咖啡,牛奶 T5面包,牛奶 T6咖啡,面包 T7咖啡,面包,果汁 T8面包,牛奶,果汁 T9牛奶,面包,咖啡, T10面包 T11牛奶 T12牛奶,咖啡,面包,果汁 我想每一个独特的项目发生像 商品名称计数 面包9 牛奶8 咖啡7 果汁6 和距离,我想 ..
发布时间:2015-11-27 15:56:01 C#/.NET

从文本的文本分类提取物标签

我有很多的文本数据的Lucene索引,每个项目都有一个说明,我想提取的描述中较常见的单词,并产生标签基础上,说明每个项目进行分类,有没有lucene.net库这样做,或任何其他库的文本分类? 解决方案 没有,l​​ucene.net可以使搜索,索引,文字规范化“,发现更多这样的”funtionalty,而不是文本分类。 什么建议,你要看您的需求。所以,也许更说明需要。 但是,一般来说,最容易 ..
发布时间:2015-11-27 11:30:05 C#/.NET

刮C#和HTMLAgility网页

我已阅读,HTMLAgility 1.4是一个很好的解决方案,以刮的网页。作为一个新的程序员,我希望我能得到这个项目的一些投入。 我做的这是一个C#应用程序的形式。我有工作的页面是相当简单的。我需要的信息被套牢仅有2标签之间 。我的目标是拉动数据对部分民,马努 - 号,说明,马努国,上次修改,上次修改通过了网页和数据发送到SQL表。一个转折是,也有一个小PNG PIC卡还需要从SRC抓起=“/一部 ..
发布时间:2015-11-24 22:51:43 C#/.NET