machine-learning相关内容

10倍交叉验证

在k重,我们有这样的: 你将数据分成k个子集 (大致)相同的大小。你训练网络k次,每次离开 一颗颗从训练的子集,但仅使用省略子集 无论计算误差标准感兴趣的内容。如果k等于样本 大小,这就是所谓的“留一法”交叉验证。 “离开-V-OUT”是 更精细,更昂贵的版本交叉验证的,涉及 离开了诉案件的所有可能的子集。 这个词的培训和考试是什么意思?我不明白。 请你告诉我一些参考,我可以学习这个算法的例子 ..
发布时间:2015-11-30 16:04:17 AI人工智能

国际象棋统计方法?

阅读有关谷歌如何解决让我思考翻译问题。是否可以通过分析数百万的游戏,并确定主要是基于(完全?)统计最好的移动建立一个强大的国际象棋引擎?有几个这样的国际象棋数据库(这是一个拥有450万的游戏),以及一个可能权衡使用因素相同(或镜像或反射)的位置移动,如玩家所涉及的收视率,怎么老游戏(在提高国际象棋理论因子)等任何原因,这的不的是一个可行的方法来构建一个国际象棋引擎? 解决方案 这样的事情已经完 ..
发布时间:2015-11-30 16:03:05 AI人工智能

候选消除算法

考虑下面的训练数据集。 又大又红,圆,无 小,红色,三角形,无 小,红色,圆形,是 大,蓝色,圆形,无 小蓝,圈子是 我想了解的算法是如何进行时,它开始于一个反面的例子,当两个负例子走到了一起。 这是在路上没有一个分配的问题。 与其他数据集的例子也欢迎!这是了解该算法的负部分 解决方案 有关你的假设空间(H),你开始你的套极大一般的(G)和最大特定的(S)的假设: G1 ..
发布时间:2015-11-30 16:02:30 AI人工智能

Weka中的PCA的时间太长运行

我想用PCA算法使用weka的特征选择。 我的原始特征空间包含〜9000属性,2700年的样本。 我尝试使用下面的code,以减少数据的维度: AttributeSelection选择=新AttributeSelection(); PrincipalComponents PCA =新PrincipalComponents(); 分级器分级器=新RANKER(); selector.setE ..
发布时间:2015-11-30 15:58:09 Java开发

无监督的自动标注算法?

我想建立一个Web应用程序,可以让用户上传的文件的视频的图片的音乐的,然后给他们一个寻找它们的能力。把它看成是的的Dropbox 的+语义搜索。 当用户上传一个新的文件,例如 Document1.docx ,我怎么会自动生成基于文件的内容标签?换句话说没有用户输入是需要的确定的文件的内容。如果假设的 Document1.docx 是一家集科研论文数据挖掘,那么当为的数据挖掘或研究论文或文档1 的 ..
发布时间:2015-11-30 15:56:24 AI人工智能

我该如何接近"您是不是要找&QUOT?;不使用谷歌?

我知道这个问题的重复的: 如何在谷歌“你是什么意思?”算法工作? 如何实现一个“你的意思是”? ...等等。 这些问题有兴趣的算法如何实际工作。我的问题是更喜欢:假设谷歌不存在或可能这个功能是不存在的,我们没有用户输入。一个人如何去实现这个算法的近似版本? 为什么这很有趣? 确定。试着输入“ 您是不是要找: 资格的 不够公平。它采用统计机器学习从数十亿用户做这样收集的数据。但现在尝 ..
发布时间:2015-11-30 15:54:58 AI人工智能

帮助了解交叉验证和决策树

我已经读了决策树和交叉验证,我理解这两个概念。但是,我无法理解交叉验证,因为它涉及到决策树。从本质上讲交叉验证,您可以训练和测试之间切换,当你的数据集是比较小的,以最大限度地提高您的错误估计。一个很简单的算法是这样的: 在决定褶皱的数量,你想要的(K) 在细分数据集分成k折叠 使用K-1折的训练集构建一个树。 使用测试设置来估算约在树中的错误统计。 保存结果,以便以后 在重复步骤3-6 k次留下 ..
发布时间:2015-11-30 15:54:01 AI人工智能

教程,自然语言处理

我最近参加了一个类上 coursera 有关“自然语言处理”,我学到了很多东西有关分析,IR和其他有趣的方面,像Q&安培; A等。虽然我掌握的概念很好,但我实际上并没有得到任何的实用知识。任何人都可以建议我良好的网上教程或书籍,自然语言处理? 感谢 解决方案 您可以阅读Jurafsky和马丁的语音和语言处理( 2008年版),这是该领域的标准教科书。它的长,并有各种主题的,所以我建议你阅读这 ..

一个线性问题和非线性问题之间差?点积和核技巧的精华

内核特技映射非线性问题转化为线性问题。 我的问题是: 是1.什么线性和非线性问题的主要区别?这是这两个类问题的差异后面的直觉?而如何核技巧可以帮助使用线性分类的非线性问题? 2.为什么是积在两种情况下如此重要? 感谢。 解决方案 很多分类,其中线性支持向量机(SVM)时,只能解决线性可分的问题,即其中属于1类的点可以从属类别2由一个超平面的点来分离。 在许多情况下,这样的问题是不是线 ..

谁能推荐一个很好的教程条件随机场

我一直在试图找到条件随机场的一个很好的教程,还没有找到一个没有开始发送我的大脑崩溃。我有一个很好的把握HMM的,我得到的歧视性和生成模式之间的区别......但作为然而我一直没能找到一个资源,可以给HMM的和CRF的这对我来说很有意义的一个很好的比较。任何援助将AP preciated。 解决方案 一,我找到了最好的资源,实际上是在克里斯托弗·毕晓普的书的模式识别与机器学习的一个部分(我强烈建 ..
发布时间:2015-11-30 15:49:10 AI人工智能

检测模式在波

我想读一个心电图一个形象和检测主波的每一个在它(P波,QRS波群和T波)。现在我可以读取图像,并得到这样一个向量(4.2; 4.4; 4.9; 4.7; ......)在心电图的价值再presentative,什么是问题的一半。我需要一个算法,可以通过这个载体行走,并检测每本波的开始和结束。 下面是它的图形之一的例子: 会很容易,如果他们总是有相同的大小,但它不喜欢它的工作原理,如果我知道 ..

mlpy - 动态时间规整主要依靠X?

我想获得由大田下面显示这两个数组之间的距离。 我使用Python mlpy 软件包,提供了 DIST,成本,路径= mlpy.dtw_std(Y1,Y2,dist_only = FALSE) 据我所知,大田确实照顾了“转移”的。此外,如可以从上面所看到的,在 mlpy.dtw_std()只需要在2 1-D阵列。所以我希望,不管我怎么左/右移我的曲线,在 DIST 返回的功能应该不会改 ..

寻找一个C ++实现的C4.5算法

我一直在寻找一个C ++实现的 C4.5算法的,但我一直没能找到一个还没有。我发现昆兰的 C4.5版本8 ,但它是用C写的......也有人看到任何打开来源C ++的C4.5算法的实现? 我在想移植的 J48源$ C ​​$ C (或简单地写周围的C版本的包装),如果我不能找到一个开源C ++实现在那里,但我希望我没有做到这一点!请让我知道如果你遇到一个C ++实现的算法。 更新 我一直在考 ..
发布时间:2015-11-30 15:12:56 AI人工智能

轨迹集群:哪种聚类方法?

作为机器学习一个新手,我有一组轨迹,可能是不同长度的。我想集群他们,因为他们中的一些是其实是相同的路径,然后他们只是 SEEM不同由于噪声。 此外,不可以所有这些都是在相同的长度。因此,也许虽然轨迹A是不一样的轨迹B,但它的的一部分轨迹B.我想为 present这个属性集群后也是如此。 我有的只有一点点知识的K-means聚类和模糊的N-均值聚类。 如何我可以选择它们两者之间?或者我应该采取其 ..

确定两个班是否线性可分(算法在2D)

有两种类型,我们姑且称之为X和O.一些属于这些级别有s $ P $垫在xy平面元素。下面是一个例子,其中两个类是不是线性可分。它是不可能得出的直线完全分割两个X和该Os上线的每一侧。 如何确定,在一般情况下,这两个类是否线性可分?。我感兴趣的是在没有假设是有关元素或它们的发行数量的算法。的算法的最低的计算复杂度的当然是preferred。 解决方案 如果您发现该凸包都 X 点和 0 点分 ..
发布时间:2015-11-30 14:58:52 AI人工智能

我可以使用任意的度量标准搜索KD树?

我刚刚完成实施 kd树做快速近邻搜索。我感兴趣的是比href="http://en.wikipedia.org/wiki/Euclidean_distance" rel="nofollow">欧氏距离的 我有两个问题: 是否使用 kd树永久地把我绑到的欧氏距离? 如果是这样,还有什么其他种类的算法,我应该尝试的任意 解决方案 您挂绝对可以推广到其他距离度量维基百科的页面上所描述的最近邻搜索 ..

"字谜解算器"根据统计数据,而不是一本字典/表?

我的问题是概念上类似于解决字谜,但我不能只用一本字典查找。我试图找到合理的话,而不是真实的话。 我已经创建了一个N-gram模型(目前,N = 2)的基础上一堆文本的信件。现在,由于字母随机序列,我想根据转移概率重排它们成为最可能的序列。我以为我会需要 Viterbi算法当我开始这一点,但我看的更深一些,维特比算法优化基于所述观察到的输出隐藏随机变量的序列。我想,优化输出序列。 有一个著名的算 ..

最佳性能关键算法求解近邻

我们具有的x,y对的列表。每对重presents在二维空间中的点。我想找到从这个名单的最近点,以一个特定的点XQ,YQ。什么是这个问题的最佳性能关键算法?点Lisp是不会改变的;这意味着我并不需要执行的插入和删除。我只想找到一个目标XQ的近邻,YQ点在此设。 编辑1:感谢所有!由于Stephan202已经猜中,我想重复做;像的功能。一个列表不一定排序(其实我不明白怎么能进行排序?像表2列和y的主 ..

究竟怎样的k-means ++的工作?

我无法完全理解的K均值++算法。我有兴趣究竟如何前k重心采摘(剩下的就像是在原有的K均值)。 是所使用的概率函数基于距离或高斯? 在同一时间最长远点(从另一个形心)被拾取为新的质心。 我会AP preciate一步步的解释和一个例子。一个在维基百科不够清晰。另外一个很好的注释的源$ C ​​$ C也会有所帮助。如果您使用的是6阵列,那么请告诉我们,哪一个是为了什么。 解决方案 有趣的问题。 ..