data-mining 第14页 - IT屋-程序员软件开发技术分享社区

相似矩阵 - ＆GT;特征向量算法？

如果我们有一组的M个字，并且知道每个单词对的含义提前的相似度（具有相似的A M×M矩阵），该算法可以我们使用使一个k维位向量对于每个字，以使每对词可以只是通过比较其矢量比较（例如得到向量的绝对差）？我不知道这方面的问题是如何调用。如果我知道，这将是更容易找到之间的一堆类似的描述，它做别的事情的算法。其他观察：我觉得这个算法将有无，以生产一，在这种情况下想，副作用。如果，从矩阵，A字类似 ..

发布时间：2015-11-30 20:52:50 algorithm vector machine-learning data-mining similarity AI人工智能

找到一个簇的中心

我有以下问题 - 作出抽象带出的关键问题我有10个点，每个从其他一些距离。我想能够找到群集即点的量彼此点成对的距离被最小化的中心，设p（J）〜P（k）的再present高炮点J和K成对的距离 P（I）是中心点群集当且仅当P（I）的圣分[之和（p（j）条〜P（k））的]所有0℃ J，K＆LT; = n，其中我们在集群中有n个点确定如何分割群集中两个群集一次数据点的集群的数量必须高于某 ..

发布时间：2015-11-30 20:34:49 algorithm cluster-analysis data-mining AI人工智能

据我DBSCAN的理解，它可能为你指定的，比如说一个小量，100米， - 因为DBSCAN考虑的密度可达和不可以直接密度可达的发现群集时 - 结束了一个集群中任意两点之间的最大距离> 100米。在更极端的可能性，似乎有可能，你可以设置为100米小量，最终以1公里集群：参见[2] [6]在该数组中的图像从scikit学习获得的一个例子时可能发生的。（我更愿意被告知我是一个总的白痴，我误解DBS ..

发布时间：2015-11-30 20:27:39 python algorithm cluster-analysis data-mining dbscan AI人工智能

可以K-均值聚类做分类？

我想知道K-均值聚类算法是否可以做分类？如果我做了一个简单的K-均值聚类。假设我有很多数据，我用的k-means聚类，再得2集A，B。和质心计算方法是欧氏距离。集A在左侧。集群右侧的B面。所以，如果我有一个新的数据。我该怎么办？运行K-均值再次聚类算法，并能得到哪些集群新的联合国数据属于哪一种？记录的最后一个质心，用欧氏距离来计算，以决定新的数据属于哪一种？ ..

发布时间：2015-11-30 20:27:19 algorithm cluster-analysis data-mining k-means AI人工智能

最简单的特征选择算法

我想创建自己的简单特征选择算法。该数据集，我要一起工作是这里（非常著名的数据集）。有人可以给我如何做到这一点的指针？我打算写一个特点排名算法的文本分类。这是电影审查的情感分析，将之列为无论是积极的还是消极的。所以我的问题是关于如何编写一个文本数据集的简单特征选择。解决方案特征选择方法是一个很大的话题。你可以用下面的启动：卡方互信息词频等。阅读本文，如果你有时间 ..

发布时间：2015-11-30 20:20:42 algorithm data machine-learning data-mining semantic-analysis AI人工智能

期望最大化抛硬币的例子

我一直在自学期望最大化最近，并抓住自己在这个过程中一些简单的例子：虽然我可以得到计算，我可以不涉及他们解决了原来的电磁理论的方式。具体而言，在对两个例子中，M-步骤，我看不出他们是如何最大限度地提高任何东西。这似乎只是他们重新计算参数，并以某种方式，新参数比旧的好。此外，两个E-步骤甚至不看彼此相似，更何况原有理论的E-步骤。那么究竟如何做这些例子的工作？解决方案第二个PDF不 ..

发布时间：2015-11-30 16:29:09 algorithm machine-learning computer-science data-mining em AI人工智能

分层集群化启发式

我想探索在大型阵列中的数据项之间的关系。每个数据项重$ P $由多维向量psented。首先，我已经决定使用集群化。我感兴趣的是找到集群（组数据向量）之间的层次关系。我能计算出我的向量之间的距离。因此，在第一步中我发现的最小生成树的。从那以后，我需要组数据向量按照我的生成树链接。但在这一步，我感到不安 - 如何在不同的载体结合成分层聚类我使用的是启发式：？如果两个向量的联系，它们之间的距离非常小 ..

发布时间：2015-11-30 16:24:02 algorithm graph cluster-analysis data-mining hierarchical-clustering AI人工智能

频繁项集和放大器;关联规则 - Apriori算法

我想了解的先验（篮）算法的基本原理进行数据挖掘，使用它是最好的，我解释了并发症我遇到一个例子：下面是事务性的数据集： T1：牛奶，鸡肉，啤酒 T2：鸡肉，奶酪 T3：奶酪，靴子 T4：奶酪，鸡肉，啤酒 T5：鸡，啤酒，服装，奶酪，牛奶 T6：服装，啤酒，牛奶 T7：啤酒，牛奶，衣服在最小支持度的上面是0.5或50％。考虑从上面，我的交易数量显然是7 ，意为一个项集是“频 ..

发布时间：2015-11-30 16:21:01 algorithm data-mining apriori AI人工智能

期望最大化算法的数字例子

谁能提供EM算法的一个简单的数字例子，因为我不知道给出的公式？一个非常简单的有4个或5个笛卡尔坐标会完全做到。解决方案你看这个：我也写在（编辑）一个简单的例子R A年前，不幸的是我无法找到它。我会稍后再试找到它。编辑：这是 - EM＆LT; - 函数（） { ###读取文件，获取必要的COLS 数据文件＆LT; - read.csv（“wine.csv”，头= ..

发布时间：2015-11-30 16:13:37 algorithm machine-learning data-mining AI人工智能

我如何才能找到数据点集群的中心？

比方说，我每天都绘制直升机的位置，在过去的一年，并提出了如下图：任何人看，这将能够告诉我，这架直升机是出自芝加哥的。我如何能找到相同的结果code？我在寻找这样的事情： $ GEO $ C $ =的cArray阵列（[GET = HTTP：//pastebin.com/grVsbgL9]）; 功能findHome（$ GEO $ C $的cArray）{ // 魔法 ..

发布时间：2015-11-30 15:52:41 algorithm geocoding cluster-analysis data-mining markerclusterer AI人工智能

mlpy - 动态时间规整主要依靠X？

我想获得由大田下面显示这两个数组之间的距离。我使用Python mlpy 软件包，提供了 DIST，成本，路径= mlpy.dtw_std（Y1，Y2，dist_only = FALSE）据我所知，大田确实照顾了“转移”的。此外，如可以从上面所看到的，在 mlpy.dtw_std（）只需要在2 1-D阵列。所以我希望，不管我怎么左/右移我的曲线，在 DIST 返回的功能应该不会改 ..

发布时间：2015-11-30 15:35:51 python algorithm machine-learning pattern-matching data-mining AI人工智能

轨迹集群：哪种聚类方法？

作为机器学习一个新手，我有一组轨迹，可能是不同长度的。我想集群他们，因为他们中的一些是其实是相同的路径，然后他们只是 SEEM不同由于噪声。此外，不可以所有这些都是在相同的长度。因此，也许虽然轨迹A是不一样的轨迹B，但它的的一部分轨迹B.我想为 present这个属性集群后也是如此。我有的只有一点点知识的K-means聚类和模糊的N-均值聚类。如何我可以选择它们两者之间？或者我应该采取其 ..

发布时间：2015-11-30 15:06:30 algorithm machine-learning cluster-analysis data-mining AI人工智能

有没有好的办法做到这一点类型的挖掘？

我试图找到最接近在X和Y方向（在最后给定的样本数据集）的空间，我想看看是否有更聪明的办法比我微不足道的（和未经测试）的方法来做到这点。这些点在空间中的情节看起来像下面这样，我试图找到套标志着内部的箱点，即我要找的输出是一组集：第1组：（1,23），（2,23），（3,23）... 第2组：（68200），（68201），（68203），（68204），（68100），（68101），（6810 ..

发布时间：2015-11-30 14:19:52 python algorithm data-mining AI人工智能

如何处理猜数字游戏（一捻）的算法？

我学习编程（Python和算法中的），并试图做一个项目，我觉得有趣。我设计了几个基本的Python脚本，但我不知道如何着手解决一个游戏，我想建立。以下是本场比赛是如何工作的：用户，将得到一个值的项目。例如苹果= 1 梨= 2 橙子= 3 然后，他们将有机会选择他们自己喜欢（即100苹果，梨20，和1个橙子）的任何组合。计算机得到的唯一输出是总值（在这个例子中，其目前$ 143页 ..

发布时间：2015-11-30 14:15:52 java python algorithm machine-learning data-mining Java开发

如何找出如果一个句子是一个问题，（疑问）？

有一个开源的Java库/算法发现，如果一个特定的一段文字，一个问题或不？我的工作需要，如果用户的文字输入是一个问题，分析问题应答系统。我想这个问题或许可以通过使用开源NLP库，但它明显比词性标注的简单零件更复杂的解决。因此，如果有人能代替告诉算法，它利用现有的开源NLP库，这将是一件好事。也让我知道，如果你知道一个图书馆/工具包，利用数据挖掘技术来解决这个问题。虽然这将是很难得到足够的 ..

发布时间：2015-11-30 13:59:20 java algorithm nlp data-mining text-processing Java开发

如何在亚马逊的推荐功能工作？

去什么技术在亚马逊推荐技术的屏幕后面？我认为，亚马逊的建议是目前最好的市场，但他们如何为我们提供了这样的相关建议？最近，我们已经参与了类似的建议类型的项目，但一定会想知道亚马逊的推荐技术，从技术角度看，在和输出。任何投入将是非常美联社preciated。更新：这这是大卫，亲和分析形成的基础，这种类型的推荐引擎的意见。而且，这里有关于这个专题的一些好读揭秘购物篮分析购物篮分析 ..

发布时间：2015-11-30 13:30:32 algorithm language-agnostic data-mining AI人工智能

从使用Python基于AJAX的网站提取信息

我想检索基于Ajax等网站www.snapbird.org使用Python查询结果。因为它没有在网页源代码显示，我不知道如何着手。我是一个Python新手，因此这将是巨大的，如果我能得到一个指向正确的方向前进。我也开到一些其他的方法来工作，如果这是更容易解决方案可能会使用类似浏览器的一个简单的解决方案机械化。所以，你可以浏览网站，跟踪链接，让搜索和几乎一切，你可以与用户界面的浏览器做的 ..

发布时间：2015-11-29 00:54:55 python ajax data-mining AI人工智能

如何寻找最大频繁项集，从大的交易数据文件

我的输入文件包含大量的交易像事务ID项目 T1面包，牛奶，咖啡，果汁 T2果汁，牛奶，咖啡 T3面包，果汁 T4咖啡，牛奶 T5面包，牛奶 T6咖啡，面包 T7咖啡，面包，果汁 T8面包，牛奶，果汁 T9牛奶，面包，咖啡， T10面包 T11牛奶 T12牛奶，咖啡，面包，果汁我想每一个独特的项目发生像商品名称计数面包9 牛奶8 咖啡7 果汁6 和距离，我想 ..

发布时间：2015-11-27 15:56:01 c# .net sql sql-server data-mining C#/.NET

从文本的文本分类提取物标签

我有很多的文本数据的Lucene索引，每个项目都有一个说明，我想提取的描述中较常见的单词，并产生标签基础上，说明每个项目进行分类，有没有lucene.net库这样做，或任何其他库的文本分类？解决方案没有，lucene.net可以使搜索，索引，文字规范化“，发现更多这样的”funtionalty，而不是文本分类。什么建议，你要看您的需求。所以，也许更说明需要。但是，一般来说，最容易 ..

发布时间：2015-11-27 11:30:05 c# .net data-mining text-mining C#/.NET

刮C＃和HTMLAgility网页

我已阅读，HTMLAgility 1.4是一个很好的解决方案，以刮的网页。作为一个新的程序员，我希望我能得到这个项目的一些投入。我做的这是一个C＃应用程序的形式。我有工作的页面是相当简单的。我需要的信息被套牢仅有2标签之间。我的目标是拉动数据对部分民，马努 - 号，说明，马努国，上次修改，上次修改通过了网页和数据发送到SQL表。一个转折是，也有一个小PNG PIC卡还需要从SRC抓起=“/一部 ..

发布时间：2015-11-24 22:51:43 c# .net database data-mining web-scraping C#/.NET

data-mining相关内容