AI人工智能

KMEANS ||关于星火情感分析

我想编写基于星火情感分析程序。要做到这一点,我使用word2vec和k均值聚类。从word2Vec我有20K字/ 100维空间矢量收集,现在我想clusterize这个向量空间。当我运行默认并行实现k均值算法的工作3小时!但随机初始化的策略就好像8分钟。 我究竟做错了什么?我有MAC亲书机4核处理器和16 GB的RAM。 K〜= 4000 maxInteration为20 VAR向量:可 ..

星火数据类型猜测器UDAF

要拍这样的事情 https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java 并创建一个蜂巢UDAF创建一个返回数据类型的猜测聚合函数。 星火是否有这样的事情已经内置? 将是非常有用的新的大型数据集探索数据。将是ML也有帮助,例如决定分类VS数值变量。 你通常如何确定星火数据类型? P.S。像H ..

更换groupByKey()与reduceByKey()

这是从一个跟进的问题在这里。我想在此基础上的实施。它的伟大工程,的但的我想换成 groupByKey()与 reduceByKey() ,但我不知道如何(我现在并不担心性能)。下面是相关缩小的code: VAL数据= sc.textFile(“dense.txt”)。图( T => (t.split(“#”)(0),parseVector(t.split(“#”)(1)) ..

问题在Spark和IPython的非编码数字功能数字

我工作的事,我必须让predictions为数字数据(每月员工支出)使用非数字功能。我使用星火MLlibs 随机森林algorthim 。我有我的功能在数据帧看起来像这样的数据: _1 _2 _3 _4 0 1级男纽约纽约 1男1级旧金山加州 2级别2男纽约纽约 3男1级俄亥俄州哥伦布 4 Level3的男纽约纽约 5级别4男俄亥俄州哥伦布 6 LEVEL5女康涅狄格州斯坦福德 7女1级旧金山 ..

SPARK ML,朴素贝叶斯分类:高概率prediction一类

嗨,我使用星火ML来优化朴素贝叶斯多类分类。 我有大约300类别和我进行分类的文本文件。 训练集是平衡不够,存在为每个类别约300训练的例子。 所有看起来很好,分类正与看不见的文档可以接受precision。但我注意到,分类的新文档时,很多时候,分类概率很高分配的类别之一(prediction概率几乎等于1),而其他类别获得非常低的概率(接近零)。 可能是什么原因造成的? 我想补充一点, ..

文本分类 - 如何处理

我会尽力做描述一下我的想法。 有是存储在MS SQL数据库中的文本内容。内容每天当属流。有些人每天都要经过的内容,如果内容符合一定的标准,将其标记为验证。只有一个类别。这是不是“合法”与否。 我要的是创建基于已经验证的内容模型,将其保存并使用此模式为“pre-验证”或标记新传入的内容。也曾经在一段时间更新基于新验证的内容模型。希望我解释清楚自己 我想用星火基础上创建的模型流对数据进行分类。和 ..

象夫PFPGrowth算法的输出错误?

我使用象夫对Hadoop集群的顶部PFP增长实现最新的商业版本,以确定movielens数据频繁模式。 在previous一步我转换的数据集交易的列表作为亲民党生长算法需要的输入格式。 但是,输出我得到的是意想不到的。 例如对于项目1017只频繁模式是 1017([100,1017,50]) 我也期望像X> = 50在该行的模式([1017],X)。 我也testset一个例子 ..
发布时间:2016-05-21 15:03:57 AI人工智能

分类使用Apache Mahout的数据

我想解决一个简单的分类问题。 问题:结果 我有一组文字,我必须根据内容来分类。 使用Mahout的解决方案:结果 我明白,我必须将输入转化为一个序列文件生成模型。是的,我能做到这一点。现在,我怎么分类我的测试数据?该20News例子只测试的正确性。但是,我想这样做实际的分类。结果 我不知道我是否需要写code或利用现有的一些现有的类的测试集进行分类。 解决方案 我不喜欢插入我自己 ..
发布时间:2016-05-20 00:06:52 AI人工智能

当用户诠释多个类别的跨学科注释协议

我想找到一些注解的注释间协议。 注解诠释每个科目几大类(满分10类)。 有关如有3个注释,10类和100个科目。 我知道如何 http://en.wikipedia.org/wiki/Cohen's_kappa (两年注解)和 http://en.wikipedia.org/wiki/Fleiss% 27_kappa (超过两注解)注释间协议,但我意识到,如果用户诠释多个类别的任何主题,他们 ..
发布时间:2016-05-17 20:15:36 AI人工智能

神经网络大小动画系统

我决定用一个神经网络中去,从而创造,我有一个动画引擎的行为。神经网络发生在3 vector3s和我有充分的主体部分1欧拉角。第一的Vector3是位置,第二是它的速度,并且第三个是其角速度。欧拉角是轮换主体部是在。我有7个身体部位。这些数据类型每个人都有3浮动。 7 * 4 * 3 = 84,所以我必须为我的神经网络的输入84。的输出被映射到字符的肌肉。它们提供强度的应用到各肌肉的量,并有其中15 ..

AIML执行情况Android应用程序

我正在开发使用AIML android应用。我完全新的AIML,所以我不知道如何我在application.I发现程序-AB有用的,但仍处于任何任何麻烦人知道我怎么能做到这一点,请给我这方面的引导线实现AIML 。 随意问任何问题。 解决方案 要做到这一点,你必须使用程序Ø https://github.com/Program-O/Program-O ,你必须创建一个PHP MySQ ..
发布时间:2016-03-09 21:36:19 AI人工智能

其适用于轿厢检测,CascadeClassifier或HOGDescriptor?

我的目标是检测图像的汽车,并承认它的模型。对于汽车检测,从 http://docs.opencv.org/trunk/opencv_cheatsheet.pdf,它说: CascadeClassifier 提振分类美荷兰国际集团哈尔或LBP特征的中提琴的级联。 西服去tecting脸,面部特征和其他一些物品 没有多样化的纹理。见facedetect.cpp HOGDescriptor ..
发布时间:2015-11-30 22:44:27 AI人工智能

最小 - 最大的评价函数的游戏

我开发一款游戏(坦克游戏2D),(例如: - 的链接)AI球员。我的球员将是其他5名球员(AI也)打谁获得最多的硬币,随机出现在某个地方电网之一。(看看上面给出的图片)。玩家还可以拍摄每个另一个。和健康包也以网格某处出现随机。 因此​​,为了用最小最大树,并找出最聪明的下一步行动我必须建立一个评价函数。问题就出现在这里,我没有这样的评价function.Is有什么我应该遵循的准则或previou ..

利用HMM与Viterbi算法来纠正印刷错误

我想用HMM与Viterbi算法来纠正印刷错误,我计算出所需的概率,但是当我申请Viterbi算法我得到了很糟糕的结果,我检查线路code线,我无法找到错误 公共ForwardViterbi(字符串[]的状态,字符串[]的意见,双[] startProbability,双[,] transitionProbability,双[,] emissionProbability,双比例因子) ..