data-mining相关内容

数据挖掘开源软件替代品

我正在评估数据挖掘程序包. 到目前为止,我发现了这两个: RapidMiner Weka 您是否有经验可以与这两种产品分享,或者有其他产品可以推荐给我? 谢谢 解决方案 根据每年的KDnuggets民意调查2007、2008和2009,RapidMiner是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案: KDnuggets数据挖掘工具调查2009 RapidMiner是 ..
发布时间:2020-05-21 02:00:43 AI人工智能

数据挖掘开源工具

我打算承担一个涉及数据挖掘的项目.在开始学习之前,我想探究各种数据挖掘工具(最好是开源的),这些工具可以进行基于Web的报告.在我的情况下,数据将提供给我,因此我不应该对其进行爬网. 简而言之,我正在寻找一种工具,它可以做-数据分析,基于Web的报告,提供某种仪表板和挖掘功能. 我曾经在Microsoft Analysis Services和BOXI上工作,最近我一直在研究Pentah ..
发布时间:2020-05-21 01:58:32 AI人工智能

数据挖掘术语“成熟"?

请告诉我们什么是“成熟的KI"?据我了解,它是用于文本分析的数据挖掘的一部分.我对吗?一些有趣且有用的链接会很好! 谢谢! 解决方案 通过“完全成熟",他可能表示“完全成熟",定义为 充分发展或成熟 具有全职或地位 来源:thefreedictionary.com 不确定KI,但可能意味着: http://en.wikipedia.org/wiki/Know ..
发布时间:2020-05-18 01:07:38 AI人工智能

从文本中提取关系

我想以(SUBJECT,OBJECT,ACTION)关系的形式从非结构化文本中提取关系, 例如, “男孩正坐在桌子上吃鸡肉" 会给我, (男孩,鸡,吃) (男孩,桌子,位置) 等. 尽管python程序+ NLTK可以处理上述简单的句子. 我想知道你们中的任何人是否使用过工具或库,最好是开源的,以从更广泛的领域(例如大量的文本文档或网络)中提取关系. ..
发布时间:2020-05-18 00:49:23 AI人工智能

字节vs字符vs单词-n克的粒度是多少?

可以考虑至少三种类型的n-gram用于表示文本文档: 字节级n-gram 字符级n-gram 单词级n-gram 对于我来说,目前尚不清楚应将哪个任务用于给定任务(聚类,分类等).我在某处读到,当文本包含拼写错误时,字符级n-gram优于单词级n-gram,因此“玛丽爱犬"仍然类似于“玛丽lpves狗". 在选择“正确的"表示形式时还需要考虑其他条件吗? 解决方案 评 ..
发布时间:2020-05-18 00:40:06 AI人工智能

用PHP进行文本挖掘

我正在为我正在上的大学班做一个项目. 我正在使用PHP构建一个简单的Web应用程序,该应用程序基于一组字典将推文分类为“正"(或快乐)和“负"(或悲伤).我现在正在考虑的算法是朴素贝叶斯分类器或决策树. 但是,我找不到任何可以帮助我进行认真的语言处理的PHP库. Python具有NLTK( http://www.nltk.org ). PHP有类似的东西吗? 我正计划将WEKA用 ..
发布时间:2020-05-18 00:36:13 PHP

在python中集成多个字典(大数据)

我正在从事大数据挖掘的研究项目.我已经写了当前将组织的数据整理成字典的代码.但是,数据量如此之大,以至于在形成字典时,我的计算机内存不足.我需要定期将字典写入主存储器并以这种方式创建多个字典.然后,我需要比较生成的多个词典,相应地更新键和值,并将整个内容存储在磁盘上的一个大词典中.知道我如何在python中做到这一点吗?我需要一个可以将字典快速写入磁盘然后比较2个字典和更新密钥的api.实际上,我 ..
发布时间:2020-05-08 19:54:08 AI人工智能

基于带有R的变量创建聚合列

如果这是一个菜鸟问题,我向高级致歉,但我在论坛中查看了 却找不到搜索我正在尝试做的事情的方法. 我有一个训练集,我试图找到一种方法来减少分类变量的级别数 (在下面的示例中,类别是状态).我想将状态映射到水平的平均值或比率. 输入数据框后,我的训练集将如下所示: state class mean 1 CA 1 0 2 AZ 1 0 3 ..
发布时间:2020-05-08 00:55:35 AI人工智能

提升值计算

我有一个(对称)邻接矩阵,该矩阵是根据报纸文章(例如:a,b,c,d)中名字(例如:Greg,Mary,Sam,Tom)的同现而创建的.见下文. 如何计算非零矩阵元素的提升值(我会对有效的实现感兴趣,该实现也可以用于非常大的矩阵(例如,一百万个非零元素). 感谢您的帮助. # Load package library(Matrix) # Data A ..
发布时间:2020-05-07 19:18:12 AI人工智能

混淆矩阵和列联表之间有什么区别?

我正在编写一段代码来评估我的聚类算法,我发现每种评估方法都需要像A = {aij}这样的m*n矩阵中的基本数据,其中aij是数据点的数量是类ci的成员和类kj的元素. 但是在数据挖掘概论中(Pang-Ning Tan等人),似乎有两种这种类型的矩阵,一种是混淆矩阵,另一种是列联表.我不完全了解两者之间的区别.哪个最能描述我要使用的矩阵? 解决方案 维基百科的定义: 在人工智能领 ..
发布时间:2020-05-07 19:00:39 AI人工智能

如何选择pca之后最相关的前100个功能(子集)?

我在63 * 2308矩阵上执行了PCA,并获得了得分和系数矩阵.分数矩阵的尺寸为63 * 2308,系数矩阵的尺寸为2308 * 2308. 如何提取最重要的前100个功能的列名,以便对它们执行回归分析? 解决方案 PCA应该为您提供一组特征向量(您的系数矩阵)和一个特征值向量(通常为lambda)(1 * 2308).您可能曾经在matlab中使用其他PCA函数来获取它们. ..
发布时间:2020-05-06 12:49:24 AI人工智能

FCM群集数值数据和csv/excel文件

嗨,我问了一个可以给出合理答案的先前问题,我以为我回到了正轨, 1)我如何将单元格中的文本数据转换为数值的最佳方法?数值应该是什么? 编辑:我在excel中的数据现在看起来像这样: 0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00 ..
发布时间:2020-05-06 12:38:05 AI人工智能

Matlab-PCA分析和多维数据重构

我有一个庞大的多维数据集(132个维度). 我是执行数据挖掘的初学者,我想通过使用Matlab进行主成分分析.但是,我看到网络上解释了很多功能,但我不知道应该如何应用它们. 基本上,我想应用PCA并从我的数据中获取特征向量及其对应的特征值. 完成此步骤后,我希望能够根据选择的特征向量对数据进行重构. 我可以手动执行此操作,但是我想知道是否有任何预定义的函数可以执行此操作,因 ..
发布时间:2020-05-06 12:02:45 AI人工智能

如何分析稀疏邻接矩阵?

我正在研究稀疏邻接矩阵,其中大多数像元为零,而有些像个零散,两个像元之间的每个关系都有一个非常长的多项式描述,并且手动分析它们很费时.我的老师建议使用Gröbnerbases 的纯代数方法,但是在继续之前,我想从纯计算机科学和编程的角度来了解如何分析稀疏邻接矩阵?是否存在一些数据挖掘工具可以对其进行分析? 解决方案 多元多项式计算和Gröbner基础是一个活跃的研究领域. 1991年,St ..
发布时间:2020-05-06 11:07:17 AI人工智能

ID3和C4.5:如何获得“增益比"?归一化“增益"?

ID3算法使用“信息增益"度量. C4.5使用“增益比率"度量,即信息增益除以SplitInfo,而SplitInfo对于拆分(记录在不同结果之间均分的情况)较高,否则为SplitInfo. 我的问题是: 这如何帮助解决信息获取偏向于产生许多结果的分裂的问题?我看不出原因. SplitInfo甚至不考虑结果的数量,而只考虑拆分中记录的分布. 很可能结果的数量很少(例如2), ..

比较两个字符串,找出它们之间的紧密联系

问题: 我有两个字符串,例如"Billie Jean"和"Thriller".我需要以编程方式比较它们,并找到它们之间的紧密联系.这些都是同一位艺术家的歌曲,因此,它们应比"Brad Pitt"和"Jamaican Farewell"的得分更高(概率,百分比等). 一种实现方法是使用名为WikipediaMiner的开源Java工具,该工具使用Wikipedia数据转储进行比较,检查链接, ..
发布时间:2020-05-06 09:38:25 AI人工智能

数据挖掘是否支持英语以外的其他语言?

我是数据挖掘的新手. 我想进行一些数据挖掘,但是数据不是英语,而是日语或中文. 数据挖掘是否支持这些语言? 如果是,我们如何实现?任何工具和博客. 感谢您的帮助. 解决方案 答案与往常一样:是和否. 尽管实际上没有理论上的问题,但是亚洲语言还是有一些实际问题.典型的文本数据挖掘管道包括 充油(运行->运行) 删除停用词(a,the,...)和其他没有帮助的词 丰 ..
发布时间:2020-05-05 11:16:38 AI人工智能