data-mining 第8页 - IT屋-程序员软件开发技术分享社区

数据挖掘开源软件替代品

我正在评估数据挖掘程序包. 到目前为止，我发现了这两个: RapidMiner Weka 您是否有经验可以与这两种产品分享，或者有其他产品可以推荐给我? 谢谢解决方案根据每年的KDnuggets民意调查2007、2008和2009，RapidMiner是全球数据挖掘专家中使用最广泛的开源数据挖掘解决方案: KDnuggets数据挖掘工具调查2009 RapidMiner是 ..

发布时间：2020-05-21 02:00:43 open-source data-mining AI人工智能

数据挖掘开源工具

我打算承担一个涉及数据挖掘的项目.在开始学习之前，我想探究各种数据挖掘工具(最好是开源的)，这些工具可以进行基于Web的报告.在我的情况下，数据将提供给我，因此我不应该对其进行爬网. 简而言之，我正在寻找一种工具，它可以做-数据分析，基于Web的报告，提供某种仪表板和挖掘功能. 我曾经在Microsoft Analysis Services和BOXI上工作，最近我一直在研究Pentah ..

发布时间：2020-05-21 01:58:32 open-source data-mining AI人工智能

数据挖掘术语“成熟"?

请告诉我们什么是“成熟的KI"?据我了解，它是用于文本分析的数据挖掘的一部分.我对吗?一些有趣且有用的链接会很好！谢谢！解决方案通过“完全成熟"，他可能表示“完全成熟"，定义为充分发展或成熟具有全职或地位来源:thefreedictionary.com 不确定KI，但可能意味着: http://en.wikipedia.org/wiki/Know ..

发布时间：2020-05-18 01:07:38 text nlp data-mining text-parsing turing-machines AI人工智能

从文本中提取关系

我想以(SUBJECT，OBJECT，ACTION)关系的形式从非结构化文本中提取关系，例如， “男孩正坐在桌子上吃鸡肉" 会给我， (男孩，鸡，吃) (男孩，桌子，位置) 等. 尽管python程序+ NLTK可以处理上述简单的句子. 我想知道你们中的任何人是否使用过工具或库，最好是开源的，以从更广泛的领域(例如大量的文本文档或网络)中提取关系. ..

发布时间：2020-05-18 00:49:23 python nlp data-mining nltk AI人工智能

字节vs字符vs单词-n克的粒度是多少?

可以考虑至少三种类型的n-gram用于表示文本文档: 字节级n-gram 字符级n-gram 单词级n-gram 对于我来说，目前尚不清楚应将哪个任务用于给定任务(聚类，分类等).我在某处读到，当文本包含拼写错误时，字符级n-gram优于单词级n-gram，因此“玛丽爱犬"仍然类似于“玛丽lpves狗". 在选择“正确的"表示形式时还需要考虑其他条件吗? 解决方案评 ..

发布时间：2020-05-18 00:40:06 nlp data-mining text-mining n-gram AI人工智能

用PHP进行文本挖掘

我正在为我正在上的大学班做一个项目. 我正在使用PHP构建一个简单的Web应用程序，该应用程序基于一组字典将推文分类为“正"(或快乐)和“负"(或悲伤).我现在正在考虑的算法是朴素贝叶斯分类器或决策树. 但是，我找不到任何可以帮助我进行认真的语言处理的PHP库. Python具有NLTK( http://www.nltk.org ). PHP有类似的东西吗? 我正计划将WEKA用 ..

发布时间：2020-05-18 00:36:13 php nlp data-mining nltk weka PHP

Pagerank个性化向量，边缘权重和悬空字典(传送向量)

这是networkx的Pagerank函数 def pagerank(G, alpha=0.85, personalization=None, max_iter=100, tol=1.0e-6, nstart=None, weight='weight', dangling=None): 我对个性化和体重感到困惑. 我了解何时不使用 ..

发布时间：2020-05-17 19:09:06 python twitter data-mining networkx pagerank AI人工智能

使用ctree显示每个节点的体积，以R表示

任何人都可以告诉我如何在每个节点中增加音量，而不是最后一个节点音量 t ..

发布时间：2020-05-10 19:03:44 r model data-mining AI人工智能

我正在从事大数据挖掘的研究项目.我已经写了当前将组织的数据整理成字典的代码.但是，数据量如此之大，以至于在形成字典时，我的计算机内存不足.我需要定期将字典写入主存储器并以这种方式创建多个字典.然后，我需要比较生成的多个词典，相应地更新键和值，并将整个内容存储在磁盘上的一个大词典中.知道我如何在python中做到这一点吗?我需要一个可以将字典快速写入磁盘然后比较2个字典和更新密钥的api.实际上，我 ..

发布时间：2020-05-08 19:54:08 python memory data-mining AI人工智能

基于带有R的变量创建聚合列

如果这是一个菜鸟问题，我向高级致歉，但我在论坛中查看了却找不到搜索我正在尝试做的事情的方法. 我有一个训练集，我试图找到一种方法来减少分类变量的级别数 (在下面的示例中，类别是状态).我想将状态映射到水平的平均值或比率. 输入数据框后，我的训练集将如下所示: state class mean 1 CA 1 0 2 AZ 1 0 3 ..

发布时间：2020-05-08 00:55:35 r data-mining aggregate mean AI人工智能

提升值计算

我有一个(对称)邻接矩阵，该矩阵是根据报纸文章(例如:a，b，c，d)中名字(例如:Greg，Mary，Sam，Tom)的同现而创建的.见下文. 如何计算非零矩阵元素的提升值(我会对有效的实现感兴趣，该实现也可以用于非常大的矩阵(例如，一百万个非零元素). 感谢您的帮助. # Load package library(Matrix) # Data A ..

发布时间：2020-05-07 19:18:12 r matrix data-mining AI人工智能

混淆矩阵和列联表之间有什么区别?

我正在编写一段代码来评估我的聚类算法，我发现每种评估方法都需要像A = {aij}这样的m*n矩阵中的基本数据，其中aij是数据点的数量是类ci的成员和类kj的元素. 但是在数据挖掘概论中(Pang-Ning Tan等人)，似乎有两种这种类型的矩阵，一种是混淆矩阵，另一种是列联表.我不完全了解两者之间的区别.哪个最能描述我要使用的矩阵? 解决方案维基百科的定义: 在人工智能领 ..

发布时间：2020-05-07 19:00:39 matrix cluster-analysis data-mining difference AI人工智能

集群质量衡量

Matlab是否提供任何用于评估聚类方法的工具? (群集紧密度和群集分离...) 还是有任何工具箱? 解决方案不是在Matlab中，而是 ELKI (Java)提供了十几种用于评估的集群质量度量. ..

发布时间：2020-05-06 13:37:39 matlab cluster-analysis data-mining evaluation AI人工智能

如何选择pca之后最相关的前100个功能(子集)?

我在63 * 2308矩阵上执行了PCA，并获得了得分和系数矩阵.分数矩阵的尺寸为63 * 2308，系数矩阵的尺寸为2308 * 2308. 如何提取最重要的前100个功能的列名，以便对它们执行回归分析? 解决方案 PCA应该为您提供一组特征向量(您的系数矩阵)和一个特征值向量(通常为lambda)(1 * 2308).您可能曾经在matlab中使用其他PCA函数来获取它们. ..

发布时间：2020-05-06 12:49:24 matlab data-mining AI人工智能

FCM群集数值数据和csv/excel文件

嗨，我问了一个可以给出合理答案的先前问题，我以为我回到了正轨， 1)我如何将单元格中的文本数据转换为数值的最佳方法?数值应该是什么? 编辑:我在excel中的数据现在看起来像这样: 0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00 ..

发布时间：2020-05-06 12:38:05 excel matlab cluster-analysis data-mining AI人工智能

Matlab-PCA分析和多维数据重构

我有一个庞大的多维数据集(132个维度). 我是执行数据挖掘的初学者，我想通过使用Matlab进行主成分分析.但是，我看到网络上解释了很多功能，但我不知道应该如何应用它们. 基本上，我想应用PCA并从我的数据中获取特征向量及其对应的特征值. 完成此步骤后，我希望能够根据选择的特征向量对数据进行重构. 我可以手动执行此操作，但是我想知道是否有任何预定义的函数可以执行此操作，因 ..

发布时间：2020-05-06 12:02:45 matlab data-mining pca AI人工智能

如何分析稀疏邻接矩阵?

我正在研究稀疏邻接矩阵，其中大多数像元为零，而有些像个零散，两个像元之间的每个关系都有一个非常长的多项式描述，并且手动分析它们很费时.我的老师建议使用Gröbnerbases 的纯代数方法，但是在继续之前，我想从纯计算机科学和编程的角度来了解如何分析稀疏邻接矩阵?是否存在一些数据挖掘工具可以对其进行分析? 解决方案多元多项式计算和Gröbner基础是一个活跃的研究领域. 1991年，St ..

发布时间：2020-05-06 11:07:17 math matrix data-mining analysis polynomials AI人工智能

ID3和C4.5:如何获得“增益比"?归一化“增益"?

ID3算法使用“信息增益"度量. C4.5使用“增益比率"度量，即信息增益除以SplitInfo，而SplitInfo对于拆分(记录在不同结果之间均分的情况)较高，否则为SplitInfo. 我的问题是: 这如何帮助解决信息获取偏向于产生许多结果的分裂的问题?我看不出原因. SplitInfo甚至不考虑结果的数量，而只考虑拆分中记录的分布. 很可能结果的数量很少(例如2)， ..

发布时间：2020-05-06 11:02:48 math statistics computer-science data-mining classification AI人工智能

比较两个字符串，找出它们之间的紧密联系

问题: 我有两个字符串，例如"Billie Jean"和"Thriller".我需要以编程方式比较它们，并找到它们之间的紧密联系.这些都是同一位艺术家的歌曲，因此，它们应比"Brad Pitt"和"Jamaican Farewell"的得分更高(概率，百分比等). 一种实现方法是使用名为WikipediaMiner的开源Java工具，该工具使用Wikipedia数据转储进行比较，检查链接， ..

发布时间：2020-05-06 09:38:25 data-mining matching semantic-web bigdata AI人工智能

数据挖掘是否支持英语以外的其他语言?

我是数据挖掘的新手. 我想进行一些数据挖掘，但是数据不是英语，而是日语或中文. 数据挖掘是否支持这些语言? 如果是，我们如何实现?任何工具和博客. 感谢您的帮助. 解决方案答案与往常一样:是和否. 尽管实际上没有理论上的问题，但是亚洲语言还是有一些实际问题.典型的文本数据挖掘管道包括充油(运行->运行) 删除停用词(a，the，...)和其他没有帮助的词丰 ..

发布时间：2020-05-05 11:16:38 data-mining mahout AI人工智能

data-mining相关内容