weka相关内容

如何在Matlab中将群集标签与我的“真实情况"标签进行匹配

我已经在这里搜索并搜索过,但无济于事.当在Weka中进行聚类时,有一个方便的选择,即聚类的类,它可以匹配算法产生的聚类,例如简单的k均值,将您提供的“地面真相"类标签作为类属性.这样我们就可以看到聚类准确性(不正确的百分比). 现在,如何在Matlab中实现此目标,即翻译我的clusterClasses矢量,例如[1, 1, 2, 1, 3, 2, 3, 1, 1, 1]放入与提供的地面真相 ..
发布时间:2020-05-06 14:07:33 其他开发

在决策树中寻找连续数据阈值的方法

我在Weka中使用决策树,并且我有一些连续的数据,因此当我使用Weka时,它会自动为我找到阈值,但是由于某些原因,我想自己实现决策树,因此我需要知道使用哪种方法找到离散化我的连续数据的阈值? 解决方案 ID3 和 C4.5 使用假设在某个树节点上,所有实例都属于一组S,并且您正在处理变量A和特定的边界(切面)T,即由以下项引起的分区的类信息熵T(表示为E(A,T,S))由: ..
发布时间:2020-05-04 10:27:42 AI人工智能

Java中RandomSubSpace分类器Weka API的输出

我已经在weka exploer中构建了RandomSubSpace分类器,现在正尝试将其与weka Java API一起使用,但是,当我运行distibutionForInstance()时,我得到的数组的第一个值为1.0,所有值为0.0.休息.我正在尝试获得数值预测而不是课程.我应该使用其他功能还是distributionForInstance上的其他选项吗?下面的代码段: 分类器cls ..
发布时间:2020-05-04 10:27:22 Java开发

Weka可以处理多少文字?

我有一个情感分析任务,我需要指定weka可以处理多少数据(以我的情况为例).我已经有2500条意见的语料库已被标记.我知道这是一个很小的语料库,但是我的论文导师要我专门讨论Weka可以处理多少数据. 解决方案 Weka的局限性在于您使用的学习算法以及可用于训练的内存量.大多数分类器要求将整个集合加载到内存中进行训练,但是也有用于流式传输数据的选项.有关更多信息,请参见关于大数据的weka页 ..

WEKA-过滤掉MultiClassClassifer中的类

我已经训练了MultiClassClassifier(经过测试,可以正常工作)并将其保存在硬盘上的某个位置.现在,我要对我得到的新样品进行预测.我加载了应用程序,分类器自动加载了该应用程序.在分类过程之外,我已经将样本的搜索范围缩小到五个5个可能的类.我知道k类,这很容易在分类中避免. 是否可以在使用MultiClassClassifier之前对其进行过滤(过滤掉所有不需要的类)? 如 ..
发布时间:2020-05-04 10:24:28 Java开发

随机森林分类weka

属性已保存在csv文件的11列中.如果列的顺序发生变化,请执行Randomforest&随机树每次都能给出不同的准确性吗? 解决方案 特征的排序不会影响我所知道的任何分类器(除非是专门为此设计的分类器,例如针对时间序列和其他时间特征的特殊分类器),无论是神经网络,SVM,RandomForest,RandomTree还是NaiveBayes-只是数字简化,因为数组比集合快,而“在幕后"则将 ..
发布时间:2020-05-04 10:22:33 AI人工智能

WEKA中每个特定实例的置信度?

我是WEKA和机器学习的新手. 我有一个约有6500个实例的测试仪.我有一个已经使用训练集进行训练的模型.通过保存的模型运行测试集后,是否可以提取每个特定实例的置信度?所谓置信度,是指表示分类器正确分类特定实例的概率的数值.我想要文件中每个实例的可信度.有没有办法做到这一点? 解决方案 使用命令行界面,使用-p参数(请参见 java weka.classifiers.bayes.Na ..

Weka 3.7.11中的随机树对数值属性使用什么划分准则?

我正在使用来自Weka 3.7.11的RandomForest,这反过来又在包装Weka的RandomTree.我的输入属性是数字,输出属性(标签)也是数字. 训练随机树时,会为树的每个节点随机选择K个属性.尝试根据这些属性进行几次拆分,然后选择“最佳"拆分.在这种(数字)情况下,Weka如何确定最好的分割方式? 对于名义属性,我相信Weka使用基于条件熵的信息增益标准 IG(T ..
发布时间:2020-05-04 10:16:23 AI人工智能

Weka预测(百分比置信度)-这是什么意思?

我一直在教自己Weka,并且学习了如何构建模型并从中获取预测(使用CLI进行预测). 当我对先前构建的模型中的数据集进行预测时,会得到一列,即“预测",也称为每个预测实例的预测置信度. 我知道置信度百分比是什么意思,但是我的所有预测不应该是我的Weka模型的准确性吗? 如果我有一个精度为90%的J48决策树分类器,使用该模型的每个分类实例是否不应该具有90%的预测置信度? ..
发布时间:2020-05-04 10:14:15 AI人工智能

如何在Weka中规范文档的词频

在Weka中,类 StringToWordVector 定义一种名为 setNormalizeDocLength 的方法.它将文档的词频归一化.我的问题是: “标准化文档的词频"是什么意思? Weka是如何做到的? 一个实际的例子将对我有最大的帮助.预先感谢. 解决方案 在Weka源代码中,这是进行标准化的方法: private void normalizeInstan ..
发布时间:2020-05-04 10:13:54 AI人工智能

交叉验证-Weka API

如何使用Weka Api通过10倍交叉验证来建立分类模型?我问这个问题,因为每个交叉验证的运行都会创建一个新的分类模型.我应该在测试数据中使用Wich分类模型吗? 谢谢! 解决方案 如果根据所有训练数据构造分类器,则使用10倍交叉验证来获得分类器准确性的估算 .当感觉到没有足够的数据用于独立测试集时使用.这意味着您要在预测未来数据时根据所有训练数据构建新模型. 10倍交叉验证的结果是 ..
发布时间:2020-05-04 10:13:01 AI人工智能

如何在Weka中计算聚类评估的准确性

我们如何使用Weka计算群集的准确性? 我可以使用以下公式: Accuracy (A) = (tp+tn)/Total # samples 但是在Weka工具的实验输出中,我怎么知道什么是真阳性,假阳性,真阴性和假阴性? 解决方案 Weka中有几种不同的集群模式: 使用训练集(默认)::聚类后,Weka将训练实例分类为它开发的聚类,并计算每个聚类中的实例所占的百分比. ..

Weka机器学习:如何解释朴素贝叶斯分类器?

我正在使用资源管理器功能进行分类.我的.arff数据文件具有10个数字和二进制值功能; (只有实例ID是标称的).我有16个实例.可以预测的课程是是/否.我使用过朴素贝叶斯,但我无法解释结果,有人知道如何解释朴素贝叶斯分类的结果吗? 解决方案 朴素贝叶斯未选择任何重要功能.如您所述,训练朴素贝叶斯分类器的结果是每个特征的均值和方差.将新样本分为“是"或“否"是基于样本的特征值是否与“是"或 ..
发布时间:2020-05-04 10:05:19 AI人工智能

R和WEKA上的支持向量机

我的数据使用e1071软件包中的R在svm上生成了奇怪的结果,所以我尝试检查R svm是否可以生成与WEKA(或python)相同的结果,因为我过去一直在使用WEKA. 我搜索了一个问题,发现一个问题与我完全相同,但没有答案. 这是问题. 所以我希望我能在这里得到答案. 为了使事情变得简单,我还使用了虹膜数据集,并使用整个虹膜数据训练了一个模型(WEKA中的SMO和R软件包e1071 ..
发布时间:2020-05-04 09:54:13 AI人工智能