naivebayes相关内容

在 NLTK 中实现词袋朴素贝叶斯分类器

我基本上有 和这个人一样的问题.. 其中一个答案似乎表明内置 NLTK 分类器无法做到这一点.是这样吗?如何使用 NLTK 进行频率/词袋 NB 分类? 解决方案 scikit-learn 有 多项朴素贝叶斯的实现,这是朴素贝叶斯的正确变体在这种情况下.不过,支持向量机 (SVM) 可能会更好地工作. 正如 Ken 在评论中指出的,NLTK 有 scikit-learn 分类器的包 ..
发布时间:2021-12-14 09:31:28 AI人工智能

在 NLTK 中保存朴素贝叶斯训练的分类器

我对如何保存训练有素的分类器有点困惑.就像在每次我想使用分类器时重新训练它显然非常糟糕和缓慢,我如何保存它并在需要时再次加载它?代码如下,在此先感谢您的帮助.我将 Python 与 NLTK 朴素贝叶斯分类器一起使用. classifier = nltk.NaiveBayesClassifier.train(training_set)# 查看 NLTK 库源代码中的分类器训练方法def trai ..

在 Scala Spark 中使用数据框的朴素贝叶斯多项式文本分类器

我正在尝试构建一个 NaiveBayes 分类器,将数据库中的数据加载为包含(标签、文本)的 DataFrame.这是数据样本(多项标签): 标签|特点|+-----+--------------------+|1|燃烧准备...||1|工业用粘合剂...||1|||1|保鲜盐||1|辅助流体...| 我对标记化、停用词、n-gram 和 hashTF 使用了以下转换: val select ..

在 Spark NaiveBayes 中处理连续数据

根据 Spark NaiveBayes 的官方文档: 它支持 Multinomial NB(见这里),它可以有限地处理支持离散数据. 如何在 Spark NaiveBayes 中处理连续数据(例如:某些文档中某些数据的百分比)? 解决方案 当前的实现只能处理二进制特征,因此为了获得好的结果,您必须对数据进行离散化和编码.对于离散化,您可以使用 Buketizer 或 Quant ..
发布时间:2021-11-14 20:59:01 其他开发

naiveBayes 和预测功能在 R 中不起作用

我正在使用下面的 R 脚本对推特评论(哈萨克语)进行情感分析.训练集有 3000 条(1500sad,1500happy)评论,测试集有 1000 条(快乐悲伤混合)评论.一切都很好,但最后,预测值都显示很高兴,这是不对的. 我已经检查了每个函数并且所有函数都在运行,直到 naiveBayes 函数.我检查了分类器值,它们是正确的.我认为 naiveBayes 或 predict 都把事情搞 ..
发布时间:2021-06-07 18:33:42 其他开发

R - 为 multinomial_naive_bayes() 函数生成的模型生成混淆矩阵和 ROC

我有一个包含许多因子/分类/名义列/变量/特征的数据集.我需要为这些数据创建一个多项式朴素贝叶斯分类器.我尝试使用 caret 库,但我认为这不是在做多项式朴素贝叶斯,我认为它是在做高斯朴素贝叶斯,详情 此处.我现在发现了 multinomial_naive_bayes() 这似乎是完美的.它似乎可以处理预测变量中的空值和只有 1 个值的变量而不会抱怨. 问题是,我不知道如何进行“后期处理/ ..
发布时间:2021-06-07 18:33:39 其他开发

使用weka jar在java代码中加载朴素贝叶斯模型

我使用了 weka 并通过使用 weka GUI 制作了一个朴素贝叶斯分类器.然后我按照这个教程保存了这个模型.现在我想通过 Java 代码加载这个模型,但我找不到任何方法来使用 weka 加载保存的模型. 这是我的要求,我必须单独制作模型,然后在单独的程序中使用它. 如果有人能在这方面指导我,我将不胜感激. 解决方案 您可以使用以下命令轻松加载 Java 中保存的模型: C ..
发布时间:2021-06-07 18:33:36 Java开发

在 Java 中使用 WEKA 打印预测

我正在尝试使用 Java 中的 Weka 进行预测,使用朴素贝叶斯分类器,代码如下: Java 公共类运行{public static void main(String[] args) 抛出异常 {ConverterUtils.DataSource source1 = new ConverterUtils.DataSource("./data/train.arff");实例 train = ..
发布时间:2021-06-07 18:33:33 Java开发

一般来说,TF-IDF 什么时候会降低精度?

我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面和负面评论,我注意到执行 TF-IDF 实际上降低了准确度(在 50000 条评论的测试集上进行测试时)大约 2%.所以我想知道 TF-IDF 是否对它所使用的数据或模型有任何潜在的假设,即任何使用它会降低准确性的情况? 解决方案 TF*IDF 的 IDF 组件在某些情况下会损害您的分类准确性. 假设以下人工的、简 ..

如何找出准确度?

我想知道 sklearn 中是否有对应于准确度(实际数据和预测数据之间的差异)以及如何打印出来的函数? from sklearn import datasets虹膜 = datasets.load_iris()从 sklearn.naive_bayes 导入 GaussianNBnaive_classifier = GaussianNB()y = naive_classifier.fit(iri ..
发布时间:2021-06-07 18:33:24 Python

如何生成混淆矩阵并找到朴素贝叶斯分类器的误分类率?

使用 R 中的 iris 数据集,我尝试将朴素贝叶斯分类器拟合到 iris 训练数据,以便为朴素贝叶斯分类器生成训练数据集(预测与实际)的混淆矩阵,什么是朴素贝叶斯分类器的误分类率? 这是我目前的代码: iris$spl=sample.split(iris,SplitRatio=0.8)train=subset(iris, iris$spl==TRUE)测试=子集(虹膜,虹膜$spl== ..
发布时间:2021-06-07 18:33:21 其他开发

R - Caret train() “错误:停止"“不是所有在新数据中找到的对象中使用的所有变量名"

我正在尝试为 执行train()函数时,我得到以下输出: 出了点问题;所有精度指标值均缺失:精度卡伯最小:不适用:不适用第一区:NA第一区:NA中位数:不适用中位数:不适用均值:NaN均值:NaN第三名:NA第三名:NA最大限度.:不适用:不适用NA:2 NA:2错误:正在停止另外:警告消息:1:对Fold1的预测失败:usekernel = TRUE,fL = 0,adjust = 1预 ..
发布时间:2021-05-31 18:42:04 AI人工智能

如何提高朴素贝叶斯分类器的准确性?

我正在使用朴素贝叶斯分类器将数千个文档分类为30个不同的类别.我已经实现了朴素贝叶斯分类器,并且通过一些功能选择(主要是过滤无用的单词),我获得了大约30%的测试准确度和45%的训练准确度.这比随机的要好得多,但我希望更好. 我已经尝试过用NB实现AdaBoost,但是它似乎并没有给出明显更好的结果(关于这方面的文献似乎分歧很大,有些论文说使用NB的AdaBoost不会给出更好的结果,另一些 ..
发布时间:2021-05-31 18:31:26 AI人工智能

在数据框中查找BernoulliNB概率

我有一些训练数据(TRAIN)和一些测试数据(TEST).每个数据框的每一行都包含一个观察到的类(X)和一些二进制列(Y).BernoulliNB根据训练数据预测测试数据中给定Y的X的概率.我正在尝试在测试数据(Pr)中查找观察到的每一行类别的概率. 编辑:我使用了Antoine Zambelli的建议来修复代码: 来自sklearn.naive_bayes的 导入BernoulliNB ..
发布时间:2021-05-30 21:02:20 Python