naivebayes - IT屋-程序员软件开发技术分享社区

如何在朴素贝叶斯中获得特征重要性?

我有一个评论数据集，其类别标签为正面/负面.我正在将朴素贝叶斯应用于该评论数据集.首先，我正在转换成词袋.这里sorted_data['Text']是评论，final_counts是一个稀疏矩阵 count_vect = CountVectorizer()final_counts = count_vect.fit_transform(sorted_data['Text'].values) 我正 ..

发布时间：2021-12-25 14:38:00 python python-3.x machine-learning scikit-learn naivebayes AI人工智能

在 NLTK 中实现词袋朴素贝叶斯分类器

我基本上有和这个人一样的问题.. 其中一个答案似乎表明内置 NLTK 分类器无法做到这一点.是这样吗?如何使用 NLTK 进行频率/词袋 NB 分类? 解决方案 scikit-learn 有多项朴素贝叶斯的实现，这是朴素贝叶斯的正确变体在这种情况下.不过，支持向量机 (SVM) 可能会更好地工作. 正如 Ken 在评论中指出的，NLTK 有 scikit-learn 分类器的包 ..

发布时间：2021-12-14 09:31:28 python machine-learning nlp nltk naivebayes AI人工智能

在 NLTK 中保存朴素贝叶斯训练的分类器

我对如何保存训练有素的分类器有点困惑.就像在每次我想使用分类器时重新训练它显然非常糟糕和缓慢，我如何保存它并在需要时再次加载它?代码如下，在此先感谢您的帮助.我将 Python 与 NLTK 朴素贝叶斯分类器一起使用. classifier = nltk.NaiveBayesClassifier.train(training_set)# 查看 NLTK 库源代码中的分类器训练方法def trai ..

发布时间：2021-12-14 09:30:54 python machine-learning classification nltk naivebayes AI人工智能

如何获得 Spark Naive Bayes 分类器中类的概率?

我正在 Spark 中训练 NaiveBayesModel，但是当我使用它来预测新实例时，我需要获得每个类的概率.我查看了 NaiveBayesModel 中预测函数的代码，得出如下代码: val thetaMatrix = new DenseMatrix (model.labels.length,model.theta(0).length,model.theta.flatten,true)va ..

发布时间：2021-11-14 21:10:32 apache-spark apache-spark-mllib naivebayes 其他开发

在 Scala Spark 中使用数据框的朴素贝叶斯多项式文本分类器

我正在尝试构建一个 NaiveBayes 分类器，将数据库中的数据加载为包含(标签、文本)的 DataFrame.这是数据样本(多项标签): 标签|特点|+-----+--------------------+|1|燃烧准备...||1|工业用粘合剂...||1|||1|保鲜盐||1|辅助流体...| 我对标记化、停用词、n-gram 和 hashTF 使用了以下转换: val select ..

发布时间：2021-11-14 21:05:48 apache-spark text-classification apache-spark-mllib naivebayes 其他开发

Spark:如何获得伯努利朴素贝叶斯的概率和 AUC?

我正在使用代码运行 Bernoulli Naive Bayes: val splits = MyData.randomSplit(Array(0.75, 0.25), seed = 2L)val 训练 = splits(0).cache()val 测试 = 拆分(1)val 模型 = NaiveBayes.train(training, lambda = 3.0, modelType = "be ..

发布时间：2021-11-14 21:03:20 apache-spark pyspark apache-spark-mllib naivebayes apache-spark-ml 其他开发

在 Spark NaiveBayes 中处理连续数据

根据 Spark NaiveBayes 的官方文档: 它支持 Multinomial NB(见这里)，它可以有限地处理支持离散数据. 如何在 Spark NaiveBayes 中处理连续数据(例如:某些文档中某些数据的百分比)? 解决方案当前的实现只能处理二进制特征，因此为了获得好的结果，您必须对数据进行离散化和编码.对于离散化，您可以使用 Buketizer 或 Quant ..

发布时间：2021-11-14 20:59:01 apache-spark apache-spark-mllib naivebayes 其他开发

naiveBayes 和预测功能在 R 中不起作用

我正在使用下面的 R 脚本对推特评论(哈萨克语)进行情感分析.训练集有 3000 条(1500sad，1500happy)评论，测试集有 1000 条(快乐悲伤混合)评论.一切都很好，但最后，预测值都显示很高兴，这是不对的. 我已经检查了每个函数并且所有函数都在运行，直到 naiveBayes 函数.我检查了分类器值，它们是正确的.我认为 naiveBayes 或 predict 都把事情搞 ..

发布时间：2021-06-07 18:33:42 r sentiment-analysis predict naivebayes 其他开发

R - 为 multinomial_naive_bayes() 函数生成的模型生成混淆矩阵和 ROC

我有一个包含许多因子/分类/名义列/变量/特征的数据集.我需要为这些数据创建一个多项式朴素贝叶斯分类器.我尝试使用 caret 库，但我认为这不是在做多项式朴素贝叶斯，我认为它是在做高斯朴素贝叶斯，详情此处.我现在发现了 multinomial_naive_bayes() 这似乎是完美的.它似乎可以处理预测变量中的空值和只有 1 个值的变量而不会抱怨. 问题是，我不知道如何进行“后期处理/ ..

发布时间：2021-06-07 18:33:39 r r-caret naivebayes 其他开发

使用weka jar在java代码中加载朴素贝叶斯模型

我使用了 weka 并通过使用 weka GUI 制作了一个朴素贝叶斯分类器.然后我按照这个教程保存了这个模型.现在我想通过 Java 代码加载这个模型，但我找不到任何方法来使用 weka 加载保存的模型. 这是我的要求，我必须单独制作模型，然后在单独的程序中使用它. 如果有人能在这方面指导我，我将不胜感激. 解决方案您可以使用以下命令轻松加载 Java 中保存的模型: C ..

发布时间：2021-06-07 18:33:36 java weka naivebayes Java开发

在 Java 中使用 WEKA 打印预测

我正在尝试使用 Java 中的 Weka 进行预测，使用朴素贝叶斯分类器，代码如下: Java 公共类运行{public static void main(String[] args) 抛出异常 {ConverterUtils.DataSource source1 = new ConverterUtils.DataSource("./data/train.arff");实例 train = ..

发布时间：2021-06-07 18:33:33 java weka naivebayes Java开发

R插入符号朴素贝叶斯准确度为空

我有一个数据集使用 SVM 和朴素贝叶斯进行训练.SVM 有效，但朴素贝叶斯无效.按照下面的源代码: 库(工具)图书馆(插入符号)图书馆(doMC)图书馆(mlbench)图书馆(magrittr)图书馆(插入符号)核心 ..

发布时间：2021-06-07 18:33:30 r r-caret naivebayes 其他开发

一般来说，TF-IDF 什么时候会降低精度?

我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面和负面评论，我注意到执行 TF-IDF 实际上降低了准确度(在 50000 条评论的测试集上进行测试时)大约 2%.所以我想知道 TF-IDF 是否对它所使用的数据或模型有任何潜在的假设，即任何使用它会降低准确性的情况? 解决方案 TF*IDF 的 IDF 组件在某些情况下会损害您的分类准确性. 假设以下人工的、简 ..

发布时间：2021-06-07 18:33:27 sentiment-analysis tf-idf text-classification naivebayes 其他开发

如何找出准确度?

我想知道 sklearn 中是否有对应于准确度(实际数据和预测数据之间的差异)以及如何打印出来的函数? from sklearn import datasets虹膜 = datasets.load_iris()从 sklearn.naive_bayes 导入 GaussianNBnaive_classifier = GaussianNB()y = naive_classifier.fit(iri ..

发布时间：2021-06-07 18:33:24 python scikit-learn naivebayes Python

如何生成混淆矩阵并找到朴素贝叶斯分类器的误分类率?

使用 R 中的 iris 数据集，我尝试将朴素贝叶斯分类器拟合到 iris 训练数据，以便为朴素贝叶斯分类器生成训练数据集(预测与实际)的混淆矩阵，什么是朴素贝叶斯分类器的误分类率? 这是我目前的代码: iris$spl=sample.split(iris,SplitRatio=0.8)train=subset(iris, iris$spl==TRUE)测试=子集(虹膜，虹膜$spl== ..

发布时间：2021-06-07 18:33:21 r naivebayes 其他开发

朴素贝叶斯分类器动态训练

是否可以(以及如何)动态训练 sklearn MultinomialNB 分类器?每次我在其中输入电子邮件时，我都想训练(更新)我的垃圾邮件分类器. 我想要这个(不起作用): x_train, x_test, y_train, y_test = tts(features, labels, test_size=0.2)clf = MultinomialNB()对于我在范围内(len(x_tr ..

发布时间：2021-06-07 18:33:18 python scikit-learn naivebayes online-machine-learning Python

如何在naive_bayes MultinomialNB中计算feature_log_prob_

这是我的代码: #加载库将numpy导入为np从sklearn.naive_bayes导入MultinomialNB从sklearn.feature_extraction.text导入CountVectorizer# 创建文本text_data = np.array(['蒂姆很聪明！'，“快乐是最好的"，“丽莎很傻"，“弗雷德很懒"，“丽莎很懒"])#创建目标向量y = np.array([1, ..

发布时间：2021-05-31 18:43:27 machine-learning scikit-learn naivebayes AI人工智能

R - Caret train() “错误:停止"“不是所有在新数据中找到的对象中使用的所有变量名"

我正在尝试为执行train()函数时，我得到以下输出: 出了点问题；所有精度指标值均缺失:精度卡伯最小:不适用:不适用第一区:NA第一区:NA中位数:不适用中位数:不适用均值:NaN均值:NaN第三名:NA第三名:NA最大限度.:不适用:不适用NA:2 NA:2错误:正在停止另外:警告消息:1:对Fold1的预测失败:usekernel = TRUE，fL = 0，adjust = 1预 ..

发布时间：2021-05-31 18:42:04 r machine-learning r-caret naivebayes AI人工智能

如何提高朴素贝叶斯分类器的准确性?

我正在使用朴素贝叶斯分类器将数千个文档分类为30个不同的类别.我已经实现了朴素贝叶斯分类器，并且通过一些功能选择(主要是过滤无用的单词)，我获得了大约30％的测试准确度和45％的训练准确度.这比随机的要好得多，但我希望更好. 我已经尝试过用NB实现AdaBoost，但是它似乎并没有给出明显更好的结果(关于这方面的文献似乎分歧很大，有些论文说使用NB的AdaBoost不会给出更好的结果，另一些 ..

发布时间：2021-05-31 18:31:26 machine-learning naivebayes AI人工智能

在数据框中查找BernoulliNB概率

我有一些训练数据(TRAIN)和一些测试数据(TEST).每个数据框的每一行都包含一个观察到的类(X)和一些二进制列(Y).BernoulliNB根据训练数据预测测试数据中给定Y的X的概率.我正在尝试在测试数据(Pr)中查找观察到的每一行类别的概率. 编辑:我使用了Antoine Zambelli的建议来修复代码: 来自sklearn.naive_bayes的导入BernoulliNB ..

发布时间：2021-05-30 21:02:20 pandas lookup naivebayes bernoulli-probability Python

naivebayes相关内容