classification相关内容

确定两个类是否线性可分(2D 中的算法)

有两个类,我们称它们为 X 和 O.属于这些类的许多元素分布在 xy 平面中.这是一个示例,其中两个类不是线性可分的.不可能画一条直线来完美地划分线的每一侧的 X 和 O. 一般如何判断两个类是否线性可分?.我对一种算法感兴趣,该算法对元素的数量或其分布不做任何假设.最低计算复杂度的算法当然是首选. 解决方案 如果你分别找到 X 点和 O 点的凸包(即你有两个单独的凸包)然后你只需要 ..
发布时间:2021-12-14 10:13:00 AI人工智能

如何处理高维输入空间的机器学习问题?

当我尝试将一些 ML 算法(分类,更具体地说,特别是 SVM)应用于一些高维输入时,我应该如何处理这种情况,而我得到的结果并不十分令人满意? 1、2 或 3 维数据可以与算法的结果一起可视化,因此您可以了解正在发生的事情,并了解如何解决问题.一旦数据超过 3 维,除了直观地玩弄参数之外,我真的不知道如何攻击它? 解决方案 你对数据做了什么?我的回答是:没有.SVM 被设计用于处理高维 ..
发布时间:2021-12-14 10:10:45 AI人工智能

在生产中部署 R 模型的选项

在生产中部署预测模型似乎没有太多选择,鉴于大数据的爆炸式增长,这令人惊讶. 我了解开源 PMML 可用于将模型导出为 XML 规范.然后可以将其用于数据库内评分/预测.然而,似乎要完成这项工作,您需要使用 Zementis 的 PMML 插件,这意味着该解决方案并不是真正的开源.有没有更简单的开放方式将 PMML 映射到 SQL 进行评分? 另一种选择是使用 JSON 而不是 XML ..
发布时间:2021-12-14 10:07:26 AI人工智能

支持向量的数量与训练数据和分类器性能之间有什么关系?

我正在使用 LibSVM 对一些文档进行分类.如最终结果所示,这些文件似乎有点难以分类.但是,我在训练模型时注意到了一些事情.那就是:如果我的训练集是例如 1000 个,大约 800 个被选为支持向量.我到处找找这是好事还是坏事.我的意思是支持向量的数量和分类器的性能之间有关系吗?我已阅读此上一篇文章 但我正在执行参数选择,而且我确信特征向量中的属性都是有序的.我只需要知道这种关系.谢谢.ps:我 ..
发布时间:2021-12-14 10:06:06 AI人工智能

scikit-learn 估算另一个特征中标称值组内特征的均值

我想估算一个特征的平均值,但只根据在另一列中具有相同类别/名义值的其他示例计算平均值,我想知道这是否可以使用 scikit-learn 的 Imputer 类?这样可以更轻松地添加到管道中. 例如: 使用来自 kaggle 的 Titanic 数据集:来源 我将如何计算每个 pclass 的平均 fare.其背后的想法是,不同班级的人在门票之间的成本会有很大差异. 更新:在 ..

使用 Vowpal Wabbit 时计算 AUC

无论如何可以在 Vowpal Wabbit 中计算 AUC 吗? 我使用 Vowpal Wabbit 的原因之一是数据文件很大.我可以使用 Vowpal Wabbit 的输出计算 Vowpal Wabbit 环境之外的 AUC,但如果数据文件很大,这可能会出现问题. 解决方案 目前,大众无法报告 AUC.更糟糕的是,它不能直接针对 AUC 进行优化.优化 AUC 与在线学习不兼容,但 ..
发布时间:2021-12-14 09:57:47 AI人工智能

处理二分类中的类不平衡

这里是我的问题的简要描述: 我正在从事一项监督学习任务来训练一个二元分类器. 我有一个大类不平衡分布的数据集:8个负实例,每个正实例. 我使用 f-measure,即特异性和灵敏度之间的调和平均值来评估分类器的性能. 我绘制了几个分类器的 ROC 图,所有分类器都呈现出很好的 AUC,这意味着分类很好.然而,当我测试分类器并计算 f-measure 时,我得到了一个非常低的值.我知 ..
发布时间:2021-12-14 09:52:29 AI人工智能

多类-多标签分类的精度/召回率

我想知道如何计算多类多标签分类的准确率和召回率,即有两个以上标签的分类,并且每个实例可以有多个标签? 解决方案 对于多标签分类,您有两种方法首先考虑以下内容. 是示例的数量. 是 示例.. 是 示例. 是 示例. 基于示例 指标以每个数据点的方式计算.对于每个预测标签,仅计算其得分,然后将这些得分汇总到所有数据点上. 精度 = ,预测正确的比例.分子找出预测向 ..

在 Scikit Learn 中控制逻辑回归中的阈值

我在高度不平衡的数据集上使用 scikit-learn 中的 LogisticRegression() 方法.我什至将 class_weight 功能变成了 auto. 我知道在逻辑回归中应该可以知道特定类别对的阈值是多少. 是否可以知道 LogisticRegression() 方法设计的每个 One-vs-All 类中的阈值是多少? 我在文档页面中没有找到任何内容. 它 ..

在 sklearn 中使用 RandomForestClassifier 进行不平衡分类

我有一个类别不平衡的数据集.类是“1"或“0",其中“1":“0"类的比率为 5:1.您如何使用随机森林在 sklearn 中计算每个类的预测误差和相应的重新平衡权重,类似于以下链接:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#balance 解决方案 您可以将样本权重参数传递给随机森林 拟合方法 sam ..

为简单的一维场景推荐的异常检测技术?

我有一个场景,我有几千个数据实例.数据本身表示为单个整数值.我希望能够检测到实例何时是极端异常值. 例如,使用以下示例数据: a = 10乙 = 14c = 25d = 467e = 12 d 显然是一个异常,我想基于此执行特定操作. 我很想尝试使用我对特定领域的知识来检测异常情况.例如,找出有用的平均值的距离,并根据启发式进行检查.但是,我认为如果我研究更通用、更强大的异常检测技 ..
发布时间:2021-12-14 09:50:13 AI人工智能

人工神经网络与支持向量机相比有哪些优势?

ANN(人工神经网络)和 SVM(支持向量机)是监督机器学习和分类的两种流行策略.通常不清楚哪种方法更适合特定项目,我确信答案总是“视情况而定".通常,将两者与贝叶斯分类结合使用. 关于 ANN 与 SVM 的这些关于 Stackoverflow 的问题已经被问到: ANN 和 SVM 分类 ANN之间有什么区别, SVM 和 KNN 在我的分类问题中 文本的支持向量机或人 ..
发布时间:2021-12-14 09:47:32 AI人工智能

如何将另一个特征(文本长度)添加到当前的词袋分类中?Scikit-学习

我正在使用词袋对文本进行分类.它运行良好,但我想知道如何添加一个不是单词的功能. 这是我的示例代码. 将 numpy 导入为 np从 sklearn.pipeline 导入管道从 sklearn.feature_extraction.text 导入 CountVectorizer从 sklearn.svm 导入 LinearSVC从 sklearn.feature_extraction.t ..

数据挖掘中分类和聚类的区别?

谁能解释一下数据挖掘中分类和聚类的区别? 如果可以,请举出两者的例子来理解主要思想. 解决方案 通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类. 聚类尝试对一组对象进行分组,并找出这些对象之间是否存在某些关系. 在机器学习的上下文中,分类是监督学习聚类是无监督学习. 另请参阅分类和聚类. ..

在 NLTK 中保存朴素贝叶斯训练的分类器

我对如何保存训练有素的分类器有点困惑.就像在每次我想使用分类器时重新训练它显然非常糟糕和缓慢,我如何保存它并在需要时再次加载它?代码如下,在此先感谢您的帮助.我将 Python 与 NLTK 朴素贝叶斯分类器一起使用. classifier = nltk.NaiveBayesClassifier.train(training_set)# 查看 NLTK 库源代码中的分类器训练方法def trai ..

使用 scikit-learn 在朴素贝叶斯分类器中混合分类和连续数据

我在 Python 中使用 scikit-learn 来开发分类算法来预测某些客户的性别.其中,我想使用朴素贝叶斯分类器,但我的问题是我混合了分类数据(例如:“在线注册"、“接受电子邮件通知"等)和连续数据(例如:“年龄"、“长度"会员资格"等).我之前没有经常使用 scikit,但我认为高斯朴素贝叶斯适用于连续数据,而伯努利朴素贝叶斯可用于分类数据.但是,由于我希望在我的模型中同时 分类和连续数 ..

scikit-learn .predict() 默认阈值

我正在研究具有不平衡类(5% 1)的分类问题.我想预测类别,而不是概率. 在二元分类问题中,scikit的classifier.predict()是否默认使用0.5?如果没有,默认方法是什么?如果是,我该如何更改? 在 scikit 中,一些分类器具有 class_weight='auto' 选项,但并非所有分类器都有.使用 class_weight='auto',.predict() ..

Scikit-learn:如何获得真阳性、真阴性、假阳性和假阴性

我的问题: 我有一个数据集,它是一个大型 JSON 文件.我读取它并将其存储在 trainList 变量中. 接下来,我对其进行预处理 - 为了能够使用它. 完成后我开始分类: 我使用 kfold 交叉验证方法来获得均值准确率并训练分类器. 我进行预测并获得准确度&该折叠的混淆矩阵. 在此之后,我想获得True Positive(TP)、True Negative(TN ..