classification 第4页 - IT屋-程序员软件开发技术分享社区

确定两个类是否线性可分(2D 中的算法)

有两个类，我们称它们为 X 和 O.属于这些类的许多元素分布在 xy 平面中.这是一个示例，其中两个类不是线性可分的.不可能画一条直线来完美地划分线的每一侧的 X 和 O. 一般如何判断两个类是否线性可分?.我对一种算法感兴趣，该算法对元素的数量或其分布不做任何假设.最低计算复杂度的算法当然是首选. 解决方案如果你分别找到 X 点和 O 点的凸包(即你有两个单独的凸包)然后你只需要 ..

发布时间：2021-12-14 10:13:00 algorithm math machine-learning classification AI人工智能

如何处理高维输入空间的机器学习问题?

当我尝试将一些 ML 算法(分类，更具体地说，特别是 SVM)应用于一些高维输入时，我应该如何处理这种情况，而我得到的结果并不十分令人满意? 1、2 或 3 维数据可以与算法的结果一起可视化，因此您可以了解正在发生的事情，并了解如何解决问题.一旦数据超过 3 维，除了直观地玩弄参数之外，我真的不知道如何攻击它? 解决方案你对数据做了什么?我的回答是:没有.SVM 被设计用于处理高维 ..

发布时间：2021-12-14 10:10:45 machine-learning classification svm AI人工智能

在生产中部署 R 模型的选项

在生产中部署预测模型似乎没有太多选择，鉴于大数据的爆炸式增长，这令人惊讶. 我了解开源 PMML 可用于将模型导出为 XML 规范.然后可以将其用于数据库内评分/预测.然而，似乎要完成这项工作，您需要使用 Zementis 的 PMML 插件，这意味着该解决方案并不是真正的开源.有没有更简单的开放方式将 PMML 映射到 SQL 进行评分? 另一种选择是使用 JSON 而不是 XML ..

发布时间：2021-12-14 10:07:26 r deployment machine-learning classification pmml AI人工智能

我正在使用 LibSVM 对一些文档进行分类.如最终结果所示，这些文件似乎有点难以分类.但是，我在训练模型时注意到了一些事情.那就是:如果我的训练集是例如 1000 个，大约 800 个被选为支持向量.我到处找找这是好事还是坏事.我的意思是支持向量的数量和分类器的性能之间有关系吗?我已阅读此上一篇文章但我正在执行参数选择，而且我确信特征向量中的属性都是有序的.我只需要知道这种关系.谢谢.ps:我 ..

发布时间：2021-12-14 10:06:06 machine-learning classification svm libsvm AI人工智能

Keras 返回二进制结果

我想预测 2 种疾病的种类，但我得到的结果是二进制的(如 1.0 和 0.0).我怎样才能获得这些的准确性(如 0.7213)? 训练代码: from keras.models import Sequential从 keras.layers 导入 Conv2D从 keras.layers 导入 MaxPooling2D从 keras.layers 导入扁平化从 keras.layers 导 ..

发布时间：2021-12-14 10:05:33 python tensorflow machine-learning keras classification AI人工智能

scikit-learn 估算另一个特征中标称值组内特征的均值

我想估算一个特征的平均值，但只根据在另一列中具有相同类别/名义值的其他示例计算平均值，我想知道这是否可以使用 scikit-learn 的 Imputer 类?这样可以更轻松地添加到管道中. 例如: 使用来自 kaggle 的 Titanic 数据集:来源我将如何计算每个 pclass 的平均 fare.其背后的想法是，不同班级的人在门票之间的成本会有很大差异. 更新:在 ..

发布时间：2021-12-14 10:02:35 machine-learning scikit-learn classification mean imputation AI人工智能

使用 Vowpal Wabbit 时计算 AUC

无论如何可以在 Vowpal Wabbit 中计算 AUC 吗? 我使用 Vowpal Wabbit 的原因之一是数据文件很大.我可以使用 Vowpal Wabbit 的输出计算 Vowpal Wabbit 环境之外的 AUC，但如果数据文件很大，这可能会出现问题. 解决方案目前，大众无法报告 AUC.更糟糕的是，它不能直接针对 AUC 进行优化.优化 AUC 与在线学习不兼容，但 ..

发布时间：2021-12-14 09:57:47 machine-learning classification vowpalwabbit AI人工智能

处理二分类中的类不平衡

这里是我的问题的简要描述: 我正在从事一项监督学习任务来训练一个二元分类器. 我有一个大类不平衡分布的数据集:8个负实例，每个正实例. 我使用 f-measure，即特异性和灵敏度之间的调和平均值来评估分类器的性能. 我绘制了几个分类器的 ROC 图，所有分类器都呈现出很好的 AUC，这意味着分类很好.然而，当我测试分类器并计算 f-measure 时，我得到了一个非常低的值.我知 ..

发布时间：2021-12-14 09:52:29 python r machine-learning classification AI人工智能

多类-多标签分类的精度/召回率

我想知道如何计算多类多标签分类的准确率和召回率，即有两个以上标签的分类，并且每个实例可以有多个标签? 解决方案对于多标签分类，您有两种方法首先考虑以下内容. 是示例的数量. 是示例.. 是示例. 是示例. 基于示例指标以每个数据点的方式计算.对于每个预测标签，仅计算其得分，然后将这些得分汇总到所有数据点上. 精度 = ，预测正确的比例.分子找出预测向 ..

发布时间：2021-12-14 09:52:11 machine-learning classification multilabel-classification precision-recall AI人工智能

在 Scikit Learn 中控制逻辑回归中的阈值

我在高度不平衡的数据集上使用 scikit-learn 中的 LogisticRegression() 方法.我什至将 class_weight 功能变成了 auto. 我知道在逻辑回归中应该可以知道特定类别对的阈值是多少. 是否可以知道 LogisticRegression() 方法设计的每个 One-vs-All 类中的阈值是多少? 我在文档页面中没有找到任何内容. 它 ..

发布时间：2021-12-14 09:51:27 machine-learning scikit-learn classification logistic-regression AI人工智能

在 sklearn 中使用 RandomForestClassifier 进行不平衡分类

我有一个类别不平衡的数据集.类是“1"或“0"，其中“1":“0"类的比率为 5:1.您如何使用随机森林在 sklearn 中计算每个类的预测误差和相应的重新平衡权重，类似于以下链接:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#balance 解决方案您可以将样本权重参数传递给随机森林拟合方法 sam ..

发布时间：2021-12-14 09:50:51 python machine-learning classification scikit-learn random-forest AI人工智能

为简单的一维场景推荐的异常检测技术?

我有一个场景，我有几千个数据实例.数据本身表示为单个整数值.我希望能够检测到实例何时是极端异常值. 例如，使用以下示例数据: a = 10乙 = 14c = 25d = 467e = 12 d 显然是一个异常，我想基于此执行特定操作. 我很想尝试使用我对特定领域的知识来检测异常情况.例如，找出有用的平均值的距离，并根据启发式进行检查.但是，我认为如果我研究更通用、更强大的异常检测技 ..

发布时间：2021-12-14 09:50:13 machine-learning classification AI人工智能

人工神经网络与支持向量机相比有哪些优势?

ANN(人工神经网络)和 SVM(支持向量机)是监督机器学习和分类的两种流行策略.通常不清楚哪种方法更适合特定项目，我确信答案总是“视情况而定".通常，将两者与贝叶斯分类结合使用. 关于 ANN 与 SVM 的这些关于 Stackoverflow 的问题已经被问到: ANN 和 SVM 分类 ANN之间有什么区别, SVM 和 KNN 在我的分类问题中文本的支持向量机或人 ..

发布时间：2021-12-14 09:47:32 machine-learning neural-network classification svm AI人工智能

如何将另一个特征(文本长度)添加到当前的词袋分类中?Scikit-学习

我正在使用词袋对文本进行分类.它运行良好，但我想知道如何添加一个不是单词的功能. 这是我的示例代码. 将 numpy 导入为 np从 sklearn.pipeline 导入管道从 sklearn.feature_extraction.text 导入 CountVectorizer从 sklearn.svm 导入 LinearSVC从 sklearn.feature_extraction.t ..

发布时间：2021-12-14 09:42:24 python machine-learning scikit-learn classification text-classification AI人工智能

数据挖掘中分类和聚类的区别?

谁能解释一下数据挖掘中分类和聚类的区别? 如果可以，请举出两者的例子来理解主要思想. 解决方案通常，在分类中，您有一组预定义的类，并且想知道新对象属于哪个类. 聚类尝试对一组对象进行分组，并找出这些对象之间是否存在某些关系. 在机器学习的上下文中，分类是监督学习聚类是无监督学习. 另请参阅分类和聚类. ..

发布时间：2021-12-14 09:36:48 machine-learning classification cluster-analysis data-mining terminology AI人工智能

AUC 高，但数据不平衡导致预测不佳

我正在尝试在非常不平衡的数据集上使用 LightGBM 构建分类器.不平衡的比例为 97:3，即: 类0 0.9706911 0.029309 我使用的参数和训练代码如下所示. lgb_params = {'boosting_type': 'gbdt','目标':'二进制'，'公制':'auc',“学习率":0.1，'is_unbalance': 'true', #因为训练数据不平衡(用sc ..

发布时间：2021-12-14 09:35:03 python machine-learning classification auc lightgbm AI人工智能

在 NLTK 中保存朴素贝叶斯训练的分类器

我对如何保存训练有素的分类器有点困惑.就像在每次我想使用分类器时重新训练它显然非常糟糕和缓慢，我如何保存它并在需要时再次加载它?代码如下，在此先感谢您的帮助.我将 Python 与 NLTK 朴素贝叶斯分类器一起使用. classifier = nltk.NaiveBayesClassifier.train(training_set)# 查看 NLTK 库源代码中的分类器训练方法def trai ..

发布时间：2021-12-14 09:30:54 python machine-learning classification nltk naivebayes AI人工智能

使用 scikit-learn 在朴素贝叶斯分类器中混合分类和连续数据

我在 Python 中使用 scikit-learn 来开发分类算法来预测某些客户的性别.其中，我想使用朴素贝叶斯分类器，但我的问题是我混合了分类数据(例如:“在线注册"、“接受电子邮件通知"等)和连续数据(例如:“年龄"、“长度"会员资格"等).我之前没有经常使用 scikit，但我认为高斯朴素贝叶斯适用于连续数据，而伯努利朴素贝叶斯可用于分类数据.但是，由于我希望在我的模型中同时分类和连续数 ..

发布时间：2021-12-14 09:30:26 python machine-learning data-mining classification scikit-learn AI人工智能

scikit-learn .predict() 默认阈值

我正在研究具有不平衡类(5% 1)的分类问题.我想预测类别，而不是概率. 在二元分类问题中，scikit的classifier.predict()是否默认使用0.5?如果没有，默认方法是什么?如果是，我该如何更改? 在 scikit 中，一些分类器具有 class_weight='auto' 选项，但并非所有分类器都有.使用 class_weight='auto'，.predict() ..

发布时间：2021-12-14 09:30:18 python machine-learning classification scikit-learn AI人工智能

Scikit-learn:如何获得真阳性、真阴性、假阳性和假阴性

我的问题: 我有一个数据集，它是一个大型 JSON 文件.我读取它并将其存储在 trainList 变量中. 接下来，我对其进行预处理 - 为了能够使用它. 完成后我开始分类: 我使用 kfold 交叉验证方法来获得均值准确率并训练分类器. 我进行预测并获得准确度&该折叠的混淆矩阵. 在此之后，我想获得True Positive(TP)、True Negative(TN ..

发布时间：2021-12-14 09:29:57 python machine-learning scikit-learn classification supervised-learning AI人工智能

classification相关内容