supervised-learning相关内容

神经网络中的时间序列提前预测(N Point Ahead Prediction)大规模迭代训练

(N=90) 使用神经网络的前点预测: 我试图预测提前 3 分钟,即提前 180 分.因为我将时间序列数据压缩为每 2 个点的平均值为 1,所以我必须预测 (N=90) 超前预测. 我的时间序列数据以秒为单位.数值在 30-90 之间.它们通常从 30 移动到 90 和 90 到 30,如下例所示. 我的数据可能来自:https://www.dropbox.com/s/uq4ui ..

在 NLTK 中使用自定义标签训练标记器

我有一个带有标记数据的文档,格式为 嗨,这是我的 [KEYWORD 电话号码],请告诉我您何时想进行视频群聊:[PHONE 7802708523].我住在 [CITY New York] 的 [PROP_TYPE condo] .我想基于一组这些类型的标记文档来训练模型,然后使用我的模型来标记新文档.这在 NLTK 中可能吗?我看过 chunking 和 NLTK-Trainer 脚本,但这些有一 ..
发布时间:2022-01-02 17:34:19 其他开发

用于音频的卷积神经网络 (CNN)

我一直在关注 DeepLearning.net 上的教程,以了解如何实现从图像中提取特征的卷积神经网络.教程解释得很好,易于理解和遵循. 我想扩展相同的 CNN 以同时从视频(图像 + 音频)中提取多模态特征. 我了解视频输入只不过是在与音频相关的一段时间(例如 30 FPS)内显示的一系列图像(像素强度).但是,我真的不明白音频是什么、它是如何工作的,或者它是如何分解以输入网络的. ..

如何为 K 折交叉验证计算不平衡数据集的精度、召回率和 f1 分数?

我有一个包含二元分类问题的不平衡数据集.我构建了随机森林分类器并使用了 10 折的 k 折交叉验证. kfold = model_selection.KFold(n_splits=10, random_state=42)模型=随机森林分类器(n_estimators=50) 我得到了10折的结果 results = model_selection.cross_val_score(model, ..

用 Matplotlib 绘制 SVM?

我有一些有趣的用户数据.它提供了一些有关要求用户执行的某些任务的及时性的信息.我想知道,如果 late - 它告诉我用户是否准时 (0),有点晚 (1),或很晚 (2) - 是可预测/可解释的.我从提供交通灯信息的列中生成 late(绿色 = 不迟到,红色 = 超级迟到). 这是我所做的: #imports将熊猫导入为 pd将 numpy 导入为 np导入 matplotlib.pypl ..
发布时间:2021-12-25 14:40:51 其他开发

为多类计算 sklearn.roc_auc_score

我想为我的分类器计算 AUC、精度和准确度.我在做监督学习: 这是我的工作代码.此代码适用于二进制类,但不适用于多类.请假设您有一个包含二进制类的数据框: sample_features_dataframe = self._get_sample_features_dataframe()labeled_sample_features_dataframe =retrieve_labeled_s ..
发布时间:2021-12-25 14:37:40 Python

使用插入符号包和 R 绘制学习曲线

我想研究模型调整的偏差/方差之间的最佳权衡.我正在为 R 使用插入符号,它允许我针对模型的超参数(mtry、lambda 等)绘制性能指标(AUC、准确度...)并自动选择最大值.这通常会返回一个好的模型,但如果我想进一步挖掘并选择不同的偏差/方差权衡,我需要一个学习曲线,而不是性能曲线. 为了简单起见,假设我的模型是一个随机森林,它只有一个超参数“mtry" 我想绘制训练集和测试集的 ..
发布时间:2021-12-14 09:54:31 AI人工智能

我应该如何使用具有大量类别不成比例的数据来教授机器学习算法?(支持向量机)

我正在尝试使用看到横幅的人的点击和转化数据来教授我的 SVM 算法.主要问题是点击量占所有数据的 0.2% 左右,因此在其中存在很大的不成比例.当我在测试阶段使用简单的 SVM 时,它总是只预测“查看"类,而从不“点击"或“转换".平均而言,它给出了 99.8% 的正确答案(因为不成比例),但如果您选中“点击"或“转化"选项,它会给出 0% 的正确预测.您如何调整 SVM 算法(或选择另一个)以考 ..

Scikit-learn:如何获得真阳性、真阴性、假阳性和假阴性

我的问题: 我有一个数据集,它是一个大型 JSON 文件.我读取它并将其存储在 trainList 变量中. 接下来,我对其进行预处理 - 为了能够使用它. 完成后我开始分类: 我使用 kfold 交叉验证方法来获得均值准确率并训练分类器. 我进行预测并获得准确度&该折叠的混淆矩阵. 在此之后,我想获得True Positive(TP)、True Negative(TN ..

有监督学习和无监督学习有什么区别?

在人工智能和机器学习方面,有监督学习和无监督学习有什么区别?你能用一个例子提供一个基本的、简单的解释吗? 解决方案 既然你问了这个非常基本的问题,那么看起来值得说明机器学习本身是什么. 机器学习是一类数据驱动的算法,即与“普通"算法不同的是,数据“告诉"了“好的答案"是什么.示例:用于图像中人脸检测的假设非机器学习算法将尝试定义人脸是什么(圆形皮肤颜色的圆盘,在您期望眼睛的地方有暗区 ..

计算多类的 sklearn.roc_auc_score

我想为我的分类器计算 AUC、精度和准确度.我在做监督学习: 这是我的工作代码.此代码适用于二进制类,但不适用于多类.请假设您有一个包含二进制类的数据框: sample_features_dataframe = self._get_sample_features_dataframe()labeled_sample_features_dataframe =retrieve_labeled_s ..
发布时间:2021-07-16 19:52:01 Python

Quanteda 与插入符号中的朴素贝叶斯:结果截然不同

我正在尝试将 quanteda 和 caret 包结合使用,以根据训练样本对文本进行分类.作为测试运行,我想将 quanteda 的内置朴素贝叶斯分类器与 caret 中的分类器进行比较.但是,我似乎无法让 caret 正常工作. 这是一些复制代码.首先在 quanteda 端: 库(quanteda)图书馆(quanteda.corpora)图书馆(插入符号)corp %dfm_sele ..

查找返回黑盒模型最大输出的最佳输入组合

在将ANN应用于我的工作中的回归任务时,我面临的挑战之一是,为了在给定的输入范围内找到最佳的选择,我必须将多维网状网格提供给我的模型,然后简单地选择最高的价值.但是,这总体上是一个计算量很大的解决方案.波纹管的长度可能会令人恐惧,但这只是我为更好地解释它的尝试. 让我用其他话解释一下.假设我的 ANN 有 9 个输入,然后我想检查哪些特征值组合可以返回最高结果.我目前正在通过仅创建9D网格并 ..

sklearn中的x_test,x_train,y_test,y_train有什么区别?

我正在学习sklearn,我不十分了解它们之间的区别,以及为什么要使用带有train_test_split函数的4个输出. 在文档中,我找到了一些示例,但这还不足以结束我的疑问. 代码是使用x_train预测x_test还是使用x_train预测y_test? 培训与考试有什么区别?我会使用火车来预测测试或类似的结果吗? 我对此很困惑.我将在文档中提供的示例下面. >>> ..

如何计算不平衡数据集的精度,召回率和f1分数以进行K折交叉验证?

我有一个包含二进制分类问题的不平衡数据集,我构建了Random Forest分类器并使用了10倍的k倍交叉验证. kfold = model_selection.KFold(n_splits = 10,random_state = 42)型号= RandomForestClassifier(n_estimators = 50) 我得到10折的结果 结果= model_selection. ..

改进流程Python分类器并结合功能

我正在尝试创建一个分类器以对网站进行分类.我是第一次这样做,所以对我来说,这都是很新的.目前,我正在尝试在网页的几个部分(例如标题,文本,标题)上做一些“单词袋".看起来像这样: from sklearn.feature_extraction.text import CountVectorizer countvect_text = CountVectorizer(encoding="cp12 ..

使用Matplotlib绘制SVM?

我有一些有趣的用户数据.它提供了有关要求用户执行某些任务的及时性的信息.我正在尝试找出late(这是告诉我用户是否按时(0),晚点(1)还是晚点(2))是可预测/可解释的.我从提供交通信号灯信息的列中生成late(绿色=不晚,红色=超晚). 这是我的工作: #imports import pandas as pd import numpy as np import ma ..
发布时间:2020-05-28 03:16:22 其他开发

输入数据集如何馈入神经网络?

如果我的数据集中有1000个带有15个特征和1个标签的观测值,那么如何将输入神经元中的数据馈入进行正向传播和反向传播?它是逐行馈送1000个观测值(一次一个),权重随馈入的每个观测值而更新,还是根据输入矩阵给出完整数据,然后以历元数来学习相应的权重值?另外,如果一次喂一次,在那种情况下会是什么时期? 谢谢 解决方案 假定数据格式化为行(1000个实例,每个实例具有16个功能,最后一个为标签 ..
发布时间:2020-05-17 19:29:22 其他开发

卷积神经网络(CNN)用于音频

我一直在关注DeepLearning.net上的教程,以学习如何实现从图像中提取特征的卷积神经网络.该教程说明得很好,易于理解和遵循. 我想扩展同一个CNN,以便同时从视频(图像+音频)中提取多模式特征. 我了解视频输入只不过是在与音频相关联的一段时间(例如30 FPS)中显示的一系列图像(像素强度).但是,我不太了解音频是什么,如何工作或如何分解为音频以馈入网络. 我已经阅读了 ..