machine-learning相关内容

标准化 SVM 的特征值

我一直在玩一些 SVM 实现,我想知道 - 将特征值标准化以适应一个范围的最佳方法是什么?(从 0 到 1) 假设我有 3 个特征值在以下范围内: 3 - 5. 0.02 - 0.05 10-15. 如何将所有这些值转换为 [0,1] 的范围? 如果在训练期间,我将遇到的特征编号 1 的最大值是 5,而在我开始在更大的数据集上使用我的模型后,我会偶然发现高达 7 ..

如何保存&加载 xgboost 模型?

来自 XGBoost 指南: 训练完成后,模型就可以保存了. bst.save_model('0001.model') 模型及其特征图也可以转储到文本文件中. #转储模型bst.dump_model('dump.raw.txt')# 带有特征图的转储模型bst.dump_model('dump.raw.txt', 'featmap.txt') 可以按如下方式加载保存的模型: bst ..
发布时间:2022-01-24 18:14:17 AI人工智能

Tensorflow 模型正确拟合格式数据——TypeError:无法将符号 Keras 输入/输出转换为 numpy 数组

对于 NLP 任务,我的输入数据集被转换为如下所示:整数列表.特征和标签是同一个数据集. >>>training_data = [[ 0 4 79 3179 11 44​​ 8 1 11245 173 152 101 1138 1079][ 0 0 4 79 3179 11 44​​ 8 11566 173 152 81 1138 1079][ 0 0 0 0 0 0 0 9 15 333 44 ..

用于测试非线性 SVM 的数据集

我正在实现一个非线性 SVM,我想在一个简单的非线性可分数据上测试我的实现.谷歌没有帮我找到我想要的.你能告诉我在哪里可以找到这样的数据吗?或者至少,我怎样才能手动生成这样的数据? 谢谢, 解决方案 嗯,SVM 是两类分类器 - 即,这些分类器将数据放置在单个决策边界的任一侧. 因此,我建议一个仅包含两个类的数据集(这不是绝对必要的,因为 SVM 可以通过多次(串行)传递分类器 ..

如何在 scikit-learn(用于计算机视觉)中使用我自己的数据集?

如何在 scikit-learn 中使用我自己的数据集?Scikit Tutorial总是以加载他的数据集(数字数据集,花卉数据集...)为例. http://scikit-learn.org/stable/datasets/index.html即:从 sklearn.datasets 导入 load_iris 我有我的图像,但我不知道如何创建新图像. 特别是,对于开始,我使用我 ..

Python - Pandas,重新采样数据集以具有平衡的类

使用以下数据框,只有 2 个可能的标签: 名称 f1 f2 标签0 一个 8 9 11 一个 5 3 12 乙 8 9 03 C 9 2 04 C 8 1 05 C 9 1 06 天 2 1 07 天 9 7 08 天 3 1 09 E 5 1 110 E 3 6 111 E 7 1 1 我编写了一个代码来按“名称"列对数据进行分组,并将结果转换为一个 numpy 数组,因此每一行都是特定组 ..
发布时间:2022-01-21 13:08:22 AI人工智能

多类分类中负例的经验法则

对于在多类分类任务中表示“其他所有内容"的标签的样本数量应该有多大,是否有经验法则? 示例:我想将我的输入分类为 X 类之一.X + 1 类在输入为“以上都不是"时激活.假设我的数据集包含来自 10 个“正"类中的每一个的 5,000 个样本.对于代表“未知"类的示例,我将使用多个可能在生产中找到的实际示例,但这些示例不是来自其他类. 这些负例的数量相对于其他分布应该有多大? 解 ..
发布时间:2022-01-21 13:01:49 AI人工智能

glmnet 的标准化参数如何处理虚拟变量?

在我的数据集中,我有许多连续变量和虚拟变量.对于 glmnet 的分析,我希望对连续变量进行标准化,而不是对虚拟变量进行标准化. 我目前手动执行此操作,首先定义一个只有 [0,1] 值的列的虚拟向量,然后在所有非虚拟列上使用 scale 命令.问题是,这不是很优雅. 但是 glmnet 有一个内置的 standardize 参数.默认情况下,这也会标准化假人吗?如果是这样,有没有一种优 ..
发布时间:2022-01-21 12:50:05 AI人工智能

如何更改 Pytorch 数据集的大小?

假设我正在从 torchvision.datasets.MNIST 加载 MNIST,但我只想加载总共 10000 张图像,我将如何对数据进行切片以将其限制为仅一些数据点?我知道 DataLoader 是一个生成器,可以生成指定批量大小的数据,但是如何对数据集进行切片呢? tr = datasets.MNIST('../data', train=True, download=True, tran ..
发布时间:2022-01-21 12:41:02 AI人工智能

如何使用 matplotlib (python) colah 的变形网格进行绘图?

我需要在 Python 中创建一个可视化,就像 colah 在他的网站上所做的那样.但是,我在 matplotlib 上找不到任何失真,以完全像他那样执行 这里.如果可以,请帮助我. 这是我需要执行的情节: 解决方案 我猜图像是通过在网格中添加一些高斯函数产生的. 将 numpy 导入为 np将 matplotlib.pyplot 导入为 plt从 matplotlib.colle ..
发布时间:2022-01-18 10:26:58 AI人工智能

Java 开源文本挖掘框架

我想知道最好的基于 Java 的开源文本挖掘框架,以使用 botg 机器学习和字典方法. 我正在使用 Mallet,但没有那么多文档,我不知道它是否符合我的所有要求. 解决方案 老实说,我认为这里提供的几个答案非常好.但是,为了满足我的要求,我选择使用 Apache UIMA 和 ClearTK.它支持多种 ML 方法,我没有任何许可证问题.另外,我可以对其他 ML 方法进行封装,并 ..

如何对用 lucene 索引的文档进行分类

我用 Lucene 对一组文档进行了分类(字段:内容、类别).每个文档都有自己的类别,但其中一些被标记为未分类.有没有什么方法可以在java中轻松分类这些文档? 解决方案 从 Lucene 5.2.1 开始,您可以使用 索引文档以对新文档进行分类.开箱即用,Lucene 提供了一个朴素贝叶斯分类器,一个 k-最近邻分类器(基于 MoreLikeThis 类)和基于感知器的分类器. 缺 ..
发布时间:2022-01-15 13:19:07 Java开发

使用交叉验证 (CV) 计算 scikit-learn 多类 ROC 曲线

我想用 ROC 曲线评估我的分类模型.我正在努力为交叉验证的数据集计算多类 ROC 曲线.由于交叉验证,训练集和测试集没有划分.在下面,您可以看到我已经尝试过的代码. scaler = StandardScaler(with_mean=False)编码 = 标签编码器()y = enc.fit_transform(标签)vec = DictVectorizer()feat_sel = Sele ..
发布时间:2022-01-13 18:32:01 AI人工智能

神经网络中的时间序列提前预测(N Point Ahead Prediction)大规模迭代训练

(N=90) 使用神经网络的前点预测: 我试图预测提前 3 分钟,即提前 180 分.因为我将时间序列数据压缩为每 2 个点的平均值为 1,所以我必须预测 (N=90) 超前预测. 我的时间序列数据以秒为单位.数值在 30-90 之间.它们通常从 30 移动到 90 和 90 到 30,如下例所示. 我的数据可能来自:https://www.dropbox.com/s/uq4ui ..

使用 RNN 进行非线性多元时间序列响应预测

考虑到内部和外部气候,我正在尝试预测墙壁的湿热响应.根据文献研究,我认为 RNN 应该可以做到这一点,但我无法获得良好的准确性. 数据集有 12 个输入特征(外部和内部气候数据的时间序列)和 10 个输出特征(湿热响应的时间序列),均包含 10 年的每小时值.该数据是使用湿热模拟软件创建的,没有丢失数据. 数据集特征: 数据集目标: 与大多数时间序列预测问题不同,我想预测每 ..