scikit-learn相关内容

TfidfVectorizer似乎给出了不正确的结果

我有一个长度为7(7个主题)的列表 列表中的每个元素都包含一个很长的单词字符串。 列表中的每个元素都可以被视为一个主题,其中有一个长句将其区分开来 我要检查哪些单词使每个主题具有唯一性(列表中的每个元素) 以下是我的代码: from sklearn.feature_extraction.text import TfidfVectorizer train = read_train_ ..
发布时间:2022-02-21 16:30:19 其他开发

是否可以从SelectFromModel方法输出选定的列名?

我在加载为DataFrame的数据集中使用ExtraTreesSorfier和SelectFromModel进行了特征选择,但是我想将这些选中的特征作为DataFrame保存到CSV文件,同时保持列名。请注意,输出是数值数组返回重要功能整列而不是列标题 import pandas as pd from sklearn.ensemble import ExtraTreesClassifier ..
发布时间:2022-02-21 16:29:28 Python

为什么我在Kera vs Random Forest或KNN上得到了不好的结果?

我正在使用keras学习深度学习,并尝试将结果(准确性)与机器学习算法(sklearn)(即random forest,k_neighbors)进行比较 似乎使用keras我得到的结果最差。 我正在处理简单的分类问题:iris dataset 我的keras代码看起来是: samples = datasets.load_iris() X = samples.data y = sampl ..

如何保存 GridSearchCV 对象?

最近,我一直致力于在带有 Tensorflow 后端的 Keras 中应用网格搜索交叉验证 (sklearn GridSearchCV) 进行超参数调整.我的模型调整好后我正在尝试保存 GridSearchCV 对象以供以后使用,但没有成功. 超参数调优如下: x_train, x_val, y_train, y_val = train_test_split(NN_input, NN_ta ..
发布时间:2022-01-24 19:12:04 Python

从分段时间序列创建 Scikit-learn 标记数据集

简介 我有一个代表不同用户(即 user1 和 user2)的分段时间序列的 Pandas DataFrame.我想用提到的 DataFrame 训练一个 scikit-learn 分类器,但我无法理解我必须创建的 scikit-learn 数据集的形状.由于我的系列是分段的,因此我的 DataFrame 有一个“segID"列,其中包含特定段的 ID.我将跳过分段的描述,因为它是由一种算法 ..
发布时间:2022-01-21 13:36:12 Python

使用预定义列表获取 pandas 列中匹配单词的计数

我有一个 DataFrame 包含 index 和 text 列. 例如: 索引 |文本1 |“我有一支笔,但今天丢了."2 |“我有菠萝和笔,但我今天弄丢了." 现在我有一个很长的列表,我想将 text 中的每个单词与列表进行匹配. 假设: long_list = ['pen', 'pineapple'] 我想创建一个 FunctionTransformer 来匹配 long ..
发布时间:2022-01-21 13:31:52 Python

如何在 scikit-learn(用于计算机视觉)中使用我自己的数据集?

如何在 scikit-learn 中使用我自己的数据集?Scikit Tutorial总是以加载他的数据集(数字数据集,花卉数据集...)为例. http://scikit-learn.org/stable/datasets/index.html即:从 sklearn.datasets 导入 load_iris 我有我的图像,但我不知道如何创建新图像. 特别是,对于开始,我使用我 ..

大型数据集的 TFIDF

我有一个包含大约 800 万篇新闻文章的语料库,我需要将它们的 TFIDF 表示为稀疏矩阵.对于相对较少数量的样本,我已经能够使用 scikit-learn 做到这一点,但我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程. 有谁知道,为大型数据集提取 TFIDF 向量的最佳方法是什么? 解决方案 Gensim 有一个高效的 tf-idf 模型 并 ..
发布时间:2022-01-15 12:26:59 Python

使用交叉验证 (CV) 计算 scikit-learn 多类 ROC 曲线

我想用 ROC 曲线评估我的分类模型.我正在努力为交叉验证的数据集计算多类 ROC 曲线.由于交叉验证,训练集和测试集没有划分.在下面,您可以看到我已经尝试过的代码. scaler = StandardScaler(with_mean=False)编码 = 标签编码器()y = enc.fit_transform(标签)vec = DictVectorizer()feat_sel = Sele ..
发布时间:2022-01-13 18:32:01 AI人工智能

在 python 存储库名称和包名称中使用连字符/破折号

我正在尝试使我的 git 存储库 pip 可安装.为此,我正在重组 repo 以遵循正确的约定.通过查看其他存储库,我的理解是,我应该将所有源代码放在与存储库名称同名的包中.例如.如果我的存储库名为 myrepo,那么源代码将全部放入一个也称为 myrepo 的包中. 为了便于阅读,我的存储库中有一个连字符:例如我的仓库.所以如果我想为它创建一个同名的包,它也会有一个连字符.在本教程中 它说 ..
发布时间:2022-01-13 16:42:39 Python

如何修复/调试 scikit learn 中引发的这个多进程终止工作错误

我最近设置了一台新机器,以帮助减少拟合模型和数据处理的运行时间. 我做了一些初步的基准测试,一切都很顺利,但是当我尝试在 scikit learn 中启用多进程工作者时遇到了障碍. 我已将错误简化为与我的原始代码无关,因为我在不同的机器和 VM 上启用了此功能而没有问题. 我还进行了内存分配检查,以确保我的机器没有用完可用的 RAM.我有 16gb 的 RAM,所以应该没有问题, ..
发布时间:2022-01-12 12:57:31 Python

如何在 sklearn 中实现前向测试?

在 sklearn 中,GridSearchCV 可以将管道作为参数,通过交叉验证找到最佳估计器.然而,通常的交叉验证是这样的: 为了交叉验证时间序列数据,训练和测试数据通常是这样拆分的: 也就是说,测试数据应该总是领先于训练数据. 我的想法是: 编写我自己的k-fold版本类并将其传递给GridSearchCV,这样我就可以享受管道的便利.问题是让 GridSearchC ..
发布时间:2022-01-11 10:04:36 Python

获取“ModuleNotFoundError: No module named 'sklearn.impute'"尽管安装了最新的 sklearn (0.19.1)

我正在做一场 Kaggle 比赛,需要填补一些缺失的数据.我已经安装了最新的 Anaconda(4.5.4) 以及所有相关的依赖项(即 scikit-learn (0.19.1)). 当我尝试导入模块时,出现以下错误: ModuleNotFoundError:没有名为“sklearn.impute"的模块 我尝试导入不同的 sklearn 模块,没有任何问题.似乎只有 sklea ..
发布时间:2022-01-10 21:43:59 其他开发

scikit-learn joblib 错误:多处理池 self.value 超出“i"格式代码的范围,仅适用于大型 numpy 数组

我的代码在较小的测试样本上运行良好,例如 X_train、y_train 中的 10000 行数据.当我为数百万行调用它时,我得到了结果错误.包中的错误,还是我可以做一些不同的事情?我正在使用 Anaconda 2.0.1 中的 Python 2.7.7,我把 pool.py 来自 Anaconda 的多处理包和 parallel.py 来自 scikit-learn 的外部包在我的 Dropbo ..
发布时间:2022-01-10 21:38:19 Python

在 Anaconda 上升级到 scikit-learn 的开发版?

我正在通过 Anaconda 使用 python,并且想使用一个新功能(http://scikit-learn.org/dev/modules/neural_networks_supervised.html)在 scikit-learn 中,目前仅在开发版本 0.18.dev0 中可用. 但是,执行经典的 conda update 似乎不起作用,因为 conda 没有列出任何开发包.将开发版 ..
发布时间:2022-01-10 21:37:15 Python

相同的 Python 代码,相同的数据,不同机器上的不同结果

我有一个很奇怪的问题,我在不同的机器上使用相同的代码和相同的数据得到不同的结果. 我有一个基于 numpy/scipy/sklearn 的 python 代码,我使用 anaconda 作为我的基本 python 发行版.即使我将整个项目目录(包括所有数据和代码)从我的主机复制到另一台机器并运行它,我得到的结果也是不同的.具体来说,我正在做一个分类任务,我得到了 3% 的准确度差异.我在两台 ..
发布时间:2022-01-10 21:17:49 Python

'From/import' 不是内部或外部命令、可运行程序或批处理文件

我在从 scikit-learn 导入机器学习算法时遇到问题.我已经安装了它,但是每当我输入例如“from sklearn.naive_bayes import GaussianNB"时,它都会显示“'from' 未被识别为内部或外部命令、可运行程序或批处理文件.我在 Windows 10 上使用 Anaconda.是否存在兼容性问题?我错过了什么吗?Idk 我对 Python 还是很陌生,所以我 ..