scikit-learn相关内容
我有一个长度为7(7个主题)的列表 列表中的每个元素都包含一个很长的单词字符串。 列表中的每个元素都可以被视为一个主题,其中有一个长句将其区分开来 我要检查哪些单词使每个主题具有唯一性(列表中的每个元素) 以下是我的代码: from sklearn.feature_extraction.text import TfidfVectorizer train = read_train_
..
我在加载为DataFrame的数据集中使用ExtraTreesSorfier和SelectFromModel进行了特征选择,但是我想将这些选中的特征作为DataFrame保存到CSV文件,同时保持列名。请注意,输出是数值数组返回重要功能整列而不是列标题 import pandas as pd from sklearn.ensemble import ExtraTreesClassifier
..
我正在使用keras学习深度学习,并尝试将结果(准确性)与机器学习算法(sklearn)(即random forest,k_neighbors)进行比较 似乎使用keras我得到的结果最差。 我正在处理简单的分类问题:iris dataset 我的keras代码看起来是: samples = datasets.load_iris() X = samples.data y = sampl
..
最近,我一直致力于在带有 Tensorflow 后端的 Keras 中应用网格搜索交叉验证 (sklearn GridSearchCV) 进行超参数调整.我的模型调整好后我正在尝试保存 GridSearchCV 对象以供以后使用,但没有成功. 超参数调优如下: x_train, x_val, y_train, y_val = train_test_split(NN_input, NN_ta
..
简介 我有一个代表不同用户(即 user1 和 user2)的分段时间序列的 Pandas DataFrame.我想用提到的 DataFrame 训练一个 scikit-learn 分类器,但我无法理解我必须创建的 scikit-learn 数据集的形状.由于我的系列是分段的,因此我的 DataFrame 有一个“segID"列,其中包含特定段的 ID.我将跳过分段的描述,因为它是由一种算法
..
我有一个 DataFrame 包含 index 和 text 列. 例如: 索引 |文本1 |“我有一支笔,但今天丢了."2 |“我有菠萝和笔,但我今天弄丢了." 现在我有一个很长的列表,我想将 text 中的每个单词与列表进行匹配. 假设: long_list = ['pen', 'pineapple'] 我想创建一个 FunctionTransformer 来匹配 long
..
如何在 scikit-learn 中使用我自己的数据集?Scikit Tutorial总是以加载他的数据集(数字数据集,花卉数据集...)为例. http://scikit-learn.org/stable/datasets/index.html即:从 sklearn.datasets 导入 load_iris 我有我的图像,但我不知道如何创建新图像. 特别是,对于开始,我使用我
..
..
我有一个包含大约 800 万篇新闻文章的语料库,我需要将它们的 TFIDF 表示为稀疏矩阵.对于相对较少数量的样本,我已经能够使用 scikit-learn 做到这一点,但我相信它不能用于如此庞大的数据集,因为它首先将输入矩阵加载到内存中,这是一个昂贵的过程. 有谁知道,为大型数据集提取 TFIDF 向量的最佳方法是什么? 解决方案 Gensim 有一个高效的 tf-idf 模型 并
..
我想用 ROC 曲线评估我的分类模型.我正在努力为交叉验证的数据集计算多类 ROC 曲线.由于交叉验证,训练集和测试集没有划分.在下面,您可以看到我已经尝试过的代码. scaler = StandardScaler(with_mean=False)编码 = 标签编码器()y = enc.fit_transform(标签)vec = DictVectorizer()feat_sel = Sele
..
我正在尝试使我的 git 存储库 pip 可安装.为此,我正在重组 repo 以遵循正确的约定.通过查看其他存储库,我的理解是,我应该将所有源代码放在与存储库名称同名的包中.例如.如果我的存储库名为 myrepo,那么源代码将全部放入一个也称为 myrepo 的包中. 为了便于阅读,我的存储库中有一个连字符:例如我的仓库.所以如果我想为它创建一个同名的包,它也会有一个连字符.在本教程中 它说
..
我最近设置了一台新机器,以帮助减少拟合模型和数据处理的运行时间. 我做了一些初步的基准测试,一切都很顺利,但是当我尝试在 scikit learn 中启用多进程工作者时遇到了障碍. 我已将错误简化为与我的原始代码无关,因为我在不同的机器和 VM 上启用了此功能而没有问题. 我还进行了内存分配检查,以确保我的机器没有用完可用的 RAM.我有 16gb 的 RAM,所以应该没有问题,
..
我有一个带有两个标签(0 和 1)的时间序列数据集.我正在使用动态时间规整 (DTW) 作为使用 k 近邻 (kNN) 进行分类的相似性度量,如以下两篇精彩的博客文章所述: https://nbviewer.jupyter.org/github/markdregan/K-Nearest-Neighbors-with-Dynamic-Time-Warping/blob/master/K_Nea
..
在 sklearn 中,GridSearchCV 可以将管道作为参数,通过交叉验证找到最佳估计器.然而,通常的交叉验证是这样的: 为了交叉验证时间序列数据,训练和测试数据通常是这样拆分的: 也就是说,测试数据应该总是领先于训练数据. 我的想法是: 编写我自己的k-fold版本类并将其传递给GridSearchCV,这样我就可以享受管道的便利.问题是让 GridSearchC
..
Scikit-learn 使用了一种非常方便的方法,基于 fit 和 predict 方法.我有适合 fit 和 predict 格式的时间序列数据. 例如我有以下 Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ..., [3.2, 4.7, 1.1]] 以及对应的ys: [[1.0], [2.3], ..., [7.7]] 这些数据具有以下含义.ys
..
我正在做一场 Kaggle 比赛,需要填补一些缺失的数据.我已经安装了最新的 Anaconda(4.5.4) 以及所有相关的依赖项(即 scikit-learn (0.19.1)). 当我尝试导入模块时,出现以下错误: ModuleNotFoundError:没有名为“sklearn.impute"的模块 我尝试导入不同的 sklearn 模块,没有任何问题.似乎只有 sklea
..
我的代码在较小的测试样本上运行良好,例如 X_train、y_train 中的 10000 行数据.当我为数百万行调用它时,我得到了结果错误.包中的错误,还是我可以做一些不同的事情?我正在使用 Anaconda 2.0.1 中的 Python 2.7.7,我把 pool.py 来自 Anaconda 的多处理包和 parallel.py 来自 scikit-learn 的外部包在我的 Dropbo
..
我正在通过 Anaconda 使用 python,并且想使用一个新功能(http://scikit-learn.org/dev/modules/neural_networks_supervised.html)在 scikit-learn 中,目前仅在开发版本 0.18.dev0 中可用. 但是,执行经典的 conda update 似乎不起作用,因为 conda 没有列出任何开发包.将开发版
..
我有一个很奇怪的问题,我在不同的机器上使用相同的代码和相同的数据得到不同的结果. 我有一个基于 numpy/scipy/sklearn 的 python 代码,我使用 anaconda 作为我的基本 python 发行版.即使我将整个项目目录(包括所有数据和代码)从我的主机复制到另一台机器并运行它,我得到的结果也是不同的.具体来说,我正在做一个分类任务,我得到了 3% 的准确度差异.我在两台
..
我在从 scikit-learn 导入机器学习算法时遇到问题.我已经安装了它,但是每当我输入例如“from sklearn.naive_bayes import GaussianNB"时,它都会显示“'from' 未被识别为内部或外部命令、可运行程序或批处理文件.我在 Windows 10 上使用 Anaconda.是否存在兼容性问题?我错过了什么吗?Idk 我对 Python 还是很陌生,所以我
..