scikit-learn 第5页 - IT屋-程序员软件开发技术分享社区

TfidfVectorizer似乎给出了不正确的结果

我有一个长度为7(7个主题)的列表列表中的每个元素都包含一个很长的单词字符串。列表中的每个元素都可以被视为一个主题，其中有一个长句将其区分开来我要检查哪些单词使每个主题具有唯一性(列表中的每个元素) 以下是我的代码： from sklearn.feature_extraction.text import TfidfVectorizer train = read_train_ ..

发布时间：2022-02-21 16:30:19 scikit-learn nlp tf-idf tfidfvectorizer 其他开发

是否可以从SelectFromModel方法输出选定的列名？

我在加载为DataFrame的数据集中使用ExtraTreesSorfier和SelectFromModel进行了特征选择，但是我想将这些选中的特征作为DataFrame保存到CSV文件，同时保持列名。请注意，输出是数值数组返回重要功能整列而不是列标题 import pandas as pd from sklearn.ensemble import ExtraTreesClassifier ..

发布时间：2022-02-21 16:29:28 python scikit-learn Python

为什么我在Kera vs Random Forest或KNN上得到了不好的结果？

我正在使用keras学习深度学习，并尝试将结果(准确性)与机器学习算法(sklearn)(即random forest，k_neighbors)进行比较似乎使用keras我得到的结果最差。我正在处理简单的分类问题：iris dataset 我的keras代码看起来是： samples = datasets.load_iris() X = samples.data y = sampl ..

发布时间：2022-02-21 10:42:28 tensorflow machine-learning keras scikit-learn neural-network AI人工智能

如何保存 GridSearchCV 对象?

最近，我一直致力于在带有 Tensorflow 后端的 Keras 中应用网格搜索交叉验证 (sklearn GridSearchCV) 进行超参数调整.我的模型调整好后我正在尝试保存 GridSearchCV 对象以供以后使用，但没有成功. 超参数调优如下: x_train, x_val, y_train, y_val = train_test_split(NN_input, NN_ta ..

发布时间：2022-01-24 19:12:04 python scikit-learn keras save grid-search Python

从分段时间序列创建 Scikit-learn 标记数据集

简介我有一个代表不同用户(即 user1 和 user2)的分段时间序列的 Pandas DataFrame.我想用提到的 DataFrame 训练一个 scikit-learn 分类器，但我无法理解我必须创建的 scikit-learn 数据集的形状.由于我的系列是分段的，因此我的 DataFrame 有一个“segID"列，其中包含特定段的 ID.我将跳过分段的描述，因为它是由一种算法 ..

发布时间：2022-01-21 13:36:12 python pandas dataset scikit-learn classification Python

使用预定义列表获取 pandas 列中匹配单词的计数

我有一个 DataFrame 包含 index 和 text 列. 例如: 索引 |文本1 |“我有一支笔，但今天丢了."2 |“我有菠萝和笔，但我今天弄丢了." 现在我有一个很长的列表，我想将 text 中的每个单词与列表进行匹配. 假设: long_list = ['pen', 'pineapple'] 我想创建一个 FunctionTransformer 来匹配 long ..

发布时间：2022-01-21 13:31:52 python pandas dataframe scikit-learn dataset Python

如何在 scikit-learn(用于计算机视觉)中使用我自己的数据集?

如何在 scikit-learn 中使用我自己的数据集?Scikit Tutorial总是以加载他的数据集(数字数据集，花卉数据集...)为例. http://scikit-learn.org/stable/datasets/index.html即:从 sklearn.datasets 导入 load_iris 我有我的图像，但我不知道如何创建新图像. 特别是，对于开始，我使用我 ..

发布时间：2022-01-21 13:09:42 image dataset machine-learning scikit-learn feature-extraction AI人工智能

如何使用 scikit-learn 创建我自己的数据集?

..

发布时间：2022-01-21 12:51:47 python csv machine-learning scikit-learn dataset AI人工智能

大型数据集的 TFIDF

我有一个包含大约 800 万篇新闻文章的语料库，我需要将它们的 TFIDF 表示为稀疏矩阵.对于相对较少数量的样本，我已经能够使用 scikit-learn 做到这一点，但我相信它不能用于如此庞大的数据集，因为它首先将输入矩阵加载到内存中，这是一个昂贵的过程. 有谁知道，为大型数据集提取 TFIDF 向量的最佳方法是什么? 解决方案 Gensim 有一个高效的 tf-idf 模型并 ..

发布时间：2022-01-15 12:26:59 python lucene nlp scikit-learn tf-idf Python

使用交叉验证 (CV) 计算 scikit-learn 多类 ROC 曲线

我想用 ROC 曲线评估我的分类模型.我正在努力为交叉验证的数据集计算多类 ROC 曲线.由于交叉验证，训练集和测试集没有划分.在下面，您可以看到我已经尝试过的代码. scaler = StandardScaler(with_mean=False)编码 = 标签编码器()y = enc.fit_transform(标签)vec = DictVectorizer()feat_sel = Sele ..

发布时间：2022-01-13 18:32:01 python machine-learning attributes scikit-learn roc AI人工智能

在 python 存储库名称和包名称中使用连字符/破折号

我正在尝试使我的 git 存储库 pip 可安装.为此，我正在重组 repo 以遵循正确的约定.通过查看其他存储库，我的理解是，我应该将所有源代码放在与存储库名称同名的包中.例如.如果我的存储库名为 myrepo，那么源代码将全部放入一个也称为 myrepo 的包中. 为了便于阅读，我的存储库中有一个连字符:例如我的仓库.所以如果我想为它创建一个同名的包，它也会有一个连字符.在本教程中它说 ..

发布时间：2022-01-13 16:42:39 python scikit-learn pip package pypi Python

如何修复/调试 scikit learn 中引发的这个多进程终止工作错误

我最近设置了一台新机器，以帮助减少拟合模型和数据处理的运行时间. 我做了一些初步的基准测试，一切都很顺利，但是当我尝试在 scikit learn 中启用多进程工作者时遇到了障碍. 我已将错误简化为与我的原始代码无关，因为我在不同的机器和 VM 上启用了此功能而没有问题. 我还进行了内存分配检查，以确保我的机器没有用完可用的 RAM.我有 16gb 的 RAM，所以应该没有问题， ..

发布时间：2022-01-12 12:57:31 python scikit-learn scipy multiprocessing Python

如何在python中使用动态时间扭曲和kNN

我有一个带有两个标签(0 和 1)的时间序列数据集.我正在使用动态时间规整 (DTW) 作为使用 k 近邻 (kNN) 进行分类的相似性度量，如以下两篇精彩的博客文章所述: https://nbviewer.jupyter.org/github/markdregan/K-Nearest-Neighbors-with-Dynamic-Time-Warping/blob/master/K_Nea ..

发布时间：2022-01-11 10:07:30 python scikit-learn time-series classification knn Python

如何在 sklearn 中实现前向测试?

在 sklearn 中，GridSearchCV 可以将管道作为参数，通过交叉验证找到最佳估计器.然而，通常的交叉验证是这样的: 为了交叉验证时间序列数据，训练和测试数据通常是这样拆分的: 也就是说，测试数据应该总是领先于训练数据. 我的想法是: 编写我自己的k-fold版本类并将其传递给GridSearchCV，这样我就可以享受管道的便利.问题是让 GridSearchC ..

发布时间：2022-01-11 10:04:36 python scikit-learn time-series cross-validation Python

如何预测 scikit-learn 中的时间序列?

Scikit-learn 使用了一种非常方便的方法，基于 fit 和 predict 方法.我有适合 fit 和 predict 格式的时间序列数据. 例如我有以下 Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ..., [3.2, 4.7, 1.1]] 以及对应的ys: [[1.0], [2.3], ..., [7.7]] 这些数据具有以下含义.ys ..

发布时间：2022-01-11 09:36:21 python machine-learning time-series scikit-learn AI人工智能

获取“ModuleNotFoundError: No module named 'sklearn.impute'"尽管安装了最新的 sklearn (0.19.1)

我正在做一场 Kaggle 比赛，需要填补一些缺失的数据.我已经安装了最新的 Anaconda(4.5.4) 以及所有相关的依赖项(即 scikit-learn (0.19.1)). 当我尝试导入模块时，出现以下错误: ModuleNotFoundError:没有名为“sklearn.impute"的模块我尝试导入不同的 sklearn 模块，没有任何问题.似乎只有 sklea ..

发布时间：2022-01-10 21:43:59 python-3.x scikit-learn anaconda 其他开发

scikit-learn joblib 错误:多处理池 self.value 超出“i"格式代码的范围，仅适用于大型 numpy 数组

我的代码在较小的测试样本上运行良好，例如 X_train、y_train 中的 10000 行数据.当我为数百万行调用它时，我得到了结果错误.包中的错误，还是我可以做一些不同的事情?我正在使用 Anaconda 2.0.1 中的 Python 2.7.7，我把 pool.py 来自 Anaconda 的多处理包和 parallel.py 来自 scikit-learn 的外部包在我的 Dropbo ..

发布时间：2022-01-10 21:38:19 python numpy multiprocessing scikit-learn anaconda Python

在 Anaconda 上升级到 scikit-learn 的开发版?

我正在通过 Anaconda 使用 python，并且想使用一个新功能(http://scikit-learn.org/dev/modules/neural_networks_supervised.html)在 scikit-learn 中，目前仅在开发版本 0.18.dev0 中可用. 但是，执行经典的 conda update 似乎不起作用，因为 conda 没有列出任何开发包.将开发版 ..

发布时间：2022-01-10 21:37:15 python scikit-learn upgrade anaconda Python

相同的 Python 代码，相同的数据，不同机器上的不同结果

我有一个很奇怪的问题，我在不同的机器上使用相同的代码和相同的数据得到不同的结果. 我有一个基于 numpy/scipy/sklearn 的 python 代码，我使用 anaconda 作为我的基本 python 发行版.即使我将整个项目目录(包括所有数据和代码)从我的主机复制到另一台机器并运行它，我得到的结果也是不同的.具体来说，我正在做一个分类任务，我得到了 3% 的准确度差异.我在两台 ..

发布时间：2022-01-10 21:17:49 python numpy scipy scikit-learn anaconda Python

'From/import' 不是内部或外部命令、可运行程序或批处理文件

我在从 scikit-learn 导入机器学习算法时遇到问题.我已经安装了它，但是每当我输入例如“from sklearn.naive_bayes import GaussianNB"时，它都会显示“'from' 未被识别为内部或外部命令、可运行程序或批处理文件.我在 Windows 10 上使用 Anaconda.是否存在兼容性问题?我错过了什么吗?Idk 我对 Python 还是很陌生，所以我 ..

发布时间：2022-01-10 21:09:26 python machine-learning scikit-learn windows-10 anaconda AI人工智能

scikit-learn相关内容