scikit-learn相关内容

GridSearchCV(sklearn) 中的多个估计器

我正在查看有关 GridSearchCV 的 sklearn 文档网页.GridSearchCV 对象的属性之一是 best_estimator_.所以这是我的问题.如何将多个估计量传递给 GSCV 对象? 使用如下字典:{'SVC()':{'C':10, 'gamma':0.01}, 'DecTreeClass()':{....}}? 解决方案 GridSearchCV 适用于参数 ..
发布时间:2021-12-25 14:55:35 Python

使用 sklearn 在大型稀疏矩阵上执行 PCA

我正在尝试在巨大的稀疏矩阵上应用 PCA,在下面的链接中它说 sklearn 的 randomPCA 可以处理 scipy 稀疏格式的稀疏矩阵.在非常大的稀疏矩阵上应用 PCA 但是,我总是出错.有人可以指出我做错了什么. 输入矩阵 'X_train' 包含 float64 中的数字: >>>type(X_train)> ..
发布时间:2021-12-25 14:55:31 Python

如何使用隔离森林

我正在尝试检测数据集的异常值,我发现 sklearn 的 隔离森林.我无法理解如何使用它.我将我的训练数据放入其中,它返回一个带有 -1 和 1 值的向量. 谁能向我解释它是如何工作的并提供一个例子? 我怎么知道异常值是“真正的"异常值? 调整参数? 这是我的代码: clf = IsolationForest(max_samples=10000, random_state ..
发布时间:2021-12-25 14:55:22 AI人工智能

scikit-learn 如何知道集群中的文档?

我是 python 和 scikit-learn 的新手,所以请耐心等待. 我从 k 表示聚类算法中获取了 k 表示聚类算法的源代码. 然后我使用 load_file 函数修改为在我的本地集上运行. 虽然算法终止了,但它并没有产生任何输出,比如哪些文档聚集在一起. 我发现km对象有“km.label"列出每个文档的质心 id 的数组. 它还具有带有“km.cluste ..
发布时间:2021-12-25 14:55:11 Python

Scikit-Learn 逻辑回归记忆错误

我正在尝试使用 sklearn 0.11 的 LogisticRegression 对象来拟合具有大约 80,000 个特征的 200,000 个观察值的模型.目标是将短文本描述分为 800 个类别中的 1 个. 当我尝试拟合分类器时 pythonw.exe 给了我: 应用程序错误“指令在...引用内存在 0x00000000".无法写入内存". 特征非常稀疏,每次观察大约有 1 ..
发布时间:2021-12-25 14:55:03 其他开发

如何在熊猫数据框中找到一列的 ngram 频率?

以下是我拥有的输入熊猫数据框. 我想找到unigrams的频率&二元组.我期望的示例如下所示 如何使用 nltk 或 scikit learn 来做到这一点? 我写了下面的代码,它接受一个字符串作为输入.如何将其扩展到系列/数据框? from nltk.collocations import *desc='john 是一个男人,你是他,你是他的人'令牌 = nltk.word_ ..
发布时间:2021-12-25 14:54:57 Python

如何为 K 折交叉验证计算不平衡数据集的精度、召回率和 f1 分数?

我有一个包含二元分类问题的不平衡数据集.我构建了随机森林分类器并使用了 10 折的 k 折交叉验证. kfold = model_selection.KFold(n_splits=10, random_state=42)模型=随机森林分类器(n_estimators=50) 我得到了10折的结果 results = model_selection.cross_val_score(model, ..

如何将 Pandas 中的变量指定为有序/分类?

我正在尝试使用 scikit-learn 在数据集上运行一些机器学习算法.我的数据集有一些类似于类别的特征.就像一个特征是 A,它有值 1,2,3 指定某物的质量.1:上等,2:二等,3:三等.所以它是一个序数变量. 同样,我重新编码了一个变量 City,具有三个值 ('London', Zurich', 'New York' 到 1,2,3 但对值没有特定的偏好.所以现在这是一个名义分类变 ..
发布时间:2021-12-25 14:54:32 Python

sklearn GridSearchCV 在评分函数中不使用 sample_weight

我有每个样本权重不同的数据.在我的申请中,重要的是在估计模型和比较替代模型时考虑这些权重. 我正在使用 sklearn 来估计模型并比较替代超参数选择.但是这个单元测试表明 GridSearchCV 没有应用 sample_weights 来估计分数. 有没有办法让 sklearn 使用 sample_weight 对模型进行评分? 单元测试: from __future__ ..
发布时间:2021-12-25 14:54:28 AI人工智能

为 Scikit-Learn 向量化 Pandas 数据框

假设我在 Pandas 中有一个如下所示的数据框: >my_dataframe列 1 列 2阿福乙吧某事阿福一间酒吧富 其中行代表实例,列代表输入特征(不显示目标标签,但这将用于分类任务),即我试图从 my_dataframeX代码>. 如何使用例如有效地矢量化它DictVectorizer ? 我是否需要先将 DataFrame 中的每个条目都转换为字典?(这是在上面链接中的示例 ..
发布时间:2021-12-25 14:54:14 Python

scikit learn 中的样本权重和类权重选项有什么区别?

我有类不平衡问题,想使用成本敏感学习来解决这个问题. 欠采样和过采样 为类赋予权重以使用修改后的损失函数 问题 Scikit learn 有 2 个选项,称为类权重和样本权重.样本权重实际上是否在执行选项 2) 和类权重选项 1).选项 2) 是处理类不平衡的推荐方法. 解决方案 是类似的概念,但是使用 sample_weights 可以强制 estimator 关注某 ..

使用 Scikit-learn 计算信息增益

我正在使用 Scikit-learn 进行文本分类.我想针对(稀疏)文档项矩阵中的类计算每个属性的信息增益. 信息增益定义为H(Class) - H(Class | Attribute),其中H是熵. 使用weka,这可以通过信息增益属性.但是我在scikit-learn中没有找到这个度量. 然而,建议公式上述信息增益与互信息的度量相同.这也符合维基百科中的定义. 是否可以 ..

使用稀疏矩阵与 numpy 数组

我正在用 Python 创建一些带有字数统计的 numpy 数组:行是文档,列是单词 X 的计数.如果我有很多零计数,人们建议在进一步处理这些时使用稀疏矩阵,例如在分类器中.将 numpy 数组与稀疏矩阵输入 Scikit 逻辑回归分类器,然而,它似乎没有太大区别.所以我想知道三件事: 维基百科说 稀疏矩阵是其中大部分元素为零的矩阵 这是确定何时使用稀疏矩阵的合适方法吗格式 - ..
发布时间:2021-12-25 14:53:42 Python

处理零和缺失数据的 Python 非负矩阵分解?

我寻找一个 NMF 实现,它有一个 python 接口,并处理丢失的数据和零. 我不想在开始分解之前估算我的缺失值,我希望它们在最小化函数中被忽略. scikit-learn、nimfa、graphlab 和 mahout 似乎都没有提出这样的选择. 谢谢! 解决方案 使用这个Matlab 到 python 代码转换表 我能够从 Matlab 工具箱 库重写 NMF. ..

想知道 pd.factorize、pd.get_dummies、sklearn.preprocessing.LableEncoder 和 OneHotEncoder 之间的差异

所有四个功能看起来都与我非常相似.在某些情况下,其中一些可能会给出相同的结果,而另一些则不会.任何帮助将不胜感激! 现在我知道并且我假设在内部,factorize 和 LabelEncoder 以相同的方式工作并且在结果方面没有太大差异.我不确定他们是否会在处理大量数据时占用类似的时间. get_dummies 和 OneHotEncoder 将产生相同的结果,但 OneHotEnco ..
发布时间:2021-12-25 14:53:14 AI人工智能

如何将 Keras 模型插入 scikit-learn 管道?

我将 Scikit-Learn 自定义管道 (sklearn.pipeline.Pipeline) 与 RandomizedSearchCV 结合用于超参数优化.这很好用. 现在我想在管道中插入一个 Keras 模型作为第一步.应该优化模型的参数.计算的(拟合的)Keras 模型稍后应该在其他步骤的管道中使用,所以我认为我必须将模型存储为全局变量,以便其他管道步骤可以使用它.对吗? 我 ..

如何将标准化应用于 scikit-learn 中的 SVM?

我正在使用 scikit-learn 的当前稳定版本 0.13.我正在使用 sklearn.svm.LinearSVC. 在 scikit-learn 文档的关于预处理的章节中,我已经阅读以下内容: 在学习算法的目标函数中使用的许多元素(例如支持向量机的 RBF 内核或线性模型的 l1 和 l2 正则化器)假设所有特征都以零为中心并且具有相同顺序的方差.如果一个特征的方差比其他特征大几 ..
发布时间:2021-12-25 14:52:49 Python