scikit-learn 第7页 - IT屋-程序员软件开发技术分享社区

GridSearchCV(sklearn) 中的多个估计器

我正在查看有关 GridSearchCV 的 sklearn 文档网页.GridSearchCV 对象的属性之一是 best_estimator_.所以这是我的问题.如何将多个估计量传递给 GSCV 对象? 使用如下字典:{'SVC()':{'C':10, 'gamma':0.01}, 'DecTreeClass()':{....}}? 解决方案 GridSearchCV 适用于参数 ..

发布时间：2021-12-25 14:55:35 python scikit-learn grid-search Python

使用 sklearn 在大型稀疏矩阵上执行 PCA

我正在尝试在巨大的稀疏矩阵上应用 PCA，在下面的链接中它说 sklearn 的 randomPCA 可以处理 scipy 稀疏格式的稀疏矩阵.在非常大的稀疏矩阵上应用 PCA 但是，我总是出错.有人可以指出我做错了什么. 输入矩阵 'X_train' 包含 float64 中的数字: >>>type(X_train)> ..

发布时间：2021-12-25 14:55:31 python scikit-learn sparse-matrix pca svd Python

如何使用隔离森林

我正在尝试检测数据集的异常值，我发现 sklearn 的隔离森林.我无法理解如何使用它.我将我的训练数据放入其中，它返回一个带有 -1 和 1 值的向量. 谁能向我解释它是如何工作的并提供一个例子? 我怎么知道异常值是“真正的"异常值? 调整参数? 这是我的代码: clf = IsolationForest(max_samples=10000, random_state ..

发布时间：2021-12-25 14:55:22 python machine-learning scikit-learn outliers AI人工智能

scikit-learn 如何知道集群中的文档?

我是 python 和 scikit-learn 的新手，所以请耐心等待. 我从 k 表示聚类算法中获取了 k 表示聚类算法的源代码. 然后我使用 load_file 函数修改为在我的本地集上运行. 虽然算法终止了，但它并没有产生任何输出，比如哪些文档聚集在一起. 我发现km对象有“km.label"列出每个文档的质心 id 的数组. 它还具有带有“km.cluste ..

发布时间：2021-12-25 14:55:11 python cluster-analysis scikit-learn k-means Python

Scikit-Learn 逻辑回归记忆错误

我正在尝试使用 sklearn 0.11 的 LogisticRegression 对象来拟合具有大约 80,000 个特征的 200,000 个观察值的模型.目标是将短文本描述分为 800 个类别中的 1 个. 当我尝试拟合分类器时 pythonw.exe 给了我: 应用程序错误“指令在...引用内存在 0x00000000".无法写入内存". 特征非常稀疏，每次观察大约有 1 ..

发布时间：2021-12-25 14:55:03 scikit-learn 其他开发

如何在熊猫数据框中找到一列的 ngram 频率?

以下是我拥有的输入熊猫数据框. 我想找到unigrams的频率&二元组.我期望的示例如下所示如何使用 nltk 或 scikit learn 来做到这一点? 我写了下面的代码，它接受一个字符串作为输入.如何将其扩展到系列/数据框? from nltk.collocations import *desc='john 是一个男人，你是他，你是他的人'令牌 = nltk.word_ ..

发布时间：2021-12-25 14:54:57 pandas nlp scikit-learn nltk text-mining Python

如何为 K 折交叉验证计算不平衡数据集的精度、召回率和 f1 分数?

我有一个包含二元分类问题的不平衡数据集.我构建了随机森林分类器并使用了 10 折的 k 折交叉验证. kfold = model_selection.KFold(n_splits=10, random_state=42)模型=随机森林分类器(n_estimators=50) 我得到了10折的结果 results = model_selection.cross_val_score(model, ..

发布时间：2021-12-25 14:54:48 python scikit-learn random-forest cross-validation supervised-learning Python

如何知道在 Scikit-learn 中的 predict_proba 的返回数组中表示哪些类

我从 Scikit-learn 开始... >>>导入sklearn>>>sklearn.__version__'0.13.1'>>>从 sklearn 导入 svm>>>模型 = svm.SVC(概率=真)>>>X = [[1,2,3], [2,3,4]] # 特征向量>>>Y = ['apple', 'orange'] # 类>>>模型拟合(X，Y)>>>model.predict_prob ..

发布时间：2021-12-25 14:54:39 python scikit-learn Python

如何将 Pandas 中的变量指定为有序/分类?

我正在尝试使用 scikit-learn 在数据集上运行一些机器学习算法.我的数据集有一些类似于类别的特征.就像一个特征是 A，它有值 1,2,3 指定某物的质量.1:上等，2:二等，3:三等.所以它是一个序数变量. 同样，我重新编码了一个变量 City，具有三个值 ('London', Zurich', 'New York' 到 1,2,3 但对值没有特定的偏好.所以现在这是一个名义分类变 ..

发布时间：2021-12-25 14:54:32 python pandas scikit-learn categorical-data Python

sklearn GridSearchCV 在评分函数中不使用 sample_weight

我有每个样本权重不同的数据.在我的申请中，重要的是在估计模型和比较替代模型时考虑这些权重. 我正在使用 sklearn 来估计模型并比较替代超参数选择.但是这个单元测试表明 GridSearchCV 没有应用 sample_weights 来估计分数. 有没有办法让 sklearn 使用 sample_weight 对模型进行评分? 单元测试: from __future__ ..

发布时间：2021-12-25 14:54:28 python machine-learning scikit-learn AI人工智能

Scikit-learn:输入包含 NaN、无穷大或对于 dtype ('float64') 来说太大的值

我正在使用 Python scikit-learn 对从 csv 获得的数据进行简单的线性回归. reader = pandas.io.parsers.read_csv("data/all-stocks-cleaned.csv")股票= np.array(读者)开盘价 = 股票[:, 1]收盘价 = 股票[:, 5]打印((np.min(开盘价)))打印((np.min(closePrice)) ..

发布时间：2021-12-25 14:54:20 python numpy machine-learning scikit-learn AI人工智能

为 Scikit-Learn 向量化 Pandas 数据框

假设我在 Pandas 中有一个如下所示的数据框: >my_dataframe列 1 列 2阿福乙吧某事阿福一间酒吧富其中行代表实例，列代表输入特征(不显示目标标签，但这将用于分类任务)，即我试图从 my_dataframeX代码>. 如何使用例如有效地矢量化它DictVectorizer ? 我是否需要先将 DataFrame 中的每个条目都转换为字典?(这是在上面链接中的示例 ..

发布时间：2021-12-25 14:54:14 python pandas scikit-learn Python

scikit learn 中的样本权重和类权重选项有什么区别?

我有类不平衡问题，想使用成本敏感学习来解决这个问题. 欠采样和过采样为类赋予权重以使用修改后的损失函数问题 Scikit learn 有 2 个选项，称为类权重和样本权重.样本权重实际上是否在执行选项 2) 和类权重选项 1).选项 2) 是处理类不平衡的推荐方法. 解决方案是类似的概念，但是使用 sample_weights 可以强制 estimator 关注某 ..

发布时间：2021-12-25 14:54:05 python machine-learning scikit-learn classification AI人工智能

使用 Scikit-learn 计算信息增益

我正在使用 Scikit-learn 进行文本分类.我想针对(稀疏)文档项矩阵中的类计算每个属性的信息增益. 信息增益定义为H(Class) - H(Class | Attribute)，其中H是熵. 使用weka，这可以通过信息增益属性.但是我在scikit-learn中没有找到这个度量. 然而，建议公式上述信息增益与互信息的度量相同.这也符合维基百科中的定义. 是否可以 ..

发布时间：2021-12-25 14:53:48 python machine-learning scikit-learn text-classification feature-selection AI人工智能

使用稀疏矩阵与 numpy 数组

我正在用 Python 创建一些带有字数统计的 numpy 数组:行是文档，列是单词 X 的计数.如果我有很多零计数，人们建议在进一步处理这些时使用稀疏矩阵，例如在分类器中.将 numpy 数组与稀疏矩阵输入 Scikit 逻辑回归分类器，然而，它似乎没有太大区别.所以我想知道三件事: 维基百科说稀疏矩阵是其中大部分元素为零的矩阵这是确定何时使用稀疏矩阵的合适方法吗格式 - ..

发布时间：2021-12-25 14:53:42 python numpy matrix scipy scikit-learn Python

处理零和缺失数据的 Python 非负矩阵分解?

我寻找一个 NMF 实现，它有一个 python 接口，并处理丢失的数据和零. 我不想在开始分解之前估算我的缺失值，我希望它们在最小化函数中被忽略. scikit-learn、nimfa、graphlab 和 mahout 似乎都没有提出这样的选择. 谢谢！解决方案使用这个Matlab 到 python 代码转换表我能够从 Matlab 工具箱库重写 NMF. ..

发布时间：2021-12-25 14:53:31 python machine-learning scikit-learn collaborative-filtering matrix-factorization AI人工智能

无法理解 sklearn 的 PolynomialFeatures

在 sklearn 的多项式特征方面需要帮助.它适用于一个功能，但每当我添加多个功能时，它还会在数组中输出一些值，除了提高到度数的幂的值.例如:对于这个数组， X=np.array([[230.1,37.8,69.2]]) 当我尝试 X_poly=poly.fit_transform(X) 输出 [[ 1.00000000e+00 2.30100000e+02 3.78000000e+0 ..

发布时间：2021-12-25 14:53:26 python machine-learning scikit-learn polynomials AI人工智能

想知道 pd.factorize、pd.get_dummies、sklearn.preprocessing.LableEncoder 和 OneHotEncoder 之间的差异

所有四个功能看起来都与我非常相似.在某些情况下，其中一些可能会给出相同的结果，而另一些则不会.任何帮助将不胜感激！现在我知道并且我假设在内部，factorize 和 LabelEncoder 以相同的方式工作并且在结果方面没有太大差异.我不确定他们是否会在处理大量数据时占用类似的时间. get_dummies 和 OneHotEncoder 将产生相同的结果，但 OneHotEnco ..

发布时间：2021-12-25 14:53:14 python pandas encoding machine-learning scikit-learn AI人工智能

如何将 Keras 模型插入 scikit-learn 管道?

我将 Scikit-Learn 自定义管道 (sklearn.pipeline.Pipeline) 与 RandomizedSearchCV 结合用于超参数优化.这很好用. 现在我想在管道中插入一个 Keras 模型作为第一步.应该优化模型的参数.计算的(拟合的)Keras 模型稍后应该在其他步骤的管道中使用，所以我认为我必须将模型存储为全局变量，以便其他管道步骤可以使用它.对吗? 我 ..

发布时间：2021-12-25 14:53:03 machine-learning scikit-learn pipeline keras hyperparameters AI人工智能

如何将标准化应用于 scikit-learn 中的 SVM?

我正在使用 scikit-learn 的当前稳定版本 0.13.我正在使用 sklearn.svm.LinearSVC. 在 scikit-learn 文档的关于预处理的章节中，我已经阅读以下内容: 在学习算法的目标函数中使用的许多元素(例如支持向量机的 RBF 内核或线性模型的 l1 和 l2 正则化器)假设所有特征都以零为中心并且具有相同顺序的方差.如果一个特征的方差比其他特征大几 ..

发布时间：2021-12-25 14:52:49 python scikit-learn classification svm normalization Python

scikit-learn相关内容