scikit-learn相关内容

sklearn - 具有多个分数的交叉验证

我想计算不同分类器的交叉验证测试的召回、精度和f-measure.scikit-learn 带有 cross_val_score 但不幸的是这样方法不返回多个值. 我可以通过调用 3 次 cross_val_score 来计算这样的度量,但这效率不高.有没有更好的解决办法? 现在我写了这个函数: from sklearn 导入指标def mean_scores(X, y, clf, ..
发布时间:2021-12-25 14:52:40 Python

在 scikit-learn 中拟合数据与转换数据

在 scikit-learn 中,所有估算器都有一个 fit() 方法,并且根据它们是有监督的还是无监督的,它们还有一个 predict() 或 transform() 方法. 我正在编写转换器 对于无监督学习任务,想知道是否有经验法则可以放置哪种学习逻辑.官方文档在这方面不是很有帮助: fit_transform(X, y=None, **fit_params) 适合数据,然后对其 ..
发布时间:2021-12-25 14:52:25 AI人工智能

Python scikit 学习 pca.explained_variance_ratio_ cutoff

在选择主成分数 (k) 时,我们选择 k 作为最小值,以便保留 99% 的方差. 但是,在 Python Scikit 学习中,我不是 100% 确定 pca.explained_variance_ratio_ = 0.99 等于“保留了 99% 的方差"?有谁能开导吗?谢谢. Python Scikit 学习 PCA 手册在这里 http://scikit-learn.org/ ..
发布时间:2021-12-25 14:52:07 Python

Sklearn 如何使用 Joblib 或 Pickle 保存从管道和 GridSearchCV 创建的模型?

在使用pipeline 和GridSearchCV 确定最佳参数后,我如何pickle/joblib 这个过程以后再用?当它是单个分类器时,我知道如何执行此操作... from sklearn.externals import joblibjoblib.dump(clf, 'filename.pkl') 但是如何在执行和完成 gridsearch 后使用最佳参数保存整个 pipeline ? ..
发布时间:2021-12-25 14:51:59 Python

将列表转换为 numpy 数组

我设法使用命令行 sklearn 加载文件夹中的图像:load_sample_images() 我现在想将其转换为具有 float32 数据类型的 numpy.ndarray 格式 我能够使用:np.array(X) 将它转换为 np.ndarray,但是 np.array(X, dtype=np.float32) 和 np.asarray(X).astype('float32') 给 ..
发布时间:2021-12-25 14:51:49 Python

使用交叉验证评估逻辑回归

我想使用交叉验证来测试/训练我的数据集并评估逻辑回归模型在整个数据集上的性能,而不仅仅是在测试集上(例如 25%). 这些概念对我来说是全新的,我不太确定我是否做得对.如果有人能就我出错的地方采取正确的步骤向我提出建议,我将不胜感激.我的部分代码如下所示. 此外,如何在当前图形的同一图形上绘制“y2"和“y3"的 ROC? 谢谢 将pandas导入为pdData=pd.read ..
发布时间:2021-12-25 14:51:43 Python

如何查看安装了哪个版本的nltk、scikit learn?

在shell脚本中,我正在检查是否安装了这个包,如果没有安装则安装它.所以使用 shell 脚本: import nltkecho nltk.__version__ 但它会在 import 行 处停止 shell 脚本 在linux终端尝试以这种方式查看: which nltk 没有想到它已安装. 有没有其他方法可以在shell脚本中验证这个包的安装,如果没有安装,也安装一下. ..
发布时间:2021-12-25 14:50:55 服务器开发

使用 scikit-learn 时,如何找到我的树分裂的属性?

我一直在探索 scikit-learn,使用熵和基尼分裂标准制作决策树,并探索差异. 我的问题是,我怎样才能“打开引擎盖"并确切地找出树在每个级别上分裂的属性以及它们的相关信息值,以便我可以看到两个标准在哪里做出不同的选择? 到目前为止,我已经探索了文档中概述的 9 种方法.他们似乎不允许访问此信息.但确定这些信息是可访问的吗?我正在设想一个包含节点和增益条目的列表或字典. 感谢 ..
发布时间:2021-12-25 14:50:46 AI人工智能

ConvergenceWarning:lbfgs 未能收敛(状态 = 1):停止:总共没有.达到限制的迭代次数

我有一个由数字和分类数据组成的数据集,我想根据患者的医疗特征预测其不良结果.我为我的数据集定义了一个预测管道,如下所示: X = dataset.drop(columns=['target'])y = 数据集['目标']# 定义分类和数字转换器numeric_transformer = 流水线(步骤=[('knnImputer', KNNImputer(n_neighbors=2, weight ..

Sklearn SGDClassifier 部分拟合

我正在尝试使用 SGD 对大型数据集进行分类.由于数据太大而无法放入内存,我想使用 partial_fit 方法来训练分类器.我选择了一个适合内存的数据集样本(100,000 行)来测试 fit 与 partial_fit: from sklearn.linear_model import SGDClassifier定义批次(l,n):对于 xrange(0, len(l), n) 中的 i:产 ..

我可以在 scikit-learn 中使用 CountVectorizer 来计算未用于提取标记的文档的频率吗?

我一直在使用 scikit-learn 中的 CountVectorizer 类. 我知道如果以下面所示的方式使用,最终输出将包含一个包含特征计数或标记的数组. 这些标记是从一组关键字中提取的,即 标签 = [“蟒蛇,工具","linux, 工具, ubuntu",“分布式系统、Linux、网络、工具",] 下一步是: from sklearn.feature_extractio ..
发布时间:2021-12-25 14:49:59 AI人工智能