scikit-learn相关内容
我想计算不同分类器的交叉验证测试的召回、精度和f-measure.scikit-learn 带有 cross_val_score 但不幸的是这样方法不返回多个值. 我可以通过调用 3 次 cross_val_score 来计算这样的度量,但这效率不高.有没有更好的解决办法? 现在我写了这个函数: from sklearn 导入指标def mean_scores(X, y, clf,
..
我正在 scikit learn 中创建管道, pipeline = Pipeline([('弓', CountVectorizer()),('分类器', BernoulliNB()),]) 并使用交叉验证计算准确性 scores = cross_val_score(pipeline, # 将原始消息转换为模型的步骤train_set, # 训练数据label_train, # 训练标签cv
..
在 scikit-learn 中,所有估算器都有一个 fit() 方法,并且根据它们是有监督的还是无监督的,它们还有一个 predict() 或 transform() 方法. 我正在编写转换器 对于无监督学习任务,想知道是否有经验法则可以放置哪种学习逻辑.官方文档在这方面不是很有帮助: fit_transform(X, y=None, **fit_params) 适合数据,然后对其
..
在选择主成分数 (k) 时,我们选择 k 作为最小值,以便保留 99% 的方差. 但是,在 Python Scikit 学习中,我不是 100% 确定 pca.explained_variance_ratio_ = 0.99 等于“保留了 99% 的方差"?有谁能开导吗?谢谢. Python Scikit 学习 PCA 手册在这里 http://scikit-learn.org/
..
在使用pipeline 和GridSearchCV 确定最佳参数后,我如何pickle/joblib 这个过程以后再用?当它是单个分类器时,我知道如何执行此操作... from sklearn.externals import joblibjoblib.dump(clf, 'filename.pkl') 但是如何在执行和完成 gridsearch 后使用最佳参数保存整个 pipeline ?
..
我有许多类和相应的特征向量,当我运行 predict_proba() 时,我会得到这个: classes = ['one','two','three','one','three']特征 = [[0,1,1,0],[0,1,0,1],[1,1,0,0],[0,0,0,0],[0,1,1,1]]]从 sklearn.naive_bayes 导入 BernoulliNBclf = 伯努利NB()clf
..
我设法使用命令行 sklearn 加载文件夹中的图像:load_sample_images() 我现在想将其转换为具有 float32 数据类型的 numpy.ndarray 格式 我能够使用:np.array(X) 将它转换为 np.ndarray,但是 np.array(X, dtype=np.float32) 和 np.asarray(X).astype('float32') 给
..
我想使用交叉验证来测试/训练我的数据集并评估逻辑回归模型在整个数据集上的性能,而不仅仅是在测试集上(例如 25%). 这些概念对我来说是全新的,我不太确定我是否做得对.如果有人能就我出错的地方采取正确的步骤向我提出建议,我将不胜感激.我的部分代码如下所示. 此外,如何在当前图形的同一图形上绘制“y2"和“y3"的 ROC? 谢谢 将pandas导入为pdData=pd.read
..
所以,我有这个疑问并一直在寻找答案.所以问题是当我使用时, from sklearn 导入预处理min_max_scaler = preprocessing.MinMaxScaler()df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y
..
class sklearn.ensemble.RandomForestClassifier(n_estimators=10,标准='基尼',最大深度=无,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features='auto',max_leaf_nodes=无,引导=真,oob_score=假,n
..
我在 sklearn 中使用 MinMaxScaler 模型来规范化模型的特征. training_set = np.random.rand(4,4)*10训练集[[ 6.01144787, 0.59753007, 2.0014852, 3.45433657],[ 6.03041646, 5.15589559, 6.64992437, 2.63440202],[ 2.27733136, 9.29
..
我使用这个简单的代码在具有 10 个特征的数据帧上运行 PCA: pca = PCA()适合 = pca.fit(dfPca) pca.explained_variance_ratio_ 的结果显示: array([ 5.01173322e-01, 2.98421951e-01, 1.00968655e-01,4.28813755e-02、2.46887288e-02、1.40976609e
..
在shell脚本中,我正在检查是否安装了这个包,如果没有安装则安装它.所以使用 shell 脚本: import nltkecho nltk.__version__ 但它会在 import 行 处停止 shell 脚本 在linux终端尝试以这种方式查看: which nltk 没有想到它已安装. 有没有其他方法可以在shell脚本中验证这个包的安装,如果没有安装,也安装一下.
..
我一直在探索 scikit-learn,使用熵和基尼分裂标准制作决策树,并探索差异. 我的问题是,我怎样才能“打开引擎盖"并确切地找出树在每个级别上分裂的属性以及它们的相关信息值,以便我可以看到两个标准在哪里做出不同的选择? 到目前为止,我已经探索了文档中概述的 9 种方法.他们似乎不允许访问此信息.但确定这些信息是可访问的吗?我正在设想一个包含节点和增益条目的列表或字典. 感谢
..
我是 scikit-learn 的新手,我使用 TfidfVectorizer 在一组文档中查找术语的 tfidf 值.我使用以下代码获得相同的结果. vectorizer = TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)X = vectorizer.fit_transform(讲座) 现在如果我
..
我有一个由数字和分类数据组成的数据集,我想根据患者的医疗特征预测其不良结果.我为我的数据集定义了一个预测管道,如下所示: X = dataset.drop(columns=['target'])y = 数据集['目标']# 定义分类和数字转换器numeric_transformer = 流水线(步骤=[('knnImputer', KNNImputer(n_neighbors=2, weight
..
我正在尝试使用 SGD 对大型数据集进行分类.由于数据太大而无法放入内存,我想使用 partial_fit 方法来训练分类器.我选择了一个适合内存的数据集样本(100,000 行)来测试 fit 与 partial_fit: from sklearn.linear_model import SGDClassifier定义批次(l,n):对于 xrange(0, len(l), n) 中的 i:产
..
我正在尝试使用 scikit Learn 包中的 train_test_split,但我在使用参数 stratify 时遇到问题.以下是代码: from sklearn import cross_validation, datasetsX = iris.data[:,:2]y = iris.targetcross_validation.train_test_split(X,y,stratify=
..
我一直在使用 scikit-learn 中的 CountVectorizer 类. 我知道如果以下面所示的方式使用,最终输出将包含一个包含特征计数或标记的数组. 这些标记是从一组关键字中提取的,即 标签 = [“蟒蛇,工具","linux, 工具, ubuntu",“分布式系统、Linux、网络、工具",] 下一步是: from sklearn.feature_extractio
..
Scikit-learn 使用了一种基于 fit 和 predict 方法的非常方便的方法.我有适合 fit 和 predict 格式的时间序列数据. 例如我有以下 Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ..., [3.2, 4.7, 1.1]] 和对应的ys: [[1.0], [2.3], ..., [7.7]] 这些数据的含义如下.ys 中
..