scikit-learn 第124页 - IT屋-程序员软件开发技术分享社区

GridSearch在OneVsRestClassifier中查找一个估计量

我想在SVC模型中执行GridSearchCV，但这使用了“一对多"策略.对于后一部分，我可以这样做: model_to_set = OneVsRestClassifier(SVC(kernel="poly")) 我的问题是参数.假设我想尝试以下值: parameters = {"C":[1,2,4,8], "kernel":["poly","rbf"],"degree":[1,2 ..

发布时间：2020-05-04 08:58:58 python machine-learning scikit-learn AI人工智能

如何在scikit-learn中预测时间序列?

Scikit-learn利用基于fit和predict方法的非常方便的方法.我有适合fit和predict的格式的时间序列数据. 例如，我有以下Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ..., [3.2, 4.7, 1.1]] 和相应的ys: [[1.0], [2.3], ..., [7.7]] 这些数据具有以下含义. ys中存储的值 ..

发布时间：2020-05-04 08:58:38 python machine-learning time-series scikit-learn AI人工智能

如何在python中提取随机森林的决策规则

不过我有一个问题.我听说有人在R中可以使用额外的程序包提取在RF中实现的决策规则，我尝试在python中用google搜索同样的东西，但是没有运气，如果有帮助的话. 预先感谢！解决方案假定您使用sklearn RandomForestClassifier，则可以找到单个决策树，如.estimators_.每棵树将决策节点存储为tree_下的多个NumPy数组. 这是一些示例代码， ..

发布时间：2020-05-04 08:58:22 machine-learning scikit-learn deep-learning random-forest decision-tree AI人工智能

分类结果取决于random_state?

我想使用scikit-learn(sklearn)实现AdaBoost模型.我的问题类似于另一个问题，但并非完全相同.据我了解，文档用于根据前面的链接随机划分训练和测试集.因此，如果我理解正确，那么我的分类结果就不应依赖于种子，这是正确的吗?我是否应该担心我的分类结果是否取决于random_state变量? 解决方案您的分类分数取决于random_state.就像@Ujjwal正确说的那 ..

发布时间：2020-05-04 08:58:18 python machine-learning scikit-learn adaboost boosting AI人工智能

预测:使用SVR模块对未来事件进行时间序列预测

我想使用scikit-learn的SVR模块对未来事件进行时间序列预测.这是我尝试使用的源代码: import csv import numpy as np from sklearn.svm import SVR import matplotlib.pyplot as plt plt.switch_backend('newbackend') seq_num=[] win=[] def ..

发布时间：2020-05-04 08:58:11 python python-3.x machine-learning scikit-learn time-series AI人工智能

用于分类功能的LabelEncoder?

这可能是一个初学者的问题，但是我已经看到很多人使用LabelEncoder()来将分类变量替换为常规变量.很多人一次通过传递多列来使用此功能，但是我对某些功能中的错误序数及其对模型的影响会产生疑问.这是一个示例: 输入 import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncode ..

发布时间：2020-05-04 08:57:58 python machine-learning scikit-learn correlation feature-engineering AI人工智能

在Scikit-learn中将smote与Gridsearchcv一起使用

我正在处理不平衡的数据集，并希望使用scikit的gridsearchcv进行网格搜索以调整模型的参数.为了对数据进行过采样，我想使用SMOTE，我知道我可以将其作为管道的一个阶段，并将其传递给gridsearchcv. 我担心的是，我认为击打将同时应用于训练和验证褶皱，这不是您应该做的.验证集不应过采样. 我是否正确，整个管道将应用于两个数据集拆分?如果是的话，我该如何扭转呢? 提前谢谢 ..

发布时间：2020-05-04 08:57:18 python machine-learning scikit-learn grid-search oversampling AI人工智能

拆分数据集中的Python随机状态

我是python的新手.谁能告诉我为什么在拆分训练和测试集时将随机状态设置为零. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) 我见过这样的情况，其中随机状态设置为1！ X_train, X_test, y_train, y_test = ..

发布时间：2020-05-04 08:57:13 python random machine-learning scikit-learn AI人工智能

如何在当前单词分类中添加另一个功能(文本长度)? Scikit学习

我正在用一堆单词对文本进行分类.它运行良好，但我想知道如何添加一个单词所不能提供的功能. 这是我的示例代码. import numpy as np from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm impor ..

发布时间：2020-05-04 08:56:59 python machine-learning scikit-learn classification text-classification AI人工智能

graph.write_pdf("iris.pdf")AttributeError:“列表"对象没有属性"write_pdf"

我的代码遵循google的机器学习课程.两个代码是相同的.我不知道为什么会显示错误.可能是变量的类型是错误.但是google的代码对我来说是相同的.曾经遇到过这个问题吗? 这是错误 [0 1 2] [0 1 2] Traceback (most recent call last): File "/media/joyce/oreo/python/machine_learn/Visua ..

发布时间：2020-05-04 08:56:53 python machine-learning scikit-learn graphviz pydot AI人工智能

如何指定scikit-learn的朴素贝叶斯的先验概率

我正在使用scikit-learn机器学习库(Python)进行机器学习项目.我使用的算法之一是高斯朴素贝叶斯实现. GaussianNB()函数的属性之一如下: class_prior_ : array, shape (n_classes,) 我想事先手动更改类，因为我使用的数据非常不正确，并且召回其中一个类非常重要.通过为该班级分配较高的先验概率，召回率应会增加. 但是，我不知 ..

发布时间：2020-05-04 08:56:49 python syntax machine-learning scikit-learn AI人工智能

对random_state参数感到困惑，不确定为什么决策树训练需要一些随机性.我的想法是:(1)与随机森林有关吗? (2)与分割训练测试数据集有关吗?如果是这样，为什么不直接使用训练测试拆分方法( http://scikit-learn.org/stable/modules/generation/sklearn.cross_validation.train_test_split.html )? ..

发布时间：2020-05-04 08:56:45 python python-2.7 machine-learning scikit-learn decision-tree AI人工智能

选择功能后显示功能名称

我需要为文本构建一个分类器，现在我使用TfidfVectorizer和SelectKBest选择功能，如下所示: vectorizer = TfidfVectorizer(sublinear_tf = True, max_df = 0.5, stop_words = 'english',charset_error='strict') X_train_features = vectorize ..

发布时间：2020-05-04 08:56:39 machine-learning scikit-learn AI人工智能

为什么scikitlearn说FN大于0时F1分数是不确定的?

我运行一个Python程序，该程序调用sklearn.metrics的方法来计算精度和F1得分.这是没有预测样本时的输出: /xxx/py2-scikit-learn/0.15.2-comp6/lib/python2.6/site-packages/sklearn/metr\ ics/metrics.py:1771: UndefinedMetricWarning: Precision is ..

发布时间：2020-05-04 08:56:37 python machine-learning statistics scikit-learn AI人工智能

确定sklearn中SVM分类器最有帮助的功能

我有一个数据集，我想在该数据上训练我的模型.训练后，我需要了解SVM分类器分类的主要贡献者. 森林算法有一种叫做特征重要性的东西，有没有类似的东西? 解决方案是的，SVM分类器具有属性coef_，但仅适用于具有线性核的SVM.对于其他内核，这是不可能的，因为数据是通过内核方法转换到与输入空间无关的另一个空间的，请检查from matplotlib import pyplot as ..

发布时间：2020-05-04 08:56:28 python machine-learning scikit-learn svm AI人工智能

保留TFIDF结果以使用Scikit for Python预测新内容

我正在python上使用sklearn进行一些聚类.我已经训练了200,000个数据，下面的代码效果很好. corpus = open("token_from_xml.txt") vectorizer = CountVectorizer(decode_error="replace") transformer = TfidfTransformer() tfidf = transformer.f ..

发布时间：2020-05-04 08:56:22 python machine-learning scikit-learn tf-idf AI人工智能

(Python-sklearn)如何通过gridsearchcv将参数传递给自定义ModelTransformer类

下面是我的管道，似乎无法使用ModelTransformer类将参数传递给我的模型，我从链接(该错误消息对我来说很有意义，但我不知道如何解决.任何想法如何解决这个问题?谢谢. # define a pipeline pipeline = Pipeline([ ('vect', DictVectorizer(sparse=False)), ('scale', preprocessing.Min ..

发布时间：2020-05-04 08:56:18 python-2.7 machine-learning parameter-passing scikit-learn cross-validation AI人工智能

在sklearn中使用RandomForestClassifier进行不平衡分类

我有一个数据集，其中的类是不平衡的.类别为"1"或"0"，其中类别"1":"0"的比率为5:1.如何在带有随机森林的sklearn中计算每个类别的预测误差以及相应的重新平衡权重，类似于以下链接:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#balance 解决方案您可以将样本权重参数传递给Random Fo ..

发布时间：2020-05-04 08:56:10 python machine-learning classification scikit-learn random-forest AI人工智能

roc_auc_score()和auc()的结果不同

我很难理解scikit-learn中roc_auc_score()和auc()之间的区别(如果有). 试图预测具有不平衡类的二进制输出(Y = 1时约为1.5％). 分类器 model_logit = LogisticRegression(class_weight='auto') model_logit.fit(X_train_ridge, Y_train) Roc曲线 ..

发布时间：2020-05-04 08:55:58 python machine-learning scikit-learn AI人工智能

sklearn TfidfVectorizer:通过不删除其中的停用词来生成自定义NGram

以下是我的代码: sklearn_tfidf = TfidfVectorizer(ngram_range= (3,3),stop_words=stopwordslist, norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True) sklearn_representation = sklearn_tfidf.f ..

发布时间：2020-05-04 08:55:24 machine-learning scikit-learn statistics tf-idf AI人工智能

scikit-learn相关内容