scikit-learn相关内容
我想在SVC模型中执行GridSearchCV,但这使用了“一对多"策略.对于后一部分,我可以这样做: model_to_set = OneVsRestClassifier(SVC(kernel="poly")) 我的问题是参数.假设我想尝试以下值: parameters = {"C":[1,2,4,8], "kernel":["poly","rbf"],"degree":[1,2
..
Scikit-learn利用基于fit和predict方法的非常方便的方法.我有适合fit和predict的格式的时间序列数据. 例如,我有以下Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ..., [3.2, 4.7, 1.1]] 和相应的ys: [[1.0], [2.3], ..., [7.7]] 这些数据具有以下含义. ys中存储的值
..
不过我有一个问题.我听说有人在R中可以使用额外的程序包提取在RF中实现的决策规则,我尝试在python中用google搜索同样的东西,但是没有运气,如果有帮助的话. 预先感谢! 解决方案 假定您使用sklearn RandomForestClassifier,则可以找到单个决策树,如.estimators_.每棵树将决策节点存储为tree_下的多个NumPy数组. 这是一些示例代码,
..
我想使用scikit-learn(sklearn)实现AdaBoost模型.我的问题类似于另一个问题,但并非完全相同.据我了解,文档用于根据前面的链接随机划分训练和测试集.因此,如果我理解正确,那么我的分类结果就不应依赖于种子,这是正确的吗?我是否应该担心我的分类结果是否取决于random_state变量? 解决方案 您的分类分数取决于random_state.就像@Ujjwal正确说的那
..
我想使用scikit-learn的SVR模块对未来事件进行时间序列预测.这是我尝试使用的源代码: import csv import numpy as np from sklearn.svm import SVR import matplotlib.pyplot as plt plt.switch_backend('newbackend') seq_num=[] win=[] def
..
这可能是一个初学者的问题,但是我已经看到很多人使用LabelEncoder()来将分类变量替换为常规变量.很多人一次通过传递多列来使用此功能,但是我对某些功能中的错误序数及其对模型的影响会产生疑问.这是一个示例: 输入 import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncode
..
我正在处理不平衡的数据集,并希望使用scikit的gridsearchcv进行网格搜索以调整模型的参数.为了对数据进行过采样,我想使用SMOTE,我知道我可以将其作为管道的一个阶段,并将其传递给gridsearchcv. 我担心的是,我认为击打将同时应用于训练和验证褶皱,这不是您应该做的.验证集不应过采样. 我是否正确,整个管道将应用于两个数据集拆分?如果是的话,我该如何扭转呢? 提前谢谢
..
我是python的新手.谁能告诉我为什么在拆分训练和测试集时将随机状态设置为零. X_train, X_test, y_train, y_test = \ train_test_split(X, y, test_size=0.30, random_state=0) 我见过这样的情况,其中随机状态设置为1! X_train, X_test, y_train, y_test =
..
我正在用一堆单词对文本进行分类.它运行良好,但我想知道如何添加一个单词所不能提供的功能. 这是我的示例代码. import numpy as np from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm impor
..
我的代码遵循google的机器学习课程.两个代码是相同的.我不知道为什么会显示错误.可能是变量的类型是错误.但是google的代码对我来说是相同的.曾经遇到过这个问题吗? 这是错误 [0 1 2] [0 1 2] Traceback (most recent call last): File "/media/joyce/oreo/python/machine_learn/Visua
..
我正在使用scikit-learn机器学习库(Python)进行机器学习项目.我使用的算法之一是高斯朴素贝叶斯实现. GaussianNB()函数的属性之一如下: class_prior_ : array, shape (n_classes,) 我想事先手动更改类,因为我使用的数据非常不正确,并且召回其中一个类非常重要.通过为该班级分配较高的先验概率,召回率应会增加. 但是,我不知
..
对random_state参数感到困惑,不确定为什么决策树训练需要一些随机性.我的想法是:(1)与随机森林有关吗? (2)与分割训练测试数据集有关吗?如果是这样,为什么不直接使用训练测试拆分方法( http://scikit-learn.org/stable/modules/generation/sklearn.cross_validation.train_test_split.html )?
..
我需要为文本构建一个分类器,现在我使用TfidfVectorizer和SelectKBest选择功能,如下所示: vectorizer = TfidfVectorizer(sublinear_tf = True, max_df = 0.5, stop_words = 'english',charset_error='strict') X_train_features = vectorize
..
我运行一个Python程序,该程序调用sklearn.metrics的方法来计算精度和F1得分.这是没有预测样本时的输出: /xxx/py2-scikit-learn/0.15.2-comp6/lib/python2.6/site-packages/sklearn/metr\ ics/metrics.py:1771: UndefinedMetricWarning: Precision is
..
我有一个数据集,我想在该数据上训练我的模型.训练后,我需要了解SVM分类器分类的主要贡献者. 森林算法有一种叫做特征重要性的东西,有没有类似的东西? 解决方案 是的,SVM分类器具有属性coef_,但仅适用于具有线性核的SVM.对于其他内核,这是不可能的,因为数据是通过内核方法转换到与输入空间无关的另一个空间的,请检查from matplotlib import pyplot as
..
我正在python上使用sklearn进行一些聚类.我已经训练了200,000个数据,下面的代码效果很好. corpus = open("token_from_xml.txt") vectorizer = CountVectorizer(decode_error="replace") transformer = TfidfTransformer() tfidf = transformer.f
..
下面是我的管道,似乎无法使用ModelTransformer类将参数传递给我的模型,我从链接(该错误消息对我来说很有意义,但我不知道如何解决.任何想法如何解决这个问题?谢谢. # define a pipeline pipeline = Pipeline([ ('vect', DictVectorizer(sparse=False)), ('scale', preprocessing.Min
..
我有一个数据集,其中的类是不平衡的.类别为"1"或"0",其中类别"1":"0"的比率为5:1.如何在带有随机森林的sklearn中计算每个类别的预测误差以及相应的重新平衡权重,类似于以下链接:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#balance 解决方案 您可以将样本权重参数传递给Random Fo
..
我很难理解scikit-learn中roc_auc_score()和auc()之间的区别(如果有). 试图预测具有不平衡类的二进制输出(Y = 1时约为1.5%). 分类器 model_logit = LogisticRegression(class_weight='auto') model_logit.fit(X_train_ridge, Y_train) Roc曲线
..
以下是我的代码: sklearn_tfidf = TfidfVectorizer(ngram_range= (3,3),stop_words=stopwordslist, norm='l2',min_df=0, use_idf=True, smooth_idf=False, sublinear_tf=True) sklearn_representation = sklearn_tfidf.f
..