scikit-learn相关内容
我目前正在使用 python 的 scikit 库使用线性内核执行多类 SVM.样本训练数据和测试数据如下: 模型数据: x = [[20,32,45,33,32,44,0],[23,32,45,12,32,66,11],[16,32,45,12,32,44,23],[120,2,55,62,82,14,81],[30,222,115,12,42,64,91],[220,12,55,222
..
我有一些有趣的用户数据.它提供了一些有关要求用户执行的某些任务的及时性的信息.我想知道,如果 late - 它告诉我用户是否准时 (0),有点晚 (1),或很晚 (2) - 是可预测/可解释的.我从提供交通灯信息的列中生成 late(绿色 = 不迟到,红色 = 超级迟到). 这是我所做的: #imports将熊猫导入为 pd将 numpy 导入为 np导入 matplotlib.pypl
..
如何打印随机森林的决策路径,而不是特定样本的随机森林中单个树的路径. 将 numpy 导入为 np将熊猫导入为 pd从 sklearn.datasets 导入 make_classification从 sklearn.ensemble 导入 RandomForestClassifierX, y = make_classification(n_samples=1000,n_features=6,n
..
我想使用 RandomForestClassifier 绘制二元分类的 ROC 曲线 我有两个 numpy 数组,一个包含预测值,一个包含真实值,如下所示: 在[84]中:测试Out[84]: 数组([0, 1, 0, ..., 0, 1, 0])在 [85] 中:predOut[85]: 数组([0, 1, 0, ..., 1, 0, 0]) 如何在 ipython 中移植 ROC 曲线
..
我正在尝试使用 train_test_split 来自 scikit-learn 的函数,但我收到此错误: 在[1]中:y.iloc[:,0].value_counts()出[1]:M2 38M1 35M4 29M5 15M0 15M3 15在 [2] 中:xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=1/3, r
..
我在具有 24GB 内存的 Windows 8 64 位系统上运行 Python 2.7(64 位).在对通常的 Sklearn.linear_models.Ridge 进行拟合时,代码运行良好. 问题:但是,当使用 Sklearn.linear_models.RidgeCV(alphas=alphas) 进行拟合时,我遇到了显示的 MemoryError 错误下面在执行拟合过程的 rr.f
..
我正在看这个教程:https://www.dataquest.io/mission/74/getting-started-with-kaggle 我到了第 9 部分,进行预测.在一个名为 Titanic 的数据框中有一些数据,然后使用以下方法将其划分为折叠: # 为泰坦尼克号数据集生成交叉验证折叠.它返回对应于训练和测试的行索引.# 我们设置 random_state 以确保每次运行时都能
..
我正在处理高度不平衡的数据集,我的想法是从我的 libSVM 模型中获取特征权重的值.至于现在我对线性内核没问题,在那里我可以获得特征权重,但是当我使用 rbf 或 poly 时,我无法达到我的目标. 这里我使用 sklearn 作为我的模型,使用 .coef_ 很容易获得线性核的特征权重.谁能帮我为 rbf 或 poly 做同样的事情?到目前为止,我尝试做的事情如下: svr = SVC(C
..
我有以下代码 from sklearn.ensemble import ExtraTreesClassifier从 sklearn.cross_validation 导入 cross_val_score#拆分训练和测试的数据集组合['is_train'] = np.random.uniform(0, 1, len(combnum)) ET:{1})".格式(label_columns,et_
..
我目前正在尝试使用逻辑回归创建二元分类.目前我正在确定特征重要性.我已经进行了数据预处理(一次热编码和采样)并使用 XGBoost 和 RandomFOrestClassifier 运行它,没问题 但是,当我尝试拟合 LogisticRegression 模型时(以下是我在 Notebook 中的代码), from sklearn.linear_model import LogisticR
..
scikit-learn 是否提供使用高斯或多项式核执行回归的工具?我查看了 API,但没有看到任何 API.有没有人在 scikit-learn 之上构建了一个包来做到这一点? 解决方案 要么使用 Support Vector Regression sklearn.svm.SVR 并设置适当的 kernel(请参阅此处). 或者您安装最新的 sklearn 主版本并使用最近添加的
..
我正在使用 Scikit-Learn (sklearn) 使用一对多逻辑回归分类器.我有一个很大的数据集,一次运行太慢;我还想随着培训的进行研究学习曲线. 我想使用批量梯度下降来批量训练我的分类器,比如 500 个样本.有什么方法可以使用 sklearn 来做到这一点,还是应该放弃 sklearn 并“自己动手"? 这是我目前所拥有的: from sklearn.linear_mod
..
我在 R、python statmodels 和 sklearn 中做了一些逻辑回归实验.虽然 R 和 statmodels 给出的结果一致,但与 sklearn 返回的结果存在一些差异.我想了解为什么这些结果不同.据我所知,这可能与木头下使用的优化算法不同. 具体来说,我使用标准的Default 数据集(在ISL 书籍中使用一>).以下 Python 代码将数据读入数据帧 Default.
..
我正在使用 FeatureUnion 来加入从事件的标题和描述中找到的特征: union = FeatureUnion(变压器列表=[# 从事件标题中提取特征的管道('标题', 管道([('选择器', TextSelector(key='title')),('count', CountVectorizer(stop_words='english')),])),# 用于描述的标准词袋模型的管道('
..
我已经开始在我的工作中使用 sckikit-learn.所以我正在阅读 tutorial ,它提供了加载一些数据集的标准程序: $ python>>>从 sklearn 导入数据集>>>虹膜 = datasets.load_iris()>>>数字 = datasets.load_digits() 但是,为了方便起见,我尝试通过以下方式加载数据: 在[1]中:导入sklearn在 [2] 中:
..
我想用不同的随机状态训练多个 LinearSVC 模型,但我更喜欢并行进行.sklearn 中是否有支持此功能的机制?我知道 Gridsearch 或一些集成方法正在隐式地执行,但它的内幕是什么? 解决方案 引擎盖下的“东西"是图书馆 joblib,例如支持 GridSearchCV 中的多处理和一些集成方法.Parallel 辅助类是一个非常方便的瑞士刀,用于尴尬的并行循环. 这是
..
我已经为 scikit-learn 中的一些文档安装了一个 CountVectorizer.我想在文本语料库中查看所有术语及其对应的频率,以便选择停用词.例如 'and' 123 次,'to' 100 次,'for' 90 次,......等等 是否有任何内置函数? 解决方案 如果 cv 是你的 CountVectorizer 并且 X 是向量化的语料库,然后 zip(cv.get_
..
我正在尝试将 AdaBoostClassifier 与 DecisionTree 以外的基础学习器一起使用.我尝试过 SVM 和 KNeighborsClassifier,但出现错误.AdaBoostClassifier 可以使用哪些分类器? 解决方案 好的,我们有一个系统的方法来找出 AdaBoostClassifier 支持的所有基学习器.兼容base learner的fit方法需要支
..
尝试使用我在 scikit learn 中构建的模型进行预测时遇到此错误.我知道有很多关于此的问题,但我的问题似乎与它们不同,因为我在输入和模型特征之间非常偏离.这是我用于训练模型的代码(仅供参考,.csv 文件有 45 列,其中一列是已知值): 将pandas导入为pd从 sklearn.model_selection 导入 train_test_split从 sklearn 导入集成从 sk
..
我有一个评论数据集,其类别标签为正面/负面.我正在将朴素贝叶斯应用于该评论数据集.首先,我正在转换成词袋.这里sorted_data['Text']是评论,final_counts是一个稀疏矩阵 count_vect = CountVectorizer()final_counts = count_vect.fit_transform(sorted_data['Text'].values) 我正
..