scikit-learn相关内容
我知道软边距支持向量机有一个内置函数,如下所示。 from sklearn.svm import SVC clf = SVC(C=1, kernel = 'linear') clf.fit(X, y) 但对于硬间隔支持向量机,我们需要C=0,对吗?但当我让C=0时,代码报告错误ValueError: C
..
我使用来自SCRKIT学习的线性支持向量机(LinearSVC)来解决二值分类问题。我知道LinearSVC可以给我预测的标签和决策得分,但我想要概率估计(对标签的信心)。由于速度的原因,我想继续使用LinearSVC(与使用线性内核的sklearn.svm.SVC相比)使用Logistic函数将决策分数转换为概率是否合理? import sklearn.svm as suppmach #
..
假设我有这个Pipeline对象: from sklearn.pipeline import Pipeline pipe = Pipeline([ ('my_transform', my_transform()), ('estimator', SVC()) ]) 要将超参数传递给我的支持向量分类器(SVC),我可以执行如下操作: pipe_parameters =
..
这是我的代码,我试图计算ROC分数,但我遇到了ValueError的问题:不支持多类格式。我已经在找科学工具包学习了,但它没有帮助。最后,我仍然有ValueError:不支持多类格式。 这是我的代码 from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import BaggingClassifier
..
SkLearning清楚地定义了如何使用其自己的分类模型绘制混淆矩阵1。 但将其与使用数据生成器的Kera模型一起使用又如何呢?让我们看一看示例代码: 首先,我们需要训练模型。 import numpy as np from keras import backend as K from keras.models import Sequential from keras.layers.core
..
当我使用单列pythonpandasDataFrame(不是Series对象)调整sklearn的LogisticRegression时,收到以下警告: /Library/Python/2.7/site-packages/sklearn/preprocessing/label.py:125: DataConversionWarning: A column-vector y
..
我要将二维数组传递给线性回归: x = [[1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 3, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1], [0, 0, 0, 0, 0, 0, 0, 0, 1, 0], [0, 0, 0, 0, 0, 1, 1, 0
..
我正在使用sklearn的波士顿住房数据集(506x13矩阵)进行多元线性回归。我计划使用所有数据对其进行训练,然后“插入”一个随机数据(如boston_dataset.data[39]),然后查看损失情况。但当我打印结果时,得到的只有NaN。这是我的代码。 import tensorflow as tf import numpy as np import matplotlib.pyplot
..
我在这里使用skLearning的引用http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html,但是没有约束回归系数的选项。 有没有人知道python中还有另一个包可以执行多变量线性回归,并将回归系数约束为大于0? 这是我到目前为止拥有的代码。 '''da
..
我正在尝试在Bokeh仪表板中构建一个功能,该功能允许用户对数据进行集群。我使用以下示例作为模板,以下是链接:- Clustering in Bokeh example 以下是本例中的代码:- import numpy as np from sklearn import cluster, datasets from sklearn.preprocessing import Standa
..
以下是设置群集问题的一些代码: import numpy as np import matplotlib.pyplot as plt # KMeans # # Class=2 # Center(2.5,2.5), r1 = 2, r2 = 1 X1 = np.zeros(500*4) X2 = np.zeros(500*4) r1 = 2; r2 = 1; a = 2.5; b = 2.
..
输入数据集如下所示: {"666": ["abc", "xyz"], "888": ["xxxo", "xxxo"], "007": ["abc"]} 我们首先使用以下函数创建词袋模型: def associate_terms_with_user(unique_term_set, all_users_terms_dict):
..
我希望对缺少列的数据进行群集。手动操作时,我会在缺少列的情况下简单地计算距离,而不需要此列。 使用SCRICKIT-LEARN,不可能丢失数据。也没有机会指定用户距离函数。 是否有机会群集丢失的数据? 示例数据: n_samples = 1500 noise = 0.05 X, _ = make_swiss_roll(n_samples, noise) rnd = n
..
我正在用三个具有不同特性的时间序列数据集进行实验,其格式如下。 0.086206438,10 0.086425551,12 0.089227066,20 0.089262508,24 0.089744425,30 0.090036815,40 0.090054172,28 0.090377569,28 0.0905140
..
我正在处理以下数据集: http://archive.ics.uci.edu/ml/datasets/Bank+Marketing 可以通过单击数据文件夹链接找到数据。存在两个数据集,一个训练集和一个测试集。我使用的文件包含两个集合中的组合数据。 我正在尝试应用线性判别分析(LDA)来获得两个组件,但是,当我的代码运行时,它只产生一个组件。如果设置“n_Components=3”
..
我正在尝试根据用户行为对一些产品进行集群。我最后看到的是具有非常不同观测数量的星团。 我已检查k-Means群集参数,但找不到控制每个群集的最小(或最大)观察数的参数。 例如,此处显示了观察值数量在不同群集之间的分布方式。 cluster_id num_observations 0 6 1 4 2 1 3 3 4 29 5 5 有关于如何处理此问题
..
我正在使用sklearn库中的Pipeline和ColumnTransformer模块对我的数据集执行功能工程。 数据集最初如下所示: 日期 Date_挡路_Num shop_id item_id Item_Price 02.01.2013 0 59 22154 999.00 03.01.2013 0 25 2552 899.00 05.01.2013 0 25 2552 899
..
我想在SCRKIT学习中实现自定义丢失功能。我使用以下代码片段: def my_custom_loss_func(y_true,y_pred): diff3=max((abs(y_true-y_pred))*y_true) return diff3 score=make_scorer(my_custom_loss_func,greater_ is_better=False) c
..
我不知道“对数回归”是否是正确的术语,我需要在我的数据上拟合一条曲线,就像一条多项式曲线,但末尾是平坦的。 这是一张图片,蓝色的曲线就是我所拥有的(二阶多项式回归),洋红色的曲线就是我需要的。 我搜索了很多,但没有找到,只有线性回归,多项式回归,但没有在skLearning上的对数回归。我需要绘制曲线,然后使用该回归进行预测。 编辑 以下是我发布的绘图图像的数据: x
..
我正在处理一个二进制分类问题。在这种情况下,我使用了从skLearning导入的Logistic回归和支持向量机模型。这两个模型用相同的、不平衡的训练数据进行拟合,并调整了类权重。他们也取得了可比的成绩。当我使用这两个预先训练好的模型来预测新的数据集时。LR模型和SVM模型预测的实例数与正数相似。并且预测的实例共享很大的重叠。 然而,当我查看被归类为阳性的概率得分时,LR的分布是从0.5到1,而
..