scikit-learn相关内容

用 Matplotlib 绘制 SVM?

我有一些有趣的用户数据.它提供了一些有关要求用户执行的某些任务的及时性的信息.我想知道,如果 late - 它告诉我用户是否准时 (0),有点晚 (1),或很晚 (2) - 是可预测/可解释的.我从提供交通灯信息的列中生成 late(绿色 = 不迟到,红色 = 超级迟到). 这是我所做的: #imports将熊猫导入为 pd将 numpy 导入为 np导入 matplotlib.pypl ..
发布时间:2021-12-25 14:40:51 其他开发

python中二元分类的ROC曲线

我想使用 RandomForestClassifier 绘制二元分类的 ROC 曲线 我有两个 numpy 数组,一个包含预测值,一个包含真实值,如下所示: 在[84]中:测试Out[84]: 数组([0, 1, 0, ..., 0, 1, 0])在 [85] 中:predOut[85]: 数组([0, 1, 0, ..., 1, 0, 0]) 如何在 ipython 中移植 ROC 曲线 ..
发布时间:2021-12-25 14:40:37 AI人工智能

python中的KFold究竟是做什么的?

我正在看这个教程:https://www.dataquest.io/mission/74/getting-started-with-kaggle 我到了第 9 部分,进行预测.在一个名为 Titanic 的数据框中有一些数据,然后使用以下方法将其划分为折叠: # 为泰坦尼克号数据集生成交叉验证折叠.它返回对应于训练和测试的行索引.# 我们设置 random_state 以确保每次运行时都能 ..
发布时间:2021-12-25 14:40:18 Python

如何获取特征的权重

我正在处理高度不平衡的数据集,我的想法是从我的 libSVM 模型中获取特征权重的值.至于现在我对线性内核没问题,在那里我可以获得特征权重,但是当我使用 rbf 或 poly 时,我无法达到我的目标. 这里我使用 sklearn 作为我的模型,使用 .coef_ 很容易获得线性核的特征权重.谁能帮我为 rbf 或 poly 做同样的事情?到目前为止,我尝试做的事情如下: svr = SVC(C ..
发布时间:2021-12-25 14:40:09 AI人工智能

AttributeError: 'str' 对象在拟合逻辑回归模型时没有属性 'decode'

我目前正在尝试使用逻辑回归创建二元分类.目前我正在确定特征重要性.我已经进行了数据预处理(一次热编码和采样)并使用 XGBoost 和 RandomFOrestClassifier 运行它,没问题 但是,当我尝试拟合 LogisticRegression 模型时(以下是我在 Notebook 中的代码), from sklearn.linear_model import LogisticR ..
发布时间:2021-12-25 14:39:50 Python

如何使用 scikit-learn 进行高斯/多项式回归?

scikit-learn 是否提供使用高斯或多项式核执行回归的工具?我查看了 API,但没有看到任何 API.有没有人在 scikit-learn 之上构建了一个包来做到这一点? 解决方案 要么使用 Support Vector Regression sklearn.svm.SVR 并设置适当的 kernel(请参阅此处). 或者您安装最新的 sklearn 主版本并使用最近添加的 ..
发布时间:2021-12-25 14:39:40 AI人工智能

使用 scikit learn (sklearn) 批量梯度下降

我正在使用 Scikit-Learn (sklearn) 使用一对多逻辑回归分类器.我有一个很大的数据集,一次运行太慢;我还想随着培训的进行研究学习曲线. 我想使用批量梯度下降来批量训练我的分类器,比如 500 个样本.有什么方法可以使用 sklearn 来做到这一点,还是应该放弃 sklearn 并“自己动手"? 这是我目前所拥有的: from sklearn.linear_mod ..
发布时间:2021-12-25 14:39:28 AI人工智能

比较 R、statmodels、sklearn 的分类任务与逻辑回归

我在 R、python statmodels 和 sklearn 中做了一些逻辑回归实验.虽然 R 和 statmodels 给出的结果一致,但与 sklearn 返回的结果存在一些差异.我想了解为什么这些结果不同.据我所知,这可能与木头下使用的优化算法不同. 具体来说,我使用标准的Default 数据集(在ISL 书籍中使用一>).以下 Python 代码将数据读入数据帧 Default. ..
发布时间:2021-12-25 14:39:16 Python

sklearn 没有属性“数据集"

我已经开始在我的工作中使用 sckikit-learn.所以我正在阅读 tutorial ,它提供了加载一些数据集的标准程序: $ python>>>从 sklearn 导入数据集>>>虹膜 = datasets.load_iris()>>>数字 = datasets.load_digits() 但是,为了方便起见,我尝试通过以下方式加载数据: 在[1]中:导入sklearn在 [2] 中: ..
发布时间:2021-12-25 14:38:58 AI人工智能

与 sklearn 并行训练多个模型?

我想用不同的随机状态训练多个 LinearSVC 模型,但我更喜欢并行进行.sklearn 中是否有支持此功能的机制?我知道 Gridsearch 或一些集成方法正在隐式地执行,但它的内幕是什么? 解决方案 引擎盖下的“东西"是图书馆 joblib,例如支持 GridSearchCV 中的多处理和一些集成方法.Parallel 辅助类是一个非常方便的瑞士刀,用于尴尬的并行循环. 这是 ..

使用 Scikit-Learn CountVectorizer 根据文本语料库中的出现次数列出词汇表中的单词

我已经为 scikit-learn 中的一些文档安装了一个 CountVectorizer.我想在文本语料库中查看所有术语及其对应的频率,以便选择停用词.例如 'and' 123 次,'to' 100 次,'for' 90 次,......等等 是否有任何内置函数? 解决方案 如果 cv 是你的 CountVectorizer 并且 X 是向量化的语料库,然后 zip(cv.get_ ..

具有不同基学习器的 AdaBoostClassifier

我正在尝试将 AdaBoostClassifier 与 DecisionTree 以外的基础学习器一起使用.我尝试过 SVM 和 KNeighborsClassifier,但出现错误.AdaBoostClassifier 可以使用哪些分类器? 解决方案 好的,我们有一个系统的方法来找出 AdaBoostClassifier 支持的所有基学习器.兼容base learner的fit方法需要支 ..
发布时间:2021-12-25 14:38:26 AI人工智能

ValueError:模型的特征数必须与输入匹配

尝试使用我在 scikit learn 中构建的模型进行预测时遇到此错误.我知道有很多关于此的问题,但我的问题似乎与它们不同,因为我在输入和模型特征之间非常偏离.这是我用于训练模型的代码(仅供参考,.csv 文件有 45 列,其中一列是已知值): 将pandas导入为pd从 sklearn.model_selection 导入 train_test_split从 sklearn 导入集成从 sk ..
发布时间:2021-12-25 14:38:11 Python