sklearn-pandas相关内容

FEATURE_NAMES必须唯一-XgBoost

我正在为一个非常稀疏的矩阵运行xgBoost模型。 我收到此错误。ValueError:FEATURE_NAMES必须唯一 我如何处理此问题? 这是我的代码。 yprob = bst.predict(xgb.DMatrix(test_df))[:,1] 推荐答案 根据xgboost source code documentation,该错误只出现在one pl ..
发布时间:2022-09-04 15:51:25 Python

使用skLearning IterativeImputer类为鼠标输入遗漏的值

我正在尝试学习如何实现MICE来输入我的数据集的缺失值。我听说过Fancyimpute的鼠标,但我也读到Sklearn的IterativeImputer类可以实现类似的结果。摘自SkLearning的文档: 我们实现IterativeImputer的灵感来自R MICE Package(链式方程的多元推算)[1],但是 与它的不同之处在于,它返回单个补偿而不是多个 推卸责任。但是,Itera ..
发布时间:2022-09-02 14:55:03 Python

使用SkLearning线性回归,我如何才能将计算出的回归系数限制为大于0?

我在这里使用skLearning的引用http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html,但是没有约束回归系数的选项。 有没有人知道python中还有另一个包可以执行多变量线性回归,并将回归系数约束为大于0? 这是我到目前为止拥有的代码。 '''da ..
发布时间:2022-03-24 22:02:59 Python

Sklearn 0.20+ 的交叉验证?

我正在尝试进行交叉验证,但遇到了一个错误:“发现样本数量不一致的输入变量:[18, 1]" 我在 Pandas 数据框 (df) 中使用不同的列作为特征,最后一列作为标签.这源自加州大学欧文分校的机器学习存储库.在导入我过去使用过的交叉验证包时,我收到一个错误,提示它可能已贬值.我将运行决策树、SVM 和 K-NN. 我的代码是这样的: feature = [df['age'], d ..

将一个热编码结果转换回 Python 中的单列

我正在使用 Keras 进行多类分类.它包含 5 个输出类.我使用一种热编码将单个类向量转换为矩阵并制作了一个模型.现在要评估模型,我想将 5 类概率结果转换回单列. 我将其作为 numpy 数组格式的输出 ................................0................................1......…………………………………………………… ..
发布时间:2021-12-25 14:47:46 Python

sklearn 基于列的分层抽样

我有一个相当大的 CSV 文件,其中包含我读入 Pandas 数据框的亚马逊评论数据.我想将数据拆分为 80-20(训练测试),但在这样做的同时,我想确保拆分数据按比例表示一列(类别)的值,即所有不同类别的评论都存在于训练中并按比例测试数据. 数据如下: **ReviewerID** **ReviewText** **Categories** **ProductId**1212好品手机14 ..
发布时间:2021-12-25 14:37:48 Python

在 scikit-learn 中使用 Featureunion 为 tfidf 组合两个 Pandas 列

虽然使用 this 作为模型对于垃圾邮件分类,我想添加主题和正文的附加功能. 我的所有功能都在一个 Pandas 数据框中.例如,主题是df['Subject'],正文是df['body_text'],垃圾邮件/火腿标签是df['ham/spam'] 我收到以下错误:类型错误:“FeatureUnion"对象不可迭代 如何在通过管道函数运行 df['Subject'] 和 df[ ..
发布时间:2021-12-25 14:23:24 Python

如何从包含列表的熊猫列进行单热编码?

我想将包含元素列表的 Pandas 列分解为与唯一元素数量相同的列,即 one-hot-encode 它们(值为 1 表示存在于一行中的给定元素和 0 在不存在的情况下). 例如,取数据框df Col1 Col2 Col3C 33 [苹果、橙、香蕉]A 2.5【苹果、葡萄】B 42 [香蕉] 我想将其转换为: df Col1 Col2 苹果橙香蕉葡萄33 1 1 1 02.5 1 ..
发布时间:2021-12-03 08:50:30 Python

将任何 sklearn 结果映射回原始数据帧

我想以原始测试数据为参考,在excel中分析我的随机森林结果的预测值. 当我使用这个时,预测结果出现在一个数组中: predict = rf.predict(test[columns]) 如何使用 Pandas 将预测结果映射回原始数据集? 问候,加里耶 解决方案 EdChum 回答了这个问题. (编辑)他的回答: 您应该能够将其添加回新列:test['pred ..
发布时间:2021-07-16 20:27:56 Python

使用 Pandas 和 Sklearn.Neighbors

我正在尝试使用 Python 3.5/Pandas/Sklearn.neighbors 在数据帧上拟合 KNN 模型.我已导入数据,将其拆分为训练和测试数据和标签,但是当我尝试使用它进行预测时,出现以下错误.我对 Pandas 还很陌生,所以任何帮助将不胜感激,谢谢! 将pandas导入为pd从 sklearn 导入 cross_validation将 numpy 导入为 np从 sklea ..
发布时间:2021-07-16 20:22:38 Python

如何修复“发现样本数量不一致的输入变量:[219, 247]"

正如标题所说,当运行以下代码时,我遇到了一个问题,发现输入变量的样本数量不一致:[219, 247],我已经读到问题应该出在为 X 和 y 设置的 np.array 上,但是我无法解决这个问题,因为每个日期都有价格,所以我不明白为什么会这样,任何帮助将不胜感激,谢谢! 将pandas导入为pd导入 quandl、数学、日期时间将 numpy 导入为 np从 sklearn 导入预处理、svm、m ..
发布时间:2021-07-16 20:21:42 Python

scikit IterativeImputer 中每列的 max_value 和 min_value

我有这个包含 78 列和 5707 行的数据集.几乎每一列都有缺失值,我想用 IterativeImputer 来估算它们.如果我理解正确,它将根据其他列的信息对每一列进行“更智能"的插补. 但是,在插补时,我不希望插补值小于观察到的最小值或大于观察到的最大值.我意识到有 max_value 和 min_value 参数,但我不想对插补施加“全局"限制,相反,我希望每列都有自己的 max_v ..
发布时间:2021-07-16 20:19:53 Python

在 python sklearn 部分依赖图中更改 x 标签

Hi 使用归一化数据拟合 GradientBoostingRegressor 并绘制了主要 10 个变量的部分依赖关系.现在我想根据真实的非标准化值绘制它们,因此想要访问 x 标签.我该怎么做? 我的代码相当于http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html 对于 3D ..
发布时间:2021-07-16 20:18:02 Python

类型错误:不可散列的类型

我写了一小段代码来使用 sklearn 进行线性回归. 我创建了一个 2 列 csv 文件(列名 X、Y 带有一些数字)和当我阅读文件时,我看到内容已正确读取 - 如下所示. 但是,当我尝试使用命令 datafile[:,:] 或 datafile[:,-1] 引用列时,出现“unhashable type"错误代码>等等. 当我尝试在 sklearn 的线性回归中使用 X 作为 ..
发布时间:2021-07-16 20:11:12 其他开发

Sklearn SVM:SVR 和 SVC,对每个输入得到相同的预测

这是代码的粘贴:SVM 示例代码 我查看了这个问题的其他几个答案......似乎这个问题的特定迭代有点不同. 首先,我的输入是标准化的,每个点有五个输入.这些值的大小都是合理的(健康的 0.5s 和 0.7s 等——很少接近零或接近 1 个数字). 我有大约 70 个 x 输入对应于它们的 70 个 y 输入.y 输入也被归一化(它们是我的函数在每个时间步长后的百分比变化). ..
发布时间:2021-07-16 20:11:03 Python