sklearn-pandas - IT屋-程序员软件开发技术分享社区

FEATURE_NAMES必须唯一-XgBoost

我正在为一个非常稀疏的矩阵运行xgBoost模型。我收到此错误。ValueError：FEATURE_NAMES必须唯一我如何处理此问题？这是我的代码。 yprob = bst.predict(xgb.DMatrix(test_df))[:,1] 推荐答案根据xgboost source code documentation，该错误只出现在one pl ..

使用skLearning IterativeImputer类为鼠标输入遗漏的值

我正在尝试学习如何实现MICE来输入我的数据集的缺失值。我听说过Fancyimpute的鼠标，但我也读到Sklearn的IterativeImputer类可以实现类似的结果。摘自SkLearning的文档：我们实现IterativeImputer的灵感来自R MICE Package(链式方程的多元推算)[1]，但是与它的不同之处在于，它返回单个补偿而不是多个推卸责任。但是，Itera ..

发布时间：2022-09-02 14:55:03 python dataframe missing-data sklearn-pandas Python

如何解析属性错误：模块'；图形。后端没有属性'；编码'；

我不确定为什么当我尝试将回归树导出到Graphviz时得到AttributeError: module 'graphviz.backend' has no attribute 'ENCODING'。我试着重新安装了GRAPHVIZ和SLEARN，但没有解决问题。感谢您在这方面的任何建议。 AttributeError Traceback ..

发布时间：2022-06-18 19:12:43 graphviz sklearn-pandas 其他开发

使用SkLearning线性回归，我如何才能将计算出的回归系数限制为大于0？

我在这里使用skLearning的引用http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html，但是没有约束回归系数的选项。有没有人知道python中还有另一个包可以执行多变量线性回归，并将回归系数约束为大于0？这是我到目前为止拥有的代码。 '''da ..

发布时间：2022-03-24 22:02:59 python scikit-learn linear-regression sklearn-pandas Python

如何使用 MinMaxScaler sklearn 规范化训练和测试数据

所以，我有这个疑问并一直在寻找答案.所以问题是当我使用时， from sklearn 导入预处理min_max_scaler = preprocessing.MinMaxScaler()df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y ..

发布时间：2021-12-25 14:51:23 python machine-learning scikit-learn normalization sklearn-pandas AI人工智能

Sklearn 0.20+ 的交叉验证?

我正在尝试进行交叉验证，但遇到了一个错误:“发现样本数量不一致的输入变量:[18, 1]" 我在 Pandas 数据框 (df) 中使用不同的列作为特征，最后一列作为标签.这源自加州大学欧文分校的机器学习存储库.在导入我过去使用过的交叉验证包时，我收到一个错误，提示它可能已贬值.我将运行决策树、SVM 和 K-NN. 我的代码是这样的: feature = [df['age'], d ..

发布时间：2021-12-25 14:49:01 python machine-learning scikit-learn cross-validation sklearn-pandas AI人工智能

将一个热编码结果转换回 Python 中的单列

我正在使用 Keras 进行多类分类.它包含 5 个输出类.我使用一种热编码将单个类向量转换为矩阵并制作了一个模型.现在要评估模型，我想将 5 类概率结果转换回单列. 我将其作为 numpy 数组格式的输出 ................................0................................1......…………………………………………………… ..

发布时间：2021-12-25 14:47:46 python numpy scikit-learn keras sklearn-pandas Python

ValueError: 分割数不能大于样本数 n_splits=3: 1

我正在尝试使用 train_test_split 和决策树回归器进行这种训练建模: 导入sklearn从 sklearn.model_selection 导入 train_test_split从 sklearn.tree 导入 DecisionTreeRegressor从 sklearn.model_selection 导入 cross_val_score# TODO:制作 DataFrame ..

发布时间：2021-12-25 14:45:17 python scikit-learn cross-validation sklearn-pandas Python

sklearn 基于列的分层抽样

我有一个相当大的 CSV 文件，其中包含我读入 Pandas 数据框的亚马逊评论数据.我想将数据拆分为 80-20(训练测试)，但在这样做的同时，我想确保拆分数据按比例表示一列(类别)的值，即所有不同类别的评论都存在于训练中并按比例测试数据. 数据如下: **ReviewerID** **ReviewText** **Categories** **ProductId**1212好品手机14 ..

发布时间：2021-12-25 14:37:48 python pandas scikit-learn sklearn-pandas Python

在 scikit-learn 中使用 Featureunion 为 tfidf 组合两个 Pandas 列

虽然使用 this 作为模型对于垃圾邮件分类，我想添加主题和正文的附加功能. 我的所有功能都在一个 Pandas 数据框中.例如，主题是df['Subject']，正文是df['body_text']，垃圾邮件/火腿标签是df['ham/spam'] 我收到以下错误:类型错误:“FeatureUnion"对象不可迭代如何在通过管道函数运行 df['Subject'] 和 df[ ..

发布时间：2021-12-25 14:23:24 pandas scikit-learn sklearn-pandas Python

如何从包含列表的熊猫列进行单热编码?

我想将包含元素列表的 Pandas 列分解为与唯一元素数量相同的列，即 one-hot-encode 它们(值为 1 表示存在于一行中的给定元素和 0 在不存在的情况下). 例如，取数据框df Col1 Col2 Col3C 33 [苹果、橙、香蕉]A 2.5【苹果、葡萄】B 42 [香蕉] 我想将其转换为: df Col1 Col2 苹果橙香蕉葡萄33 1 1 1 02.5 1 ..

发布时间：2021-12-03 08:50:30 python pandas numpy scikit-learn sklearn-pandas Python

将任何 sklearn 结果映射回原始数据帧

我想以原始测试数据为参考，在excel中分析我的随机森林结果的预测值. 当我使用这个时，预测结果出现在一个数组中: predict = rf.predict(test[columns]) 如何使用 Pandas 将预测结果映射回原始数据集? 问候，加里耶解决方案 EdChum 回答了这个问题. (编辑)他的回答: 您应该能够将其添加回新列:test['pred ..

发布时间：2021-07-16 20:27:56 python pandas scikit-learn sklearn-pandas Python

使用 Pandas 和 Sklearn.Neighbors

我正在尝试使用 Python 3.5/Pandas/Sklearn.neighbors 在数据帧上拟合 KNN 模型.我已导入数据，将其拆分为训练和测试数据和标签，但是当我尝试使用它进行预测时，出现以下错误.我对 Pandas 还很陌生，所以任何帮助将不胜感激，谢谢！将pandas导入为pd从 sklearn 导入 cross_validation将 numpy 导入为 np从 sklea ..

发布时间：2021-07-16 20:22:38 python pandas scikit-learn python-3.5 sklearn-pandas Python

如何修复“发现样本数量不一致的输入变量:[219, 247]"

正如标题所说，当运行以下代码时，我遇到了一个问题，发现输入变量的样本数量不一致:[219, 247]，我已经读到问题应该出在为 X 和 y 设置的 np.array 上，但是我无法解决这个问题，因为每个日期都有价格，所以我不明白为什么会这样，任何帮助将不胜感激，谢谢！将pandas导入为pd导入 quandl、数学、日期时间将 numpy 导入为 np从 sklearn 导入预处理、svm、m ..

发布时间：2021-07-16 20:21:42 python numpy scikit-learn sklearn-pandas Python

scikit IterativeImputer 中每列的 max_value 和 min_value

我有这个包含 78 列和 5707 行的数据集.几乎每一列都有缺失值，我想用 IterativeImputer 来估算它们.如果我理解正确，它将根据其他列的信息对每一列进行“更智能"的插补. 但是，在插补时，我不希望插补值小于观察到的最小值或大于观察到的最大值.我意识到有 max_value 和 min_value 参数，但我不想对插补施加“全局"限制，相反，我希望每列都有自己的 max_v ..

发布时间：2021-07-16 20:19:53 python pandas scikit-learn sklearn-pandas imputation Python

在熊猫数据框中按 MinMaxScaler 分组

我想对数据帧 df 中的 X2 和 X3 列应用 minmax 缩放器，并为每个月添加 X2_Scale 和 X3_Scale 列. df = pd.DataFrame({'月': [1,1,1,1,1,1,2,2,2,2,2,2,2],'X1': [12,10,100,55,65,60,35,25,10,15,30,40,50],'X2': [10,15,24,32,8,6,10,23,24, ..

发布时间：2021-07-16 20:18:31 python pandas scikit-learn sklearn-pandas Python

在 python sklearn 部分依赖图中更改 x 标签

Hi 使用归一化数据拟合 GradientBoostingRegressor 并绘制了主要 10 个变量的部分依赖关系.现在我想根据真实的非标准化值绘制它们，因此想要访问 x 标签.我该怎么做? 我的代码相当于http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html 对于 3D ..

发布时间：2021-07-16 20:18:02 python scikit-learn sklearn-pandas Python

scikit-learn : ValueError: 没有足够的值来解包(预期 2，得到 1)

在最新版本的 sklearn 中有一个 check_array 函数用于计算平均绝对百分比误差 (MAPE) 但它似乎没有以与以前版本相同的方式工作. 将 numpy 导入为 np从 sklearn.utils 导入 check_arraydef calculate_mape(y_true, y_pred):y_true, y_pred = check_array(y_true, y_pred ..

发布时间：2021-07-16 20:12:25 python python-3.x scikit-learn sklearn-pandas Python

类型错误:不可散列的类型

我写了一小段代码来使用 sklearn 进行线性回归. 我创建了一个 2 列 csv 文件(列名 X、Y 带有一些数字)和当我阅读文件时，我看到内容已正确读取 - 如下所示. 但是，当我尝试使用命令 datafile[:,:] 或 datafile[:,-1] 引用列时，出现“unhashable type"错误代码>等等. 当我尝试在 sklearn 的线性回归中使用 X 作为 ..

发布时间：2021-07-16 20:11:12 scikit-learn sklearn-pandas 其他开发

Sklearn SVM:SVR 和 SVC，对每个输入得到相同的预测

这是代码的粘贴:SVM 示例代码我查看了这个问题的其他几个答案......似乎这个问题的特定迭代有点不同. 首先，我的输入是标准化的，每个点有五个输入.这些值的大小都是合理的(健康的 0.5s 和 0.7s 等——很少接近零或接近 1 个数字). 我有大约 70 个 x 输入对应于它们的 70 个 y 输入.y 输入也被归一化(它们是我的函数在每个时间步长后的百分比变化). ..

发布时间：2021-07-16 20:11:03 python scikit-learn sklearn-pandas Python

sklearn-pandas相关内容