sklearn-pandas相关内容
我正在为一个非常稀疏的矩阵运行xgBoost模型。 我收到此错误。ValueError:FEATURE_NAMES必须唯一 我如何处理此问题? 这是我的代码。 yprob = bst.predict(xgb.DMatrix(test_df))[:,1] 推荐答案 根据xgboost source code documentation,该错误只出现在one pl
..
我正在尝试学习如何实现MICE来输入我的数据集的缺失值。我听说过Fancyimpute的鼠标,但我也读到Sklearn的IterativeImputer类可以实现类似的结果。摘自SkLearning的文档: 我们实现IterativeImputer的灵感来自R MICE Package(链式方程的多元推算)[1],但是 与它的不同之处在于,它返回单个补偿而不是多个 推卸责任。但是,Itera
..
我不确定为什么当我尝试将回归树导出到Graphviz时得到AttributeError: module 'graphviz.backend' has no attribute 'ENCODING'。我试着重新安装了GRAPHVIZ和SLEARN,但没有解决问题。感谢您在这方面的任何建议。 AttributeError Traceback
..
我在这里使用skLearning的引用http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html,但是没有约束回归系数的选项。 有没有人知道python中还有另一个包可以执行多变量线性回归,并将回归系数约束为大于0? 这是我到目前为止拥有的代码。 '''da
..
所以,我有这个疑问并一直在寻找答案.所以问题是当我使用时, from sklearn 导入预处理min_max_scaler = preprocessing.MinMaxScaler()df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y
..
我正在尝试进行交叉验证,但遇到了一个错误:“发现样本数量不一致的输入变量:[18, 1]" 我在 Pandas 数据框 (df) 中使用不同的列作为特征,最后一列作为标签.这源自加州大学欧文分校的机器学习存储库.在导入我过去使用过的交叉验证包时,我收到一个错误,提示它可能已贬值.我将运行决策树、SVM 和 K-NN. 我的代码是这样的: feature = [df['age'], d
..
我正在使用 Keras 进行多类分类.它包含 5 个输出类.我使用一种热编码将单个类向量转换为矩阵并制作了一个模型.现在要评估模型,我想将 5 类概率结果转换回单列. 我将其作为 numpy 数组格式的输出 ................................0................................1......……………………………………………………
..
我正在尝试使用 train_test_split 和决策树回归器进行这种训练建模: 导入sklearn从 sklearn.model_selection 导入 train_test_split从 sklearn.tree 导入 DecisionTreeRegressor从 sklearn.model_selection 导入 cross_val_score# TODO:制作 DataFrame
..
我有一个相当大的 CSV 文件,其中包含我读入 Pandas 数据框的亚马逊评论数据.我想将数据拆分为 80-20(训练测试),但在这样做的同时,我想确保拆分数据按比例表示一列(类别)的值,即所有不同类别的评论都存在于训练中并按比例测试数据. 数据如下: **ReviewerID** **ReviewText** **Categories** **ProductId**1212好品手机14
..
虽然使用 this 作为模型对于垃圾邮件分类,我想添加主题和正文的附加功能. 我的所有功能都在一个 Pandas 数据框中.例如,主题是df['Subject'],正文是df['body_text'],垃圾邮件/火腿标签是df['ham/spam'] 我收到以下错误:类型错误:“FeatureUnion"对象不可迭代 如何在通过管道函数运行 df['Subject'] 和 df[
..
我想将包含元素列表的 Pandas 列分解为与唯一元素数量相同的列,即 one-hot-encode 它们(值为 1 表示存在于一行中的给定元素和 0 在不存在的情况下). 例如,取数据框df Col1 Col2 Col3C 33 [苹果、橙、香蕉]A 2.5【苹果、葡萄】B 42 [香蕉] 我想将其转换为: df Col1 Col2 苹果橙香蕉葡萄33 1 1 1 02.5 1
..
我想以原始测试数据为参考,在excel中分析我的随机森林结果的预测值. 当我使用这个时,预测结果出现在一个数组中: predict = rf.predict(test[columns]) 如何使用 Pandas 将预测结果映射回原始数据集? 问候,加里耶 解决方案 EdChum 回答了这个问题. (编辑)他的回答: 您应该能够将其添加回新列:test['pred
..
我正在尝试使用 Python 3.5/Pandas/Sklearn.neighbors 在数据帧上拟合 KNN 模型.我已导入数据,将其拆分为训练和测试数据和标签,但是当我尝试使用它进行预测时,出现以下错误.我对 Pandas 还很陌生,所以任何帮助将不胜感激,谢谢! 将pandas导入为pd从 sklearn 导入 cross_validation将 numpy 导入为 np从 sklea
..
正如标题所说,当运行以下代码时,我遇到了一个问题,发现输入变量的样本数量不一致:[219, 247],我已经读到问题应该出在为 X 和 y 设置的 np.array 上,但是我无法解决这个问题,因为每个日期都有价格,所以我不明白为什么会这样,任何帮助将不胜感激,谢谢! 将pandas导入为pd导入 quandl、数学、日期时间将 numpy 导入为 np从 sklearn 导入预处理、svm、m
..
我有这个包含 78 列和 5707 行的数据集.几乎每一列都有缺失值,我想用 IterativeImputer 来估算它们.如果我理解正确,它将根据其他列的信息对每一列进行“更智能"的插补. 但是,在插补时,我不希望插补值小于观察到的最小值或大于观察到的最大值.我意识到有 max_value 和 min_value 参数,但我不想对插补施加“全局"限制,相反,我希望每列都有自己的 max_v
..
我想对数据帧 df 中的 X2 和 X3 列应用 minmax 缩放器,并为每个月添加 X2_Scale 和 X3_Scale 列. df = pd.DataFrame({'月': [1,1,1,1,1,1,2,2,2,2,2,2,2],'X1': [12,10,100,55,65,60,35,25,10,15,30,40,50],'X2': [10,15,24,32,8,6,10,23,24,
..
Hi 使用归一化数据拟合 GradientBoostingRegressor 并绘制了主要 10 个变量的部分依赖关系.现在我想根据真实的非标准化值绘制它们,因此想要访问 x 标签.我该怎么做? 我的代码相当于http://scikit-learn.org/stable/auto_examples/ensemble/plot_partial_dependence.html 对于 3D
..
在最新版本的 sklearn 中有一个 check_array 函数用于计算 平均绝对百分比误差 (MAPE) 但它似乎没有以与以前版本相同的方式工作. 将 numpy 导入为 np从 sklearn.utils 导入 check_arraydef calculate_mape(y_true, y_pred):y_true, y_pred = check_array(y_true, y_pred
..
我写了一小段代码来使用 sklearn 进行线性回归. 我创建了一个 2 列 csv 文件(列名 X、Y 带有一些数字)和当我阅读文件时,我看到内容已正确读取 - 如下所示. 但是,当我尝试使用命令 datafile[:,:] 或 datafile[:,-1] 引用列时,出现“unhashable type"错误代码>等等. 当我尝试在 sklearn 的线性回归中使用 X 作为
..
这是代码的粘贴:SVM 示例代码 我查看了这个问题的其他几个答案......似乎这个问题的特定迭代有点不同. 首先,我的输入是标准化的,每个点有五个输入.这些值的大小都是合理的(健康的 0.5s 和 0.7s 等——很少接近零或接近 1 个数字). 我有大约 70 个 x 输入对应于它们的 70 个 y 输入.y 输入也被归一化(它们是我的函数在每个时间步长后的百分比变化).
..