missing-data相关内容

为 sklearn 管道实现自定义单热编码功能

与 一个热编码保留 NA插补 我正在尝试创建一个自定义函数,用于在对分类变量进行热编码时处理 NA.该设置应适合使用 sklearn 管道 进行训练/测试拆分和建模. 我的问题的一个简单的可重现示例: #Packages将熊猫导入为 pd将 numpy 导入为 np从 sklearn.model_selection 导入 train_test_split从 sklearn.preproce ..
发布时间:2021-06-02 22:21:36 Python

将具有交替缺失值的两个字符串列合并为一个

我有一个包含两列“a"和“b"的数据框,其中包含交替的缺失值(NA) a b狗小鼠 猫鸟 我想将它们“合并"/组合到一个看起来像这样的新列 c,即每行中的非 NA 元素被选中: c狗鼠猫鸟 我尝试了 merge 和 join,但都没有达到我想要的效果.也许是因为我没有要合并的 ID?对于整数,我会绕过这个并添加两列,但在我的情况下如何? 解决方案 ..
发布时间:2021-06-02 22:21:32 其他开发

如何组合熊猫中的重复行?

如何合并pandas中的重复行,填补缺失值? 在下面的示例中,某些行在 c1 列中有缺失值,但 c2 列有重复项,可以用作索引来查找和填充在那些缺失值中. 输入数据如下所示: c1 c2ID0 10.0 一1 纳米2 30.0 摄氏度3 10.0 一4 20.0 羽5 纳米 所需的输出: c1 c20 10 一1 20 乙2 30 摄氏度 但是如何做到这一点? 这是生 ..
发布时间:2021-06-02 20:21:45 Python

根据之前可用值和下一个可用值的平均值对数据框中的缺失值进行分组填充

我有包含某些组的数据框,并且我想根据得分列的最后一个上一个可用值和下一个可用值平均值来填充缺失值,即(上一个值+下一个值)/2. 我想按州,学校,班级,主题分组,然后填写值. 如果第一个值在分数列中不可用,则用下一个或第二个可用值填充该值如果最后一个值不可用,则用先前可用的值填充该值对于每个小组,都需要遵循. 是数据插补复杂的问题.我在网上搜索后发现,熊猫具有某些功能,即pandas ..
发布时间:2021-05-31 18:47:04 AI人工智能

如何有效地推断多个变量的缺失数据

我有面板数据,并且某些年份之前缺少许多变量的观测值.年份因变量而异.什么是一种有效的方法来推断多列中缺少的数据点?我正在考虑一些简单的事情,例如从线性趋势外推,但是我希望找到一种有效的方法来将预测应用于多个列.下面是一个样本数据集,其缺失与我正在处理的相似.在此示例中,我希望使用在每一列中观察到的数据点计算出的线性趋势,在“国民生产总值"和“国民平均预期寿命"变量中填写NA值. ###模拟国家 ..
发布时间:2021-05-29 21:00:47 其他开发

用单独的线型在ggplot2中绘制缺失值

我正在使用ggplot2创建线图,但是缺少以NaN表示的数据.我的线图当前未在缺失值之间添加任何线.但是,我想用虚线连接丢失的数据,而所有已知数据都用实线连接. 这是我当前图的代码,下面是我的数据框和图的一小部分. #make ggplots用于所有数据集Q4_plot ..
发布时间:2021-05-10 19:59:40 其他开发

删除R中的ggplot()检测到的缺失值

我问了这个问题,以了解如何绘制许多图同一图中的图形.按照我喜欢并接受的答案,可以使用 ggplot()函数. 现在使用 ggplot(),我收到以下消息,通知您已删除该图的缺失值: 警告消息:删除了33个包含缺失值的行(geom_path). 从生成的图上进行可视化处理后,我对数据感到满意,因为 ggplot()删除了33行. 我知道如何删除NA行,但是在这里我不明白 ggplo ..
发布时间:2021-05-10 19:57:44 其他开发

Python Pandas数据框发现缺失值

我正在尝试查找缺失值,然后删除缺失值.试图在线查找数据,但似乎找不到答案. 提取的数据框: 使用isull导出的数据框: dropna : 删除所有缺少元素的行. df.dropna(how ='all') 删除至少缺少一个元素的列. df.dropna(axis ='columns') ..
发布时间:2021-05-07 19:27:31 Python

使用前一天的数据完成时间序列中的缺失值-使用R

我有一个数据框,其中每一行是不同的日期,每一列是不同的时间序列. 表格中的日期范围是01.01.2019-01.01.2021. 一些时间序列仅与部分日期相关,并且在周末和节假日缺少值. 如何仅使用每一列的相关日期的前一天值来完成每个时间序列的缺失值(如果特定列中的时间序列是从01.03.2019到01.09.2019,我只想完成在此日期范围内缺少值)? 我尝试使用填充功能: 数 ..
发布时间:2021-05-02 20:59:31 其他开发

在Python中用nan替换浮点列中的点

我有这样的数据帧df df = pd.DataFrame([{'名称':'克里斯','购买的商品':'海绵','费用':22.50},{'Name':'Kevyn','购买的物品':'Kitty Litter','Cost':'.........'}},{'名称':'菲利普','购买的物品':'汤匙','成本':'...'}]],index = ['商店1','商店1','商店2']) 我 ..
发布时间:2021-04-28 20:52:40 Python