missing-data相关内容

Python:从现有列创建新列

我正在尝试根据两个列创建一个新列.假设我要创建一个新列z,并且当它不丢失时应为y的值,而当y确实不存在时应为x的值.因此,在这种情况下,我希望z为 [1、8、10、8] . x y0 1 NaN1 2 82 4 103 8 NaN 解决方案 新列'z'使用 df从列'y'中获取其值['z'] = df ['y'] .这会遗漏缺少的值,因此请使用 fillna 并使用列'x'填充它们.链接 ..
发布时间:2021-04-21 18:54:58 Python

熊猫read_csv,读取具有指定为int的缺失值的布尔值

我正在尝试将csv导入到pandas数据框中.我有用1和0表示的布尔变量,其中缺失值用-9标识.当我尝试将dtype指定为boolean时,会遇到很多不同的错误,具体取决于我的尝试. 样本数据:test.csv var1,var20,00,1一三-9、00、21、7 我尝试在导入时指定dtype: dtype_dict = {'var1':'bool','var2':'int'} ..
发布时间:2021-04-15 20:37:40 Python

在python中使用beautifulsoup进行抓取时缺少值

作为第一个使用python的项目,我正在尝试进行网络抓取(对编程来说是全新的东西),我快完成了,但是网页上的某些值丢失了,所以我想用一些东西来替换该丢失的值就像"0"一样或“未找到",实际上我只是想从数据中制作一个CSV文件,而不是真正地进行分析. 我要抓取的网页是: https://www.lamudi.com.mx/nuevo-leon/departamento/for-rent/?pa ..
发布时间:2021-04-15 19:16:57 前端开发

用零填充缺失的销售值,并在PySpark中计算3个月的平均值

我要添加零销售额的缺失值,并在pyspark中计算3个月的平均值 我的输入:产品专业日期销售一家制药公司1/3/2019 50制药1/4/2019 60药房1/5/2019 70一家药房1/8/2019 80耳鼻喉1/8/2019 50ENT 1/9/2019 65ENT 1/11/2019 40我的输出:产品专业日期销售3month_avg_sales一家制药公司1/3/2019 50 16. ..
发布时间:2021-04-08 19:23:04 其他开发

R中的多重插补和多组SEM

我想使用R包mice和semTools,特别是调用Lavaan的runMI函数,对估算数据执行多组SEM. 在一次插补整个数据集时,我可以这样做,但是在拖曳stackoverflow/stackexchange的过程中,我遇到了针对分组变量的每个级别(例如,男性,女性)分别插补数据的建议,因此保留每个组的特征 (例如 https://stats.stackexchange.com/quest ..
发布时间:2020-07-06 02:10:57 其他开发

熊猫-使用多个值填充NaN

我有一列(称为X列),包含大约16000个NaN值.该列有两个可能的值,即1或0(如二进制) 我想在X列中填写NaN值,但我不想对所有NaN条目使用单个值. 例如说:我想用"1"填充NaN值的50%,用"0"填充其他50%的NaN值. 我已经阅读了'fillna()'文档,但没有找到任何可以满足此功能的相关信息. 我真的不知道如何解决这个问题,所以我什么也没尝试. df[ ..
发布时间:2020-05-16 20:54:22 Python

调试代码签名和配置概要文件部分中缺少的行

问题: 从项目或目标的顶部菜单中选择“全部/合并",这就是我所看到的.调试曾经在“配置文件配置文件"和“代码签名标识"部分中列出,但现在丢失了.我可以像这样在模拟器上构建运行,但是当尝试部署到受限制的测试设备时,出现有关配置概要文件和代码签名的错误. 这不是“>“配置文件"的副本'代码签名'Xcode 6.3 中缺少'选项,因为我选择了All/Combined.不仅仅是Debug在列表 ..
发布时间:2020-05-09 23:21:19 其他开发

时间序列数据缺失时间值和数据值

我这里有以下时间序列数据集示例: ymd rf 19820103 3 19820104 9 19820118 4 19820119 2 19820122 0 19820218 5 现在应该以每日时间序列的方式组织数据集.更具体地说,应将ymd的范围从19820101到19820230连续.但是,如从上面的示例中可以看到的,数据集不是连续的,并且不包含诸如"19820 ..
发布时间:2020-05-09 23:21:17 其他开发

将平均值替换为缺失值(Weka)

在Weka中,有一个名为"ReplaceMissingValues"的过滤器,该过滤器允许使用每个属性的平均值替换数据集中的所有缺失值.我想使用属于某个类的值的平均值替换某个属性的缺失值.例如,在二进制数据集中,我认为使用仅对属于正类的记录进行计算的平均值来替换属于正类的记录中的属性的缺失值是更正确的.那么如何实现呢?我们如何只为属于某个类的记录替换值? 解决方案 如果您想通过从该特定A类 ..
发布时间:2020-05-09 23:21:02 其他开发

使用Seaborn可视化丢失数据的发生频率

我想创建一个24x20的矩阵(8个部分,每个单元有60个单元格或6x10),以可视化方式丢失数据的发生频率(每个周期 480个值)通过熊猫数据框添加到数据集中,并针对每列'A','B','C'进行绘制. 到目前为止,我可以映射创建的csv文件,并以正确的方式将值映射到矩阵中,并在更改丢失的数据( nan & inf )添加到0或类似0.01234这样对数据影响最小的方面,而可以绘制出来. 下 ..

零作为R中的遗漏案例

我的csv包含数百万个如下所示的案例: Case_1,11,17481,172,4436,8,4436 Case_2,11,1221,680,55200,1776,55200 Case_3,16,6647,6449,579967,1,579967 Case_4,22,0,0,0,0,0 在这种情况下,Case_4缺少数据,因为其中包含一堆零(文件中有数百个).我是R的新手,我想知道是否有 ..
发布时间:2020-05-09 23:20:39 其他开发