dataframe 第2页 - IT屋-程序员软件开发技术分享社区

通过填充丢失的日期和对称地上下迭代日期以找到r中最接近的值来表示补偿

我需要计算每个id的可用日期之间的所有丢失日期，然后对称地上下移动以计算丢失。此外，我并不总是需要两个日期之间的平均值，例如：当我上下移动两个日期时，我只看到一个值，那么我就会计算那个值。 df1 ..

发布时间：2022-09-02 14:59:12 r dataframe group-by missing-data 其他开发

使用skLearning IterativeImputer类为鼠标输入遗漏的值

我正在尝试学习如何实现MICE来输入我的数据集的缺失值。我听说过Fancyimpute的鼠标，但我也读到Sklearn的IterativeImputer类可以实现类似的结果。摘自SkLearning的文档：我们实现IterativeImputer的灵感来自R MICE Package(链式方程的多元推算)[1]，但是与它的不同之处在于，它返回单个补偿而不是多个推卸责任。但是，Itera ..

发布时间：2022-09-02 14:55:03 python dataframe missing-data sklearn-pandas Python

如何用每组中出现频率最高的值填充DataFrame中缺失的值？

我有一个包含两列的 pandas DataFrame：toy和color。color列包含缺少的值。如何用该特定toy最频繁的color值填充缺失的color值？以下是创建示例数据集的代码： import pandas as pd import numpy as np df = pd.DataFrame({ 'toy':['car'] * 4 + ['train'] ..

发布时间：2022-09-02 14:41:20 python pandas dataframe missing-data Python

仅当值存在时，才将列中的值替换为VLOOKUP另一个数据帧

我想根据(df2.Name1, df2.Name2)中的映射表覆盖我的df1.Name值。但是，并非df1.Name中的所有值都存在于df2.Name1 中 df1： Name Alex Maria Marias Pandas Coala df2： Name1 Name2 Alex Alexs Marias Maria Coala Coalas 预期结果： ..

发布时间：2022-08-29 09:44:47 python pandas dictionary dataframe matching Python

SkLearning PCA：正确的PC维度

我有一个数据帧df，它包含一个名为‘Event’的列，其中有一个24x24x40数值数组。我想：提取此数字数组；将其展平为1x23040向量；将此条目作为列添加到新的Numpy数组或数据帧中；对结果矩阵执行PCA。但是，PCA生成的特征向量的维度为“条目数”，而不是“数据中的维度数”。为了说明我的问题，我演示了一个运行良好的最小示例：示例1 fro ..

发布时间：2022-08-28 21:51:16 pandas dataframe scikit-learn pca Python

如何在有基本事实的情况下，仅为数据帧找到正确的正值？

首先，对于冗长的描述，我深表歉意，但我希望每个人都能理解我所做的事情。我正在研究一个检测模型，它可以预测14种不同的病理，并且我已经制作了一个对任何新的测试图像进行预测的推理文件。我和具有25k以上测试图像的数据集已经找到了他们的预测，并制作了一个这样的文件Dataframe。在此数据框中，我有(了解我的情况的信息很少)： image_name______00000003_ ..

发布时间：2022-08-27 19:51:49 python pandas dataframe model prediction Python

pandas ：检测一个DF和另一个DF之间缺失的列

我有以下代码 import pandas as pd expected_df = pd.DataFrame({'One': [20], 'Two': [30], 'Three': [90]}) df = pd.DataFrame({'One': [20], 'Two': [30]}) assert expected_df.equals(df), 'Test Failed: df is ..

发布时间：2022-08-26 12:09:15 python pandas dataframe assert Python

相似性分数用于过滤 pandas 中的数据帧列

我有一个 pandas 数据帧df，其列名如下 columns = ['Baillie Gifford Positive Change Fund B Accumulation', 'Stewart Investors Worldwide Select Fund Class B (accumulation) Gbp', 'Stewart Investors Worldwide Select ..

发布时间：2022-08-18 16:05:31 pandas dataframe nlp data-cleaning rex Python

从下载的html文件中提取的Dataframe包含以空格分隔的浮点；如何清理？

这是this question的续篇，在this question中，我从CDS下载了一个文件，并使用rvest使用以下脚本解压： library(rvest) download.file("https://cdsarc.cds.unistra.fr/viz-bin/nph-Cat/html?J/MNRAS/495/1706/subaru.dat.gz", "subaru.dat.gz") ..

发布时间：2022-08-18 15:39:18 python r dataframe data-cleaning rvest Python

我有一个包含x行和y列数的大型数据集。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式，因此我发现很难从数据帧中删除它。 nonhashtag ['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates'] ['Just', 'posted', 'photo', 'Rasim', 'Villa'] ['Dhab ..

发布时间：2022-08-18 14:58:30 python regex pandas dataframe data-cleaning Python

如何检查 pandas 数据框是否只包含数字列？

我想检查数据帧中的每一列是否只包含数字。我怎样才能找到它。推荐答案您可以使用to_numeric和强制错误进行检查： pd.to_numeric(df['column'], errors='coerce').notnull().all() 对于所有列，您可以遍历列或仅使用apply df.apply(lambda s: pd.to_numeric(s, errors ..

发布时间：2022-08-15 18:08:06 python pandas dataframe series Python

一列的组合之间的公共列

我有来自分析的数据集。为了解释结果，我正在尝试构建数据帧结果应如下：基因名称|Motif_id_1|Motif_id_2|发生|匹配序列此处某些Motif_id可能共享gene_name，且结果应该是Motif_id的两个组合(允许重叠)。我尝试了以下代码，但结果未给出Motif_id内的组合。 merge_practice ..

发布时间：2022-08-13 18:08:56 r dataframe dplyr data-analysis reshape 其他开发

pandas ：如何删除以NaN为列名的多个列？

根据标题，下面是一个可重复使用的示例： raw_data = {'x': ['this', 'that', 'this', 'that', 'this'], np.nan: [np.nan, np.nan, np.nan, np.nan, np.nan], 'y': [np.nan, np.nan, np.nan, np.nan, np.n ..

发布时间：2022-08-13 12:11:19 python pandas dataframe nan Python

根据条件掩码 pandas 数据帧中的值

我需要替换数据帧中低于NAS的特定值的值。例如，假设我需要将所有大于100的值替换为NaN df = pd.DataFrame({'a':[1,250,480], 'b':[60,51,101], 'c':[15,689,1]}) 将变为： ({'a':[1,NaN,NaN], 'b':[60,51,NaN], ..

发布时间：2022-08-13 12:03:30 python pandas dataframe nan Python

如何设置日期时间的格式，以便Google Sheets将该值识别为日期时间

我目前正在使用Gspare将数据从Google工作表检索到Pandas DataFrame。为了做到这一点，我只需在https://gspread.readthedocs.io/en/latest/user-guide.html#using-gspread-with-pandas 中遵循他们的示例 df = pd.DataFrame(sheet.get_all_records()) df[" ..

发布时间：2022-08-12 12:07:23 python dataframe google-sheets-api gspread Python

R将系统命令的标准输出中的数据读入数据帧

我用调用系统命令 driveFileList ..

发布时间：2022-08-10 20:48:36 r csv dataframe system stdout 其他开发

在 pandas 数据框中高效地对多列应用多个条件

我有一个包含数十列的DataFrame。 Therapy area Procedures1 Procedures2 Procedures3 Oncology 450 450 2345 Oncology 367 367 415 Oncology 152 152 ..

发布时间：2022-08-08 17:02:04 python pandas dataframe apply Python

使用PYTHON的透视表

我有包含列的数据集 Country 2001 2002 2003 ... import python as pd df=pd.DataFrame({"country":['India','UK','France','US','Nepal'],'2001':[1,2,3,4,5], '2002':[1,2,3,4,5],'2003':[1 ..

发布时间：2022-08-04 23:14:50 python pandas dataframe pivot-table Python

大数据如何计算R中的距离集？

问题：我们需要一种大数据方法来计算点之间的距离。我们在下面用五个观测数据框概述我们想要做的事情。但是，由于行数变大(>；100万)，这种特定的方法是不可行的。在过去，我们使用SAS来进行这种分析，但如果可能的话，我们更倾向于使用R。(注意：我不打算显示代码，因为虽然我在下面概述了一种在较小的数据集上执行此操作的方法，但这基本上不可能用于我们规模的数据。) 我们从商店的数据帧开始，每个商店 ..

发布时间：2022-08-04 14:26:14 r dataframe matrix bigdata coordinates 其他开发

如果多个列具有负值，则添加新列

如果条件为，我正尝试在我的数据框df1中添加一个新列仅选择特定列(Count1：Count3列)具有负值，则Result=&Quot；Negative&Quot；如果任何一列(Count1、Count2、Count3)具有正值，则结果=正值输入 df1 ..

发布时间：2022-08-03 21:31:35 r dataframe tidyverse 其他开发

dataframe相关内容