pandas相关内容
几天来,我一直在尝试解决sheet_name=None的问题,但我尝试的所有东西都不起作用。我需要读取一个EXCEL文档,并对文档中的每个工作表运行此操作,并保留工作表的名称(我不知道工作表名称)。我试过这样的东西 dfs = pd.read_excel('products2.xlsx', sheet_name=None, index_col=[0]) for name, df in dfs
..
我有一个数据帧,其中有一列字符串ID列表。(见下文)。 我想在所有行之间的所有成对距离之间创建距离矩阵 (例如,如果是10行,则它是10x10矩阵)。 这些行是ID列表,所以我不确定如何使用像pdist这样的东西。 这些值是字符串ID。就像字符串名称 ids 0 [58545-19, 462423-43, 277581-25] 1 [0] 2 [454950-82, 43
..
我有一个这样的 pandas 数据框。其中索引为pd.DatetimeIndex,列为时间序列。 x_1 x_2 x_3 2020-08-17 133.23 2457.45 -4676 2020-08-18 -982 -6354.56 -245.657 2020-08-19 5678.642 245.2786 2461.785 2020-08-20 -2394 154.34 -735
..
我正在尝试计算两个位置之间的距离,我已经得到了这两个目的地的经度和纬度。在我的CSV中,我有4列(LAT1、LON1、LAT2、LON2),我如何应用下面的代码,以便用下面的代码计算出的距离创建名为‘Distance’的第5列? import math from math import sin, cos, sqrt, atan2, radians # approximate radius
..
我有一个包含两列的Pandas DataFrame,&id";(唯一标识符)和";Date&Quot;,如下所示: test_df.head() id date 0 N1 2020-01-31 1 N2 2020-02-28 2 N3 2020-03-10 我已经创建了一个自定义的Python函数,该函数在给定两个日期字符串的情况下,将计算这
..
我正在计算多组经纬度坐标之间的距离。简而言之,我找到了很多使用数学或地理的教程。当我只想找出一组坐标(或两个唯一位置)之间的距离时,这些教程非常有用。然而,我的目标是扫描一个包含400k个起点和目的地坐标组合的数据集。下面列出了我所使用的代码的一个例子,但是当我的数组大于1个记录时,我似乎收到了错误。任何有用的建议都将不胜感激。谢谢。 # starting dataframe is df
..
以下数据框包含一年中每小时的值(千瓦时)。 cons2016.head() Date Hour kWh Month Weekday 0 2016-01-01 00:00 71.48 January Friday 1 2016-01-01 01:00 65.32 January Friday 2 2016-01-01
..
我正在处理一个非常大的文件,需要为每列消除不同的离群值。 我已经能够找到离群值并用NaN替换它们,然而,它正在将整个行变成NaN。我肯定我错过了一些简单的东西,但我似乎找不到了。 import pandas as pd import numpy as np pd.set_option('display.max_rows', 100000) pd.set_option('displ
..
请帮帮我。 我有一个类似 的数据框 | | ID | Result | measurement_1 | measurement_2 | measurement_3 | measurement_4 | measurement_5 | start_time | end-time | |----+
..
我有一个分类列&WALLSMATERIAL_MODE&QOOT;其中包含NAN,我希望通过以下组[‘NAME_RECOVICATION_TYPE’,‘AGE_GROUP’]将其归因于NAN: NAME_EDUCATION_TYPE AGE_GROUP WALLSMATERIAL_MODE 20 Secondary / secondary special
..
我尝试了几种方法来清除DataFrame中特定Series中包含NaN的行,结果发现每个NaN条目都是'NaN'字符串,而不是空值。 在我的特定示例中,每一行代表一个国家/地区,因此我要从DataFrame中删除'GDP per Capita'列中没有GDP值的所有国家/地区。 我尝试了一些方法(失败): df_noGDP = df df_noGDP.dropna(axis=0,
..
我有一个包含许多空记录的数据框: Col_1 Col_2 Col_3 10 5 2 22 7 7 3 9 5 4 NaN NaN 5 NaN NaN 6 4 NaN 7
..
在对两个PANAT列求和时,当两列中的一列是浮点型时,我希望忽略NaN值。但是,当NaN出现在两列中时,我希望在输出中保留NaN(而不是0.0)。 初始数据帧: Surf1 Surf2 0 0 NaN 8 8 15 NaN NaN 16 14 15 7 所需输出: Surf1
..
在我的数据帧中,我想用NaN替换小于1和大于5的每个值。 此代码正常工作 persDf = persDf.mask(persDf 5)) 我不知道为什么会这样。我查看了手册页和明显相似问题的不同解决方案,但找不到解决方案。
..
不知道如何根据另一个特定列的值从特定列中删除NaN值。 部分数据帧(df): vol. group 1186 10,448,898 1 1187 nan 0 1188 35,047,520 1 ... 8329 1
..
我正在处理时间序列数据。我在从数据帧列中删除小于或等于阈值的连续NAN时遇到问题。我试着查看了一些链接,如: Identifying consecutive NaN's with pandas:标识连续NAN的位置和计数。 Pandas: run length of NaN holes:输出NAN的游程编码 这条车道上还有更多其他的,但实际上没有一个告诉我们识别后如何删除它们。
..
我正在尝试使用 pandas 的Dropna功能。我想将其用于特定的列。 只有在所有行都具有所有NaN值时,我才能弄清楚如何使用它删除NaN。 我有一个数据帧(见下文),我希望在第一次出现NAN之后删除特定列“A”列中的所有行 当前代码,仅当所有行值都为NaN时才起作用。 data.dropna(axis = 0, how = 'all') data 原始数据帧
..
我有一个很大的数据集,它是一个巨大的表,实际上应该是许多表。标题隐藏在子集的行中。 我的目标是将这些标题拉出到一个新列中,这样我就可以根据该列进行筛选以获得我想要的数据(一次一个标题)。我为此创建了一个空标题列。在SCORE列中总是有一系列3个NaN值,其中NAME列中的第一个值是HEADER我想要的。因此,我认为这种关系的某些方面可以被利用。 当前 pandas 数据框的结构为:
..
我有一个DataFrame: 名称 年龄 0 保罗 25 1 约翰 27 2 账单 23 我知道如果我输入: df[['name']] = df[['age']] 我会得到以下信息: 名称 年龄 0 25 25 1 27 27 2 23 23 但我希望命令得到相同的结果: df.loc[:, ['name']] = df.loc[:, ['age
..
我正在读入一堆CSV文件(一段时间内水位的测量数据),以便对它们进行各种分析和可视化。 由于各种我无法控制的原因,这些时间序列经常有缺失数据,所以我做了两件事: 我用 合计 Rlength = len(RainD) # Counts everything, including NaN Rcount = RainD.count() # Counts only valid numb
..