pandas相关内容

尝试为SHEET_NAME=NONE的文档中的每个工作表运行PYTHON PANAS脚本,但不起作用

几天来,我一直在尝试解决sheet_name=None的问题,但我尝试的所有东西都不起作用。我需要读取一个EXCEL文档,并对文档中的每个工作表运行此操作,并保留工作表的名称(我不知道工作表名称)。我试过这样的东西 dfs = pd.read_excel('products2.xlsx', sheet_name=None, index_col=[0]) for name, df in dfs ..
发布时间:2022-04-15 16:45:25 Python

数据帧列中字符串行的列表之间的成对距离

我有一个数据帧,其中有一列字符串ID列表。(见下文)。 我想在所有行之间的所有成对距离之间创建距离矩阵 (例如,如果是10行,则它是10x10矩阵)。 这些行是ID列表,所以我不确定如何使用像pdist这样的东西。 这些值是字符串ID。就像字符串名称 ids 0 [58545-19, 462423-43, 277581-25] 1 [0] 2 [454950-82, 43 ..
发布时间:2022-04-15 13:35:47 Python

PANDA:基于多列对数据表的行运行计算,并将输出存储在新列中

我正在尝试计算两个位置之间的距离,我已经得到了这两个目的地的经度和纬度。在我的CSV中,我有4列(LAT1、LON1、LAT2、LON2),我如何应用下面的代码,以便用下面的代码计算出的距离创建名为‘Distance’的第5列? import math from math import sin, cos, sqrt, atan2, radians # approximate radius ..
发布时间:2022-04-15 13:21:46 Python

在Python语言中计算*多*组地理坐标之间的距离

我正在计算多组经纬度坐标之间的距离。简而言之,我找到了很多使用数学或地理的教程。当我只想找出一组坐标(或两个唯一位置)之间的距离时,这些教程非常有用。然而,我的目标是扫描一个包含400k个起点和目的地坐标组合的数据集。下面列出了我所使用的代码的一个例子,但是当我的数组大于1个记录时,我似乎收到了错误。任何有用的建议都将不胜感激。谢谢。 # starting dataframe is df ..
发布时间:2022-04-15 12:58:43 Python

如何在用PANAS替换离群值的同时用PANAS保持行的完整?

我正在处理一个非常大的文件,需要为每列消除不同的离群值。 我已经能够找到离群值并用NaN替换它们,然而,它正在将整个行变成NaN。我肯定我错过了一些简单的东西,但我似乎找不到了。 import pandas as pd import numpy as np pd.set_option('display.max_rows', 100000) pd.set_option('displ ..
发布时间:2022-04-14 17:38:46 Python

如何将 pandas 序列中的字符串转换为Dropna的空值?

我尝试了几种方法来清除DataFrame中特定Series中包含NaN的行,结果发现每个NaN条目都是'NaN'字符串,而不是空值。 在我的特定示例中,每一行代表一个国家/地区,因此我要从DataFrame中删除'GDP per Capita'列中没有GDP值的所有国家/地区。 我尝试了一些方法(失败): df_noGDP = df df_noGDP.dropna(axis=0, ..
发布时间:2022-04-14 17:29:58 Python

pandas 两列之和-正确处理NaN值

在对两个PANAT列求和时,当两列中的一列是浮点型时,我希望忽略NaN值。但是,当NaN出现在两列中时,我希望在输出中保留NaN(而不是0.0)。 初始数据帧: Surf1 Surf2 0 0 NaN 8 8 15 NaN NaN 16 14 15 7 所需输出: Surf1 ..
发布时间:2022-04-14 17:24:51 Python

pandas 口罩在多种情况下

在我的数据帧中,我想用NaN替换小于1和大于5的每个值。 此代码正常工作 persDf = persDf.mask(persDf 5)) 我不知道为什么会这样。我查看了手册页和明显相似问题的不同解决方案,但找不到解决方案。 ..
发布时间:2022-04-14 17:22:32 Python

从Pandas DataFrame中删除少于K个连续NAN

我正在处理时间序列数据。我在从数据帧列中删除小于或等于阈值的连续NAN时遇到问题。我试着查看了一些链接,如: Identifying consecutive NaN's with pandas:标识连续NAN的位置和计数。 Pandas: run length of NaN holes:输出NAN的游程编码 这条车道上还有更多其他的,但实际上没有一个告诉我们识别后如何删除它们。 ..
发布时间:2022-04-14 17:15:46 Python

删除特定列中第一次出现NaN后的所有行( pandas )

我正在尝试使用 pandas 的Dropna功能。我想将其用于特定的列。 只有在所有行都具有所有NaN值时,我才能弄清楚如何使用它删除NaN。 我有一个数据帧(见下文),我希望在第一次出现NAN之后删除特定列“A”列中的所有行 当前代码,仅当所有行值都为NaN时才起作用。 data.dropna(axis = 0, how = 'all') data 原始数据帧 ..
发布时间:2022-04-14 17:10:35 Python

pandas 根据不是常量的第三列的值将值从一列复制到另一列

我有一个很大的数据集,它是一个巨大的表,实际上应该是许多表。标题隐藏在子集的行中。 我的目标是将这些标题拉出到一个新列中,这样我就可以根据该列进行筛选以获得我想要的数据(一次一个标题)。我为此创建了一个空标题列。在SCORE列中总是有一系列3个NaN值,其中NAME列中的第一个值是HEADER我想要的。因此,我认为这种关系的某些方面可以被利用。 当前 pandas 数据框的结构为: ..
发布时间:2022-04-14 17:01:09 Python

识别具有 pandas 的连续NAN

我正在读入一堆CSV文件(一段时间内水位的测量数据),以便对它们进行各种分析和可视化。 由于各种我无法控制的原因,这些时间序列经常有缺失数据,所以我做了两件事: 我用 合计 Rlength = len(RainD) # Counts everything, including NaN Rcount = RainD.count() # Counts only valid numb ..
发布时间:2022-04-14 16:54:30 Python