pandas相关内容

带有matplotlib散布的条件颜色

我有以下Pandas Dataframe,其中列a表示一个伪变量: 我想要做的是在b列的值之后为我的标记添加cmap='jet'颜色,但当a列的值等于1时除外-在本例中,我希望它是灰色。 你知道我该怎么做吗? 推荐答案 您必须将等于1的值标记为1并绘制: import matplotlib.pyplot as plt import numpy as np # tes ..
发布时间:2022-05-24 18:41:54 Python

执行操作时忽略字符串列

我使用以下代码来标准化 pandas DataFrame: df_norm = (df - df.mean()) / (df.max() - df.min()) 当所有列都是数字时,这很好用。但是,现在我在df中有一些字符串列,上面的标准化出现了错误。有没有办法只对数据框的数字列执行这种标准化(保持字符串列不变)? 推荐答案 可以使用select_dtypes计算所需列的值: ..
发布时间:2022-05-18 15:20:34 Python

按总和归一化 pandas DataFrame行

将 pandas DataFrame的每一行标准化的最常用的方法是什么?将列正常化很容易,所以一个(非常难看!)选项为: (df.T / df.T.sum()).T pandas 广播规则禁止df / df.sum(axis=1)这样做 推荐答案 要解决直播问题,可以使用div方法: df.div(df.sum(axis=1), axis=0) 参见pandas U ..
发布时间:2022-05-18 15:02:23 Python

如何在单元测试中使用PANAS数据框

我正在开发一组Python脚本,用于对数据集进行预处理,然后使用SCRKIT-LEARN生成一系列机器学习模型。我想开发一套单元测试来检查数据的预处理功能,并希望能够使用一个小型的 pandas 数据帧来确定答案,并在Assert语句中使用它。 我似乎无法让它加载数据帧并使用Self将其传递给单元测试。我的代码如下所示; def setUp(self): TEST_INPUT_ ..
发布时间:2022-05-17 18:29:22 Python

向现有数据帧添加空间输出时,列不对齐

我有一个CSV,其中包含一列文章标题,我使用Spacy从其中提取出现在标题中的任何人名。尝试使用Spacy提取的名称向CSV添加新列时,它们与从中提取它们的行不对齐。 我相信这是因为Spacy结果有自己的索引,独立于原始数据的索引。 我已尝试将, index=df.index)添加到新列行,但得到";ValueError:传递的值的长度为2,索引暗示为10。&q; 如何将 ..
发布时间:2022-05-15 22:18:08 Python

Str.startswith使用Regex

我可以理解为什么str.startswith()不处理正则表达式: col1 0 country 1 Country i.e : df.col1.str.startswith('(C|c)ountry') 它返回所有值FALSE: col1 0 False 1 False 推荐答案 Series.str.startswith不接受正则表达式,因为它的 ..
发布时间:2022-05-12 10:19:44 Python

将多列的数据帧转换为序列

我尝试将数据框转换为序列,但显示以下错误。我使用Pandas.Series(Dataframe)->将Dataframe转换为Series 我想要第一张图像格式的输出 推荐答案 请尝试以下方法从提到的数据中获取系列对象(假设data是您正在使用的DataFrame) series = pd.Series(data['Sales'], index=data.index) ..
发布时间:2022-05-12 10:10:28 Python

用索引法求 pandas 中两个级数的交集

我有两个不同长度的序列,我试图根据索引找到这两个序列的交集,其中索引是一个字符串。希望最终结果是一个包含基于公共字符串索引的交叉点元素的系列。 有什么想法吗? 推荐答案 pandas 索引有一个可以使用的intersection method。如果您有两个系列s1和s2,则 s1.index.intersection(s2.index) 或,相当于: s1.ind ..
发布时间:2022-05-12 10:06:38 Python

类型错误:不可散列的类型:Pandas DataFrame列

这可能很简单,但我找不到解释,这经常发生在我身上。 我正在尝试从列Rate1E中选择超过3.5的值,并查看Pandas DataFrameenergy中符合上述条件的选定行的其余行。我之前有人给了我一个答案,现在简单地改成了如下文字: energy = energy.loc[energy[:, 'Rate1E'] >= 3.5] print(energy.loc[:, 'Rate1E']) ..
发布时间:2022-05-12 09:56:00 Python

拼图文件日期时间值不匹配

在使用PANDA读取拼图文件时,日期时间字段中的值发生了变化。例如,读取拼图文件时,字段的输出是2021-02-07 10:43:20.067,但实际值应该是2021-02-07 6:43:20。对于较少的记录,同样的方法日期时间列将看到+4和+5小时。所有日期分钟和秒都相同,但只有小时字段正在更改。 我正在使用的以下代码 df=pd.read_parquet('filename.pa ..
发布时间:2022-05-11 23:38:06 Python

有没有办法在行而不是列中处理pandas.DataFrame的数据类型?

parquet、feather和hdf5等大数据文件格式能够与面向列的表配合使用,以加快读取列的速度。 在我的用例中,我希望从netcdf4文件切换到feather文件格式,因为我读取某些列的速度比使用netcdf4快10倍。但不幸的是,我正在丢失增加文件大小的dtype规范。 所以我的想法是定义行的数据类型,但 pandas 只接受列数据类型。 有没有一种方法可以更像以列为导向的表 ..
发布时间:2022-05-11 23:00:03 Python