pandas相关内容

删除熊猫值中的所有引号

我想删除数据框中所有列中的所有双引号和所有值.因此,如果我有一个值,例如 potatoes are "great" 我想回来 potatoes are great 如果我知道要更改的整个值,DataFrame.replace()允许我执行此操作,但是有没有办法删除单个字符? 解决方案 您可以使用In [11]: s = pd.Series(['potatoes are ..
发布时间:2020-05-24 02:00:10 Python

在python中绘制轮廓Hitstograms

我正在尝试为pandas.DataFrame的两列绘制轮廓图.我不希望这直接在熊猫中出现,但在matplotlib中似乎也没有.我到处搜索,找不到除rootpy以外的任何程序包.在花时间自己写这篇文章之前,我想我想问一下是否有一个包含轮廓直方图的小程序包,也许在另外一个地方用另外的名字知道. 如果您不了解“配置文件直方图"的含义,请查看ROOT实现. http://root.cern.ch/ ..
发布时间:2020-05-24 02:00:06 Python

删除在DataFrame列中仅出现一次的值

我在x列中有一个具有不同值的数据框.我想删除仅在列中出现一次的值. 所以这个: x 1 10 2 30 3 30 4 40 5 40 6 50 应该变成这样: x 2 30 3 30 4 40 5 40 我想知道是否有办法做到这一点. 解决方案 您可以使用 groupby 和 transform : In [1]: import pandas a ..
发布时间:2020-05-24 02:00:04 Python

为什么在小型df上的fast_executemany会出现内存错误?

我一直在寻找加快将数据帧推送到sql服务器的方法,偶然发现了一种方法在此.从速度上让我震惊.使用普通的to_sql花了将近2个小时,此脚本在12.54秒内完成,以推动100k行X 100列df. 因此,在使用示例df测试了以下代码之后,我尝试使用具有许多不同数据类型(int,string,floats,Booleans)的df.不过,我很伤心看到一个内存错误.因此,我开始缩小df的大小,以查 ..
发布时间:2020-05-24 01:59:59 数据库

导出为CSV时,如何在列中保持前导零?

我正在尝试导出带有前导零的列的数据框,如下所示: df["CD_LIN_NEG"] 0 001 1 001 2 004 3 001 4 001 5 001 6 003 7 006 Name: CD_LIN_NEG, dtype: object 但是当我导出到csv时,当我在Excel中打开文件时,所有前导零都会被截断.如何 ..
发布时间:2020-05-24 01:59:57 Python

修改熊猫中的时间戳以使索引唯一

我正在处理不定期记录的财务数据.一些时间戳是重复的,这使分析变得棘手.这是数据的示例-请注意有四个2016-08-23 00:00:17.664193时间戳: In [167]: ts Out[168]: last last_sz bid ask datetime ..
发布时间:2020-05-24 01:59:53 Python

Python清单中的Pandas布尔运算

我了解pandas数据框类型可以测试其值的逻辑. 这是代码: import pandas as pd data = pd.DataFrame(columns=['a', 'b', 'c']) data = data.append({'a': 'I have data', 'b': 'no more complexe', 'c': 024204}, ignore_index=True) ..
发布时间:2020-05-24 01:59:48 Python

在Python DataFrame中拆分字符串

我在Python中有一个带有名称列的DataFrame(例如Joseph Haydn,Wolfgang Amadeus Mozart,Antonio Salieri等). 我想要一个带有姓氏的新专栏:海顿(Haydn),莫扎特(Mozart),萨列里(Salieri)等. 我知道如何分割字符串,但是我找不到将其应用于系列或“数据框"列的方法. 解决方案 如果有: impo ..
发布时间:2020-05-24 01:59:46 Python

在熊猫数据框中选择唯一的观测值

我有一个pandas数据帧,其列为uniqueid.我想根据此列从数据框中删除所有重复项,以便所有其余观察结果都是唯一的. 解决方案 对于任何数据框(df.drop_duplicates(subset='uniqueid', inplace=True) ..
发布时间:2020-05-24 01:59:39 Python

使用SQLAlchemy查询到Pandas DataFrame中时重命名列

当您将数据查询到pandas数据框中时,是否可以保留SqlAlchemy属性名称? 这是我的数据库的简单映射.对于学校表,我将数据库名称"SchoolDistrict"重命名为较短的"district".我已从DBA中删除了几层,因此在源代码中更改它们是不可行的. class School(Base): __tablename__ = 'DimSchool' id = ..
发布时间:2020-05-24 01:59:37 Python

筛选并比较日期与熊猫

我想知道如何在所有不同的时间级别过滤不同的日期,即按年,月,日,时,分和/或日查找日期.例如,如何查找2014年或2014年1月或仅2014年1月2日或...直到第二天的所有日期? 所以我有从 pd.to_datetime 生成的日期和时间数据帧 df timeStamp 0 2014-01-02 21:03:04 1 2014-02-02 21:03:05 2 20 ..
发布时间:2020-05-24 01:59:28 Python

python中的Johansen协整测试

在任何处理统计和时间序列分析(pandas和statsmodel)的Python模块中,我找不到任何有关功能的参考信息来执行Johansen协整测试.是否有位bpdy知道周围是否有一些代码可以对时间序列之间的协整性进行这种测试? 感谢您的帮助, Maruizio 解决方案 statsmodels没有Johansen协整测试.而且,我也从未在任何其他python包中看到过它. s ..
发布时间:2020-05-24 01:59:24 Python

将Pandas DataFrame与Series比较

我查看了 和问题很简单,但很难说出来. 我有一个像矩阵这样的数据框: Stock1 Stock2 Date1 3 4 Date2 1 4 对于每个日期(这是我的索引),我想将这些值与系列中的单个点进行比较. 成为“系列": Value Date1 2 Date2 3 我想通过DataFrame>系列之类的 ..
发布时间:2020-05-24 01:59:22 Python

数据框中的一对值出现的次数

我的数据框包含以下几列: Name, Surname, dateOfBirth, city, country 我有兴趣找到最常见的姓名和姓氏组合以及它出现的次数. 还要查看排名前10位的组合也很高兴. 我对第一名的想法是: mostFreqComb= df.groupby(['Name','Surname'])['Name'].count().argmax() 但是我认为 ..
发布时间:2020-05-24 01:59:20 Python

熊猫的read_csv()1.2GB文件在具有140GB RAM的VM上的内存不足

我正在尝试读取1.2G的CSV文件,其中包含25K记录,每个记录都包含一个ID和一个大字符串. 但是,大约1万行时,出现此错误: pandas.io.common.CParserError:标记数据时出错. C错误:内存不足 这似乎很奇怪,因为VM具有140GB RAM,并且在1万行的情况下,内存使用率仅为〜1%. 这是我使用的命令: pd.read_csv('fil ..
发布时间:2020-05-24 01:59:18 Python