pandas相关内容
我想删除数据框中所有列中的所有双引号和所有值.因此,如果我有一个值,例如 potatoes are "great" 我想回来 potatoes are great 如果我知道要更改的整个值,DataFrame.replace()允许我执行此操作,但是有没有办法删除单个字符? 解决方案 您可以使用In [11]: s = pd.Series(['potatoes are
..
我正在尝试为pandas.DataFrame的两列绘制轮廓图.我不希望这直接在熊猫中出现,但在matplotlib中似乎也没有.我到处搜索,找不到除rootpy以外的任何程序包.在花时间自己写这篇文章之前,我想我想问一下是否有一个包含轮廓直方图的小程序包,也许在另外一个地方用另外的名字知道. 如果您不了解“配置文件直方图"的含义,请查看ROOT实现. http://root.cern.ch/
..
我在x列中有一个具有不同值的数据框.我想删除仅在列中出现一次的值. 所以这个: x 1 10 2 30 3 30 4 40 5 40 6 50 应该变成这样: x 2 30 3 30 4 40 5 40 我想知道是否有办法做到这一点. 解决方案 您可以使用 groupby 和 transform : In [1]: import pandas a
..
给出如下数据框: import numpy as np import pandas as pd df = pd.DataFrame( {'Date' : pd.date_range('1/1/2011', periods=5, freq='3675S'), 'Num' : np.random.rand(5)}) Date Num 0 2011
..
我一直在寻找加快将数据帧推送到sql服务器的方法,偶然发现了一种方法在此.从速度上让我震惊.使用普通的to_sql花了将近2个小时,此脚本在12.54秒内完成,以推动100k行X 100列df. 因此,在使用示例df测试了以下代码之后,我尝试使用具有许多不同数据类型(int,string,floats,Booleans)的df.不过,我很伤心看到一个内存错误.因此,我开始缩小df的大小,以查
..
我正在尝试导出带有前导零的列的数据框,如下所示: df["CD_LIN_NEG"] 0 001 1 001 2 004 3 001 4 001 5 001 6 003 7 006 Name: CD_LIN_NEG, dtype: object 但是当我导出到csv时,当我在Excel中打开文件时,所有前导零都会被截断.如何
..
使用熊猫0.15.1.假设我有以下两个数据框: daily 2014-11-20 00:00:00 Rain 2014-11-21 00:00:00 Cloudy 2014-11-22 00:00:00 Sunny . minutely 2014-11-20 12:45:00 51 2014-11-20 12:46:00 43 2014-11-20 12:47:00
..
我正在处理不定期记录的财务数据.一些时间戳是重复的,这使分析变得棘手.这是数据的示例-请注意有四个2016-08-23 00:00:17.664193时间戳: In [167]: ts Out[168]: last last_sz bid ask datetime
..
我了解pandas数据框类型可以测试其值的逻辑. 这是代码: import pandas as pd data = pd.DataFrame(columns=['a', 'b', 'c']) data = data.append({'a': 'I have data', 'b': 'no more complexe', 'c': 024204}, ignore_index=True)
..
我在Python中有一个带有名称列的DataFrame(例如Joseph Haydn,Wolfgang Amadeus Mozart,Antonio Salieri等). 我想要一个带有姓氏的新专栏:海顿(Haydn),莫扎特(Mozart),萨列里(Salieri)等. 我知道如何分割字符串,但是我找不到将其应用于系列或“数据框"列的方法. 解决方案 如果有: impo
..
我有一个pandas数据帧,其列为uniqueid.我想根据此列从数据框中删除所有重复项,以便所有其余观察结果都是唯一的. 解决方案 对于任何数据框(df.drop_duplicates(subset='uniqueid', inplace=True)
..
当您将数据查询到pandas数据框中时,是否可以保留SqlAlchemy属性名称? 这是我的数据库的简单映射.对于学校表,我将数据库名称"SchoolDistrict"重命名为较短的"district".我已从DBA中删除了几层,因此在源代码中更改它们是不可行的. class School(Base): __tablename__ = 'DimSchool' id =
..
我有一个Pandas数据框,格式如下: Frequency | Value 1 10 2.8 2 20 2.5 3 30 2.2 4 40 2.3 我想使用pandas.DataFrame.interpolate来添加频率为35的线,并在频率30和40之间线性插值. 该示例在用户手册中显
..
这是我的熊猫数据框: Item Support_Count 0 BREAD 4 1 MILK 4 2 DIAPER 4 3 BEER 3 我将如何从第一列“项目"中生成2和3组项目的所有可能的唯一组合. 示
..
我有一个熊猫数据框"df",其示例如下: time x 0 1 1 1 2 Nan 2 3 3 3 4 Nan 4 5 8 5 6 7 6 7 5 7 8 Nan 实际框架要大得多.我试图找到"x"系列中最长的非NaN值,并打印出该帧的开始和结束索引.这可能吗? 谢谢 解决方案 这是N
..
我想知道如何在所有不同的时间级别过滤不同的日期,即按年,月,日,时,分和/或日查找日期.例如,如何查找2014年或2014年1月或仅2014年1月2日或...直到第二天的所有日期? 所以我有从 pd.to_datetime 生成的日期和时间数据帧 df timeStamp 0 2014-01-02 21:03:04 1 2014-02-02 21:03:05 2 20
..
在任何处理统计和时间序列分析(pandas和statsmodel)的Python模块中,我找不到任何有关功能的参考信息来执行Johansen协整测试.是否有位bpdy知道周围是否有一些代码可以对时间序列之间的协整性进行这种测试? 感谢您的帮助, Maruizio 解决方案 statsmodels没有Johansen协整测试.而且,我也从未在任何其他python包中看到过它. s
..
我查看了 和问题很简单,但很难说出来. 我有一个像矩阵这样的数据框: Stock1 Stock2 Date1 3 4 Date2 1 4 对于每个日期(这是我的索引),我想将这些值与系列中的单个点进行比较. 成为“系列": Value Date1 2 Date2 3 我想通过DataFrame>系列之类的
..
我的数据框包含以下几列: Name, Surname, dateOfBirth, city, country 我有兴趣找到最常见的姓名和姓氏组合以及它出现的次数. 还要查看排名前10位的组合也很高兴. 我对第一名的想法是: mostFreqComb= df.groupby(['Name','Surname'])['Name'].count().argmax() 但是我认为
..
我正在尝试读取1.2G的CSV文件,其中包含25K记录,每个记录都包含一个ID和一个大字符串. 但是,大约1万行时,出现此错误: pandas.io.common.CParserError:标记数据时出错. C错误:内存不足 这似乎很奇怪,因为VM具有140GB RAM,并且在1万行的情况下,内存使用率仅为〜1%. 这是我使用的命令: pd.read_csv('fil
..