pandas 第498页 - IT屋-程序员软件开发技术分享社区

删除熊猫值中的所有引号

我想删除数据框中所有列中的所有双引号和所有值.因此，如果我有一个值，例如 potatoes are "great" 我想回来 potatoes are great 如果我知道要更改的整个值，DataFrame.replace()允许我执行此操作，但是有没有办法删除单个字符? 解决方案您可以使用In [11]: s = pd.Series(['potatoes are ..

发布时间：2020-05-24 02:00:10 python pandas dataframe Python

我正在尝试为pandas.DataFrame的两列绘制轮廓图.我不希望这直接在熊猫中出现，但在matplotlib中似乎也没有.我到处搜索，找不到除rootpy以外的任何程序包.在花时间自己写这篇文章之前，我想我想问一下是否有一个包含轮廓直方图的小程序包，也许在另外一个地方用另外的名字知道. 如果您不了解“配置文件直方图"的含义，请查看ROOT实现. http://root.cern.ch/ ..

发布时间：2020-05-24 02:00:06 python matplotlib pandas histogram Python

删除在DataFrame列中仅出现一次的值

我在x列中有一个具有不同值的数据框.我想删除仅在列中出现一次的值. 所以这个: x 1 10 2 30 3 30 4 40 5 40 6 50 应该变成这样: x 2 30 3 30 4 40 5 40 我想知道是否有办法做到这一点. 解决方案您可以使用 groupby 和 transform : In [1]: import pandas a ..

发布时间：2020-05-24 02:00:04 python pandas filtering dataframe Python

从Pandas数据框列中删除“秒"和“分钟"

给出如下数据框: import numpy as np import pandas as pd df = pd.DataFrame( {'Date' : pd.date_range('1/1/2011', periods=5, freq='3675S'), 'Num' : np.random.rand(5)}) Date Num 0 2011 ..

发布时间：2020-05-24 02:00:02 python pandas dataframe time-series Python

为什么在小型df上的fast_executemany会出现内存错误?

我一直在寻找加快将数据帧推送到sql服务器的方法，偶然发现了一种方法在此.从速度上让我震惊.使用普通的to_sql花了将近2个小时，此脚本在12.54秒内完成，以推动100k行X 100列df. 因此，在使用示例df测试了以下代码之后，我尝试使用具有许多不同数据类型(int，string，floats，Booleans)的df.不过，我很伤心看到一个内存错误.因此，我开始缩小df的大小，以查 ..

发布时间：2020-05-24 01:59:59 python sql-server pandas sqlalchemy pyodbc 数据库

导出为CSV时，如何在列中保持前导零?

我正在尝试导出带有前导零的列的数据框，如下所示: df["CD_LIN_NEG"] 0 001 1 001 2 004 3 001 4 001 5 001 6 003 7 006 Name: CD_LIN_NEG, dtype: object 但是当我导出到csv时，当我在Excel中打开文件时，所有前导零都会被截断.如何 ..

发布时间：2020-05-24 01:59:57 python excel csv pandas Python

合并/合并熊猫中具有不同频率时间序列索引的两个数据帧?

使用熊猫0.15.1.假设我有以下两个数据框: daily 2014-11-20 00:00:00 Rain 2014-11-21 00:00:00 Cloudy 2014-11-22 00:00:00 Sunny . minutely 2014-11-20 12:45:00 51 2014-11-20 12:46:00 43 2014-11-20 12:47:00 ..

发布时间：2020-05-24 01:59:55 pandas time-series Python

修改熊猫中的时间戳以使索引唯一

我正在处理不定期记录的财务数据.一些时间戳是重复的，这使分析变得棘手.这是数据的示例-请注意有四个2016-08-23 00:00:17.664193时间戳: In [167]: ts Out[168]: last last_sz bid ask datetime ..

发布时间：2020-05-24 01:59:53 python pandas Python

Python清单中的Pandas布尔运算

我了解pandas数据框类型可以测试其值的逻辑. 这是代码: import pandas as pd data = pd.DataFrame(columns=['a', 'b', 'c']) data = data.append({'a': 'I have data', 'b': 'no more complexe', 'c': 024204}, ignore_index=True) ..

发布时间：2020-05-24 01:59:48 python python-2.7 pandas Python

在Python DataFrame中拆分字符串

我在Python中有一个带有名称列的DataFrame(例如Joseph Haydn，Wolfgang Amadeus Mozart，Antonio Salieri等). 我想要一个带有姓氏的新专栏:海顿(Haydn)，莫扎特(Mozart)，萨列里(Salieri)等. 我知道如何分割字符串，但是我找不到将其应用于系列或“数据框"列的方法. 解决方案如果有: impo ..

发布时间：2020-05-24 01:59:46 python string pandas dataframe Python

在熊猫数据框中选择唯一的观测值

我有一个pandas数据帧，其列为uniqueid.我想根据此列从数据框中删除所有重复项，以便所有其余观察结果都是唯一的. 解决方案对于任何数据框(df.drop_duplicates(subset='uniqueid', inplace=True) ..

发布时间：2020-05-24 01:59:39 python pandas Python

使用SQLAlchemy查询到Pandas DataFrame中时重命名列

当您将数据查询到pandas数据框中时，是否可以保留SqlAlchemy属性名称? 这是我的数据库的简单映射.对于学校表，我将数据库名称"SchoolDistrict"重命名为较短的"district".我已从DBA中删除了几层，因此在源代码中更改它们是不可行的. class School(Base): __tablename__ = 'DimSchool' id = ..

发布时间：2020-05-24 01:59:37 python pandas sqlalchemy Python

使用pandas.DataFrame.interpolate将行添加到DataFrame

我有一个Pandas数据框，格式如下: Frequency | Value 1 10 2.8 2 20 2.5 3 30 2.2 4 40 2.3 我想使用pandas.DataFrame.interpolate来添加频率为35的线，并在频率30和40之间线性插值. 该示例在用户手册中显 ..

发布时间：2020-05-24 01:59:35 python pandas Python

熊猫数据框中的值组合

这是我的熊猫数据框: Item Support_Count 0 BREAD 4 1 MILK 4 2 DIAPER 4 3 BEER 3 我将如何从第一列“项目"中生成2和3组项目的所有可能的唯一组合. 示 ..

发布时间：2020-05-24 01:59:33 python python-3.x pandas dataframe Python

熊猫-在没有Nan值的情况下寻找最长的伸展时间

我有一个熊猫数据框"df"，其示例如下: time x 0 1 1 1 2 Nan 2 3 3 3 4 Nan 4 5 8 5 6 7 6 7 5 7 8 Nan 实际框架要大得多.我试图找到"x"系列中最长的非NaN值，并打印出该帧的开始和结束索引.这可能吗? 谢谢解决方案这是N ..

发布时间：2020-05-24 01:59:31 python pandas numpy Python

筛选并比较日期与熊猫

我想知道如何在所有不同的时间级别过滤不同的日期，即按年，月，日，时，分和/或日查找日期.例如，如何查找2014年或2014年1月或仅2014年1月2日或...直到第二天的所有日期? 所以我有从 pd.to_datetime 生成的日期和时间数据帧 df timeStamp 0 2014-01-02 21:03:04 1 2014-02-02 21:03:05 2 20 ..

发布时间：2020-05-24 01:59:28 pandas datetime Python

python中的Johansen协整测试

在任何处理统计和时间序列分析(pandas和statsmodel)的Python模块中，我找不到任何有关功能的参考信息来执行Johansen协整测试.是否有位bpdy知道周围是否有一些代码可以对时间序列之间的协整性进行这种测试? 感谢您的帮助， Maruizio 解决方案 statsmodels没有Johansen协整测试.而且，我也从未在任何其他python包中看到过它. s ..

发布时间：2020-05-24 01:59:24 python statistics pandas statsmodels Python

将Pandas DataFrame与Series比较

我查看了和问题很简单，但很难说出来. 我有一个像矩阵这样的数据框: Stock1 Stock2 Date1 3 4 Date2 1 4 对于每个日期(这是我的索引)，我想将这些值与系列中的单个点进行比较. 成为“系列": Value Date1 2 Date2 3 我想通过DataFrame>系列之类的 ..

发布时间：2020-05-24 01:59:22 python pandas Python

数据框中的一对值出现的次数

我的数据框包含以下几列: Name, Surname, dateOfBirth, city, country 我有兴趣找到最常见的姓名和姓氏组合以及它出现的次数. 还要查看排名前10位的组合也很高兴. 我对第一名的想法是: mostFreqComb= df.groupby(['Name','Surname'])['Name'].count().argmax() 但是我认为 ..

发布时间：2020-05-24 01:59:20 python pandas series Python

熊猫的read_csv()1.2GB文件在具有140GB RAM的VM上的内存不足

我正在尝试读取1.2G的CSV文件，其中包含25K记录，每个记录都包含一个ID和一个大字符串. 但是，大约1万行时，出现此错误: pandas.io.common.CParserError:标记数据时出错. C错误:内存不足这似乎很奇怪，因为VM具有140GB RAM，并且在1万行的情况下，内存使用率仅为〜1％. 这是我使用的命令: pd.read_csv('fil ..

发布时间：2020-05-24 01:59:18 python pandas Python

pandas相关内容