dataframe相关内容
我有一个数据框架,看起来像这样 >头(df) 内存内存内存内存内存天真 10472501 6.075714 5.898929 6.644946 6.023901 6.332126 8.087944 7.520194 10509163 6.168941 6.495393 5.951124 6.052527 6.404401 7.152890 8.335509 10496091 10.
..
在应用 str.findall()后,我提出了方括号中的值(更像是一个列表)到大熊猫数据帧的列。如何删除方括号? print df id value 1 [ 63] 2 [65] 3 [64] 4 [53] 5 [13] 6 [34] 解决方案 如果列值键入列表,使用: df ['value'] = df ['value']。str
..
我想将我的 ts 对象转换为 data.frame 对象。我的MWE如下: 代码 set.seed(12345) dat 库(reshape2) df
..
我想了解如何在我的数据框的特定列上应用功能,而不会从我的df“排除”其他列。例如,我想将一些特定的列乘以1000,并保留其他列。 使用sapply函数,例如: a
..
我有一个名为“mydata”的数据集,我从文本导入了一个数据集文件使用 R 。数据框有大约200行10列。 我通过使用以下方式删除了行号3,7,9,199: mydata
..
我正在按照人口和日期排序这个数据框,所以我使用 order()和 rank()函数: > df df idgeov
..
stringa,stringb stringb,stringc stringd,stringa 我需要转换它,以便id从0连续编号。在此案例如下: 0,1 1,2 3,0 我目前的代码如下: code> import csv names = {} counter = 0 with open('foo.csv','r
..
plyr :: mapvalues 可以这样使用: mapvalues(mtcars $ cyl,c(4,6,8),c(“a”,“b”,“c”)) 但这不行: mtcars%>% dplyr :: select(cyl)%>% mapvalues(c(4,6,8),c(“a”,“b”,“c”))%>% as。 data.frame() 如何使
..
我有以下数据: > dat ID基因值1 Value2 1 NM_013468 Ankrd1 Inf Inf 2 NM_023785 Ppbp Inf Inf 3 NM_178666 Themis NaN Inf 4 NM_001161790 Mefv Inf Inf 5 NM_001161791 Mefv Inf Inf 6 NM_019453 Mefv Inf
..
假设我有一个data.frame x
..
我正在使用RMongoDB,我需要使用查询的值填充一个空的data.frame。结果相当长,大约有2万个文件(行)。 在进行性能测试时,我发现将值写入行的时间会随着数据帧的维数而增加。也许这是一个众所周知的问题,我是最后一个注意的问题。 一些代码示例: set.seed(20140430) nreg
..
分数 时间戳 2013 -06-29 00:52:28 + 00:00 -0.420070 2013-06-29 00:51:53 + 00:00 -0.445720 2013-06-28 16:40:43+ 00:00 0.508161 2013-06-28 15:10:30 + 00:00 0.921474 2013-06-28 15:10:17 + 00:00 0.87
..
我有很多数据帧是作为预处理的一部分而创建的。由于我有限制的6GB RAM,我想从RAM中删除所有不必要的数据帧,以避免在scikit学习中运行GRIDSEARCHCV时内存不足。 1)是否有一个仅列出的功能,当前加载到内存中的所有数据帧? 我尝试过dir(),但它提供了除数据框之外的许多其他对象。 2)我创建了要删除的数据框列表 del_df = [Gender_dumm
..
我有一个DataFrame的记录,看起来像这样: stocks = pd.Series(['A' 'A','B','C','C'],name ='stock') 位置= pd.Series([100,200,300,400,500],name ='positions' ) same1 = pd.Series(['AA','AA','BB','CC','CC'],name ='same1'
..
所以,我对Python和熊猫(和一般的编程)非常新鲜,但是在看似简单的功能方面遇到麻烦。所以我使用SQL查询拉出的数据创建了以下数据框(如果你需要查看SQL查询,让我知道,我会粘贴) spydata = pd.DataFrame(row,columns = ['date','ticker','close','iv1m','iv3m']) tickerlist = unique(spyda
..
我有一个熊猫数据框,有3个级别的MultiIndex。我试图根据与两个级别相对应的值列表来拉出这个数据帧的行。 我有这样的东西: ix = pd.MultiIndex.from_product([[1,2,3],['foo','bar'],['baz' ,'can']],names = ['a','b','c']) data = np.arange(len(ix)) df = p
..
我有一个通过HDFStore存储的Pandas DataFrame,它基本上存储有关我正在做的测试运行的汇总行。 每行中的几个字段包含描述性字符串可变长度。 当我进行测试运行时,我创建一个新的DataFrame,其中包含一行: def export_as_df(self): return pd.DataFrame(data = [self._to_dict()],index
..
所以我的数据框中有一个'日期'列,日期格式如下 0 1998- 08-26 04:00:00 如果我只想要年份月份和日子我该如何下降简单的小时? 解决方案 最快的方法是使用DatetimeIndex的normalize(你首先需要使列为DatetimeIndex): 在[11]中:df = pd.DataFrame({“t”:pd.date_range('
..
我有一个数据框 a
..
我有一些名称元素的列表( testlist ),其中一些名称被复制 $ x [1]“一” $ x [1]“两” $ y [1]“三” $ y [1]“四” 我试图找到一个数据表,它将通用名称的元素组合到同一列中。 xy 1:一个三 2:两个四 我尝试过 testdf
..