dataframe相关内容

Py Pandas .format(数据框)

作为Python新手,我最近发现使用Py 2.7,我可以执行以下操作: print'{:20, 2f}'。格式(123456789) 这将给出结果输出: 123,456,789.00 现在我想看一下熊猫df的结果,所以我的代码如下: 导入熊猫为pd 导入随机 data = [[random.random()* 10000 for ra ..
发布时间:2017-03-26 01:14:03 Python

PyCharm很长时间在iPython控制台中挂上大数据

我已经看到一些PyCharm的报告很慢,但是与正常操作相比,我有一个问题似乎太慢了。 我有一个大集的数据在大熊猫数据帧(从440 MB csv文件中读取)。 当我在PyCharm中使用ipython控制台时,每次尝试处理该数据我们写的是 my_data。它只是挂了约30秒。 我真的不是了解发生了什么,但似乎PyCharm正在通过所有的数据来找到一些智能自动完成(这是一个非常愚蠢的 ..
发布时间:2017-03-26 01:13:51 Python

python:删除包含字符串的熊猫数据帧中的所有行

我有一个叫做数据的熊猫数据框,我想删除所有列中包含一个字符串的行。例如,下面我们看到'gdp'列在索引3处有一个字符串,索引号为'cap'。 data = y gdp cap 0 1 2 5 1 2 3 ab 2 8 7 2 3 3 bc 7 4 6 7 7 5 4 8 3 ... 尝试使用像这样的脚本,因为我不知道什么是包含在exp_l ..
发布时间:2017-03-26 01:13:39 Python

重命名pyspark数据帧聚合的列

我正在使用pyspark数据框分析一些数据,假设我有一个数据框 df ,我正在汇总: df.groupBy(“group”)\ .agg({“money”:“sum”})\ .show(100) 这将给我: group SUM(money#2L) A 137461285853 B 172185566943 C 271179590646 ..
发布时间:2017-03-26 01:13:27 其他开发

熊猫DataFrame:应用功能到所有列

我可以在df的任何列中使用 .map(func),如: df = DataFrame({'a':[1,2,3,4,5,6],'b':[2,3,4,5,6,7]}) df ['a'] = df ['a']。map(lambda x:x> 1) 我也可以: df ['a'],df ['b' ] = df ['a']。map(lambda x:x> 1),df [ ..
发布时间:2017-03-26 01:13:04 Python

熊猫组合2个数据帧(加入公共列)

我有2个数据框: restaurant_ids_dataframe 数据列(共13列): business_id 4503非空值 类别4503非空值 城市4503非空值 full_address 4503非空值 纬度4503非空值 经度4503非空值 名称4503非空值 社区4503非空值 打开4503非空值 review_count 4503非空值 stars 4503非空值 ..
发布时间:2017-03-26 01:12:52 Python

多指数组由熊猫数据帧

我有一个数据集,包含按国家统计的经济指标的年份,如下所示: 国家指标2011 2012 2013 2014 美国GDP 7 4 0 2 美国流行音乐2 3 0 3 GB GDP 8 7 0 7 GB流行音乐。 2 6 0 0 FR GDP 5 0 0 1 FR流行音乐。 1 1 0 5 如何在熊猫中使用MultiIndex创建仅显示GDP的数据框架每个国 ..
发布时间:2017-03-26 01:12:40 Python

从数据框创建汇总统计表

我有以下5个变量的29个观察结果(df): age height_seca1 height_chad1 height_DL weight_alog1 1 19 1800 1797 180 70 2 19 1682 1670 167 69 3 21 1765 1765 178 80 4 21 1829 1833 181 74 5 21 1706 1705 170 103 ..
发布时间:2017-03-26 01:12:29 其他开发

以最小的内存占用分割大型Pandas Dataframe

我有一个很大的DataFrame,我想分成一个测试集和一个模型建立的火车。但是,我不想复制DataFrame,因为我达到了内存限制。 是否有一个操作,类似于pop,而是一个大的段,将同时删除DataFrame的一部分,并允许我将其分配给一个新的DataFrame?这样做: #假设我初始化了一个DataFrame(称为“全部”),其中包含我的大型数据集 #带有一个名为“test”的布尔列 ..
发布时间:2017-03-26 01:12:06 Python

在R中使用NA值组合删除行的高效方法

背景 在运行逐步模型选择之前,我需要删除我的任何模型项的缺失值。在我的模型中有相当多的术语,因此,我需要查找NA值(并删除任何这些向量中具有NA值的任何行)的相当多的向量。但是,还有一些向量包含不想用作删除行的条款/标准的NA值。 问题 如何从包含任何矢量列表的NA值的数据帧中删除行?我目前正在使用一系列长的系列的笨重方法!is.na的 > my.df [!is.na(my.df ..
发布时间:2017-03-26 01:11:43 其他开发

对R中的data.frame中的组应用函数

我正在尝试在数据框中获取组(“a”和“b”)的变量(v)的累加和。如何将底部的结果 - 哪些行的数据正确编号到数据框的列c中? >图书馆(nlme) > g“(c(”a“,”b“,”a“,”b“,”a“,”b“,”a“,”b“,”a“,”b“ “,”b“)) > v-c(1,4,1,4,1,4,2,8,2,8,2,8) > cs d ..
发布时间:2017-03-26 01:11:32 其他开发

将可变长度数据存储在R data.frame中的最佳方法?

我有一些混合类型的数据,我想以某种R数据结构存储。每个数据点都有一组固定属性,可以是1-d数字,因子或字符,也可以是一组可变长度数据。例如: id短语num_tokens token_lengths 1“hello world”2 5 5 2“greetings “1 9 3”带我去你的领导“4 4 2 2 4 6 实际的值并不是可以互相计算的,而是数据的风味 ..
发布时间:2017-03-26 01:11:19 其他开发

data.frame的可视化结构:NAs的位置等等

我想用一个颜色代码在单个图上表示一个数据框架(或矩阵,或数据表)的结构。我想这对于处理各种类型的数据的人来说可能是非常有用的,可以一目了然的。 也许有人已经开发了一个包来做,但我找不到(只是此)。所以这里是我的“愿景”的一个粗略的模型,一种热图,以颜色代码显示: NA位置, li> 变量类(因子(多少级?),数字(颜色渐变,零,异常值...),字符串) 维度 等..... ..
发布时间:2017-03-26 01:11:07 其他开发

从data.frame创建barplot

在RI中有一个像图片顶部的数据框架。 是否有可能创建一个像在底部的一个barplot图像? 解决方案 假设你不想要ascii输出,这里是使用 ggplot2 #加载/生成您的数据 mydf ..
发布时间:2017-03-26 01:10:55 其他开发

熊猫:两个数据帧的元素乘法

我知道如何在两个Pandas数据帧之间进行元素乘法运算。然而,当两个数据帧的尺寸不兼容时,事情变得更加复杂。例如下面 df * df2 是简单的,但 df * df3 是一个问题: df = pd.DataFrame({'col1':[1.0] * 5, 'col2':[2.0] * 5, 'col3':[3.0] * 5},index = range(1,6),) df2 = pd.D ..
发布时间:2017-03-26 01:10:43 Python

如何更改data.frame中的单个值?

任何人都可以解释如何将 data.frame 中的单个单元格更改为其他内容。 基本上我只想重命名一个单元格,而不是所有与它匹配的单元格。 我不能使用 edit()命令,因为它会使我的脚本自动使用 data.frame 几次。 提前感谢 解决方案 p $ p> data.frame [row_number,column_number] = new_value 例如,如果 x 是 ..
发布时间:2017-03-26 01:10:31 其他开发

R-为什么X添加到我的数据框架中的变量的名称?

当我在 R 中使用 read.csv()函数加载数据时,我经常发现X已添加到变量名称。我想我只是总是看到它在第一个变量,但我可能是错的。 起初,我认为 R 可能会这样做,因为我在变量名称的开头有一个空格- 我不。 其次,我读过某个地方,如果您有一个以数字开头的变量,或是一个非常短的变量名, R 将添加X.变量名是所有文本,该变量的名称的长度是12个字符,所以它不是很短。 现在,这 ..
发布时间:2017-03-26 01:10:20 其他开发

如何获取R中的行索引号?

假设我在R中有一个列表或数据框架,我想得到行索引,我该如何做?也就是说,我想知道某个矩阵包含多少行。 解决方案 我将你的问题解释为关于获得行号。 您可以尝试 as.numeric(rownames(df))不要设置rownames。否则使用序列 1:nrow(df)。 which()函数将TRUE / FALSE行索引转换为行号。 ..
发布时间:2017-03-26 01:09:45 其他开发