dataframe 第404页 - IT屋-程序员软件开发技术分享社区

按复合条件合并/加入2个DataFrames

我有2个大数据集（大于70K到110K）。我想要相关/比较两者，并根据某些条件/条件找到set2中的哪些项目。我目前的策略是按照常见的排序字段，然后为循环运行嵌套，执行条件如果测试，则会将预定义的词汇与已找到的项目进行聚合，不符合示例：将大熊猫导入为pd list1 = [{'a'：56，'b'：'38'，'c'：'11'，'d'：'10'，'e'：65}， {' ..

发布时间：2017-03-26 01:43:49 python pandas scipy scikit-learn dataframe Python

调用函数时设置列名

考虑到我们有一个数字data.frame foo ，并希望找到每两列的总和： foo ..

发布时间：2017-03-26 01:43:37 r function dataframe apply combn 其他开发

R：在通用（通用）功能的功能参数中指定变量名称

这是我的小功能和数据。请注意，我想设计一个不是个人用的一般功能的功能。 dataf ..

发布时间：2017-03-26 01:43:25 r variables functional-programming dataframe 其他开发

使用来自另一个熊猫数据帧的信息填充熊猫数据帧

我有一个熊猫数据框，其中包含信息：索引年月日符号交易nr_shares 2011- 01-10 2011 1 10 AAPL购买1500 2011-01-13 2011 1 13 GOOG卖1000 ，我想填写第二个零填充的熊猫数据框 index AAPL GOOG 2011- 01-10 0 0 2011-01-11 0 0 2011-01 ..

发布时间：2017-03-26 01:43:13 python python-2.7 dataframe pandas Python

从两个数据帧中的数据生成多个串行图/散点图

我有两个数据帧，Tg和Pf，每个127列。所有列至少有一行，最多可以有数千个。所有值都在0和1之间，并且有一些缺少值（空单元格）。以下是一小部分： Tg Tg1 Tg2 Tg3 ... Tg127 0.9 0.5 0.4 0 0.9 0.3 0.6 0 0.4 0.6 0.6 0.3 0.1 0.7 0.6 0.4 0.1 0.8 0.3 0.9 0.9 ..

发布时间：2017-03-26 01:42:50 r graph dataframe repetition 其他开发

R中的数据帧与rownames的联合

我有4个数据帧，每个索引在列表中。我想把它们整合为一个数据框。在数学中的设定语言中，最有意义的是，它是在rownames上的联合。所以我可能会这样： U union 函数是它只对向量进行操作。如何获得这个数据框架？如何将其 ..

发布时间：2017-03-26 01:42:37 r dataframe union 其他开发

R重构，通过块重构数据框

我正在重塑一个数据框：目前看起来像这样： ID |性别| A1 | A2 | A3 | B1 | B2 | B3 ID_1 | m | 3 | 3 | 3 | 2 | 3 | 2 ID_2 | f | 1 | 1 | 1 | 4 | 4 | 4 我想要的是： ID |性别| A1 | A2 | A3 ID_1 | m | 3 | 3 | 3 ..

发布时间：2017-03-26 01:42:25 r dataframe reshape chunks data-management 其他开发

R - 在数据帧中按组识别行元素序列

考虑以下示例数据框： > df id名称时间 1 1 b 10 2 1 b 12 3 1 a 0 4 2 a 5 5 2 b 11 6 2 a 9 7 2 b 7 8 1 a 15 9 2 b 1 10 1 a 3 df =列表（id = c（1L，1L，1L，2L，2L，2L，2L，1L，2L，1L）， name = c（“b”，“b”， ..

发布时间：2017-03-26 01:42:11 r dataframe dplyr 其他开发

R：通过使用分位数0.05和0.95，数据帧中每列的异常值清理

我是一个新手。在将样品放入随机森林之前，我想做一些异常清洗和超范围从0到1。 g 如果我从0开始简单的缩放 - 1，结果将是： > （（g - min（g））/ abs（max（g） - min（g）），1） [1] 1.0 0.1 0.0 0.1 0.0 0.0 0.0 0.1 0.1 0.1 0.0 0.1 0.0 0.1 0.0 0.1 0.0 ..

发布时间：2017-03-26 01:41:51 function r scaling dataframe outliers 其他开发

如何将不同的功能应用于熊猫数据帧上的不同列

我想在小熊猫数据框中使用groupby，但是我想得到一些列的平均值和其他列的总和。假设我们有以下数据框： ID ABC 1 1 1 0 1 2 3 1 1 3 6 1 4 3 2 1 4 4 1 0 6 5 1 0 6 6 6 1 6 7 2 0 我想要分组ID并获得列“A”的平均值和其他列的总和实际上我有40多列）我希望结果如 ..

发布时间：2017-03-26 01:41:28 python pandas numpy dataframe Python

在R中的数据帧的行上更快的子集

我已经使用这两种方式来互换地从R中的数据框中子集数据。方法1 subset_df 方法2 subset_df 5）我有两个问题属于这些。 1.考虑到我有非常大的数据，哪一个更快？ 2.这篇文章这里在R中设置数据框建议实际上有两种方法之间有区别。其中一个准确地处理NA。解决方案该问题要求更快的方式对数据框的 ..

发布时间：2017-03-26 01:41:16 r dataframe subset 其他开发

熊猫堆/ groupby创建一个新的数据框

我有一个创建和重新排列数据集的问题。我看着大熊猫groupby功能，并认为它可能会帮助我做，但我没有经验，使它发生。我创建了一个我的问题的例子：我的df：车辆颜色abcd A1 A2 A3 B1 B2 B3 C1 C2 C3 D1 D2 D3 resp 1自行车绿色5 4 1 3 3 4 5 3 5 3 NaN NaN NaN NaN NaN NaN 2步行红色5 3 ..

发布时间：2017-03-26 01:41:05 python group-by pandas dataframe Python

从具有多个字符串的列中创建一个get_dummies类型数据框的最快方法

我有一列'col2'，它有一个字符串列表。我现在的代码太慢了，大约有2000个独特的字符串（下面的例子中的字母）和4000行。结束为2000列和4000行。在[268]中：df.head（）输出[268 ]： col1 col2 0 6 A，B 1 15 C，G，A 2 25 B 有没有一种快速的方式来使这个获得虚拟的格式？每个字符串都有自己的列，每个字符 ..

发布时间：2017-03-26 01:40:53 python pandas split dataframe Python

大熊猫：每60秒内只保留第一行数据

在大熊猫中保留每60秒数据的第一行的最佳方式是什么？即对于在增加时间 t 中发生的每一行，我想删除最多发生在 t + 60 秒。我知道我可以使用的 groupby（）。first（）我看到的代码示例（例如使用 pandas.Grouper（freq ='60s'））将丢弃原始数据时间，有利于从午夜抵消每60秒，而不是我的原始数据时间。例如，以下内容：价值 0✓-1113：0 ..

发布时间：2017-03-26 01:40:41 python pandas dataframe Python

将Unix时间戳转换为R中的日期时间

我有以下数据框架 >头（尝试）创建时间 1 128.29508 1417392072 3 236.98361 1417392072 7 98.45902 1417392072 9 157.44068 1417392131 10 227.38333 1417392131 11 242.03390 1417392131 > str（try） 'data.frame' ..

发布时间：2017-03-26 01:40:30 r datetime dataframe unix-timestamp epoch 其他开发

将Spark DataFrame数据分割成单独的文件

我有一个s3文件的DataFrame输入，需要将数据转换成以下所需的输出。我在Scala中使用Spark 1.5.1版本，但是可以用Python改为Spark。欢迎任何建议。 DataFrame输入：命名动物数据 john mouse aaaaa bob mouse bbbbb bob mouse ccccc bob dog ddddd 期望的输出： ..

发布时间：2017-03-26 01:40:18 scala apache-spark dataframe amazon-s3 qubole 其他开发

如何通过重组MALLET输出文件创建表？

我正在使用 MALLET 进行主题分析，将结果输出到文本文件（“主题”）中。 txt“），其中每行由tab分隔的变量组成，如下所示： Num1 text1主题1比例1主题2比例2主题3比例3等 Num2 text2主题1比例1主题2比例2主题3比例3等 Num3 text3主题1比例1主题2比例2主题3比例3等这是一个实际数据片段： > dat [1：5,1： ..

发布时间：2017-03-26 01:40:06 r table dataframe mallet 其他开发

将使用“by”创建的摘要转换为data.frame

df1 = data.frame（c（2,1,2），c（1,2,3,4,5,6），seq（141,170））＃创建数据。框架名称（df1）= c（“gender”，“age”，“height”）#column names df1 $ gender ..

发布时间：2017-03-26 01:39:52 r dataframe plyr summary 其他开发

Spark Scala - 如何组合数据帧行并将复杂函数应用于组？

我正在努力解决这个超级简单的问题，我已经厌恶了，我希望有人可以帮助我。我有一个这样的数据框： ------------------- -------- |类别| Product_ID | | ------------ + ------------ + | a |产品1 | | a |产品2 | | a |产品3 | | a |产品1 | | a |产品4 | ..

发布时间：2017-03-26 01:39:41 apache-spark dataframe parallel-processing aggregate-functions custom-function 其他开发

根据条件合并一列匹配的两个数据帧

模拟数据： set.seed（1） df1 ..

发布时间：2017-03-26 01:39:29 r merge dataframe 其他开发

dataframe相关内容