dataframe相关内容

按复合条件合并/加入2个DataFrames

我有2个大数据集(大于70K到110K)。我想要相关/比较两者,并根据某些条件/条件找到set2中的哪些项目。 我目前的策略是按照常见的排序字段,然后为循环运行嵌套,执行条件如果测试,则会将预定义的词汇与已找到的项目进行聚合,不符合 示例: 将大熊猫导入为pd list1 = [{'a':56,'b':'38','c':'11','d':'10','e':65}, {' ..
发布时间:2017-03-26 01:43:49 Python

R中的数据帧与rownames的联合

我有4个数据帧,每个索引在列表中。我想把它们整合为一个数据框。在数学中的设定语言中,最有意义的是,它是在rownames上的联合。所以我可能会这样: U union 函数是它只对向量进行操作。如何获得这个数据框架? 如何将其 ..
发布时间:2017-03-26 01:42:37 其他开发

在R中的数据帧的行上更快的子集

我已经使用这两种方式来互换地从R中的数据框中子集数据。 方法1 subset_df 方法2 subset_df 5) 我有两个问题属于这些。 1.考虑到我有非常大的数据,哪一个更快? 2.这篇文章这里在R中设置数据框建议实际上有两种方法之间有区别。其中一个准确地处理NA。 解决方案 该问题要求更快的方式对数据框的 ..
发布时间:2017-03-26 01:41:16 其他开发

熊猫堆/ groupby创建一个新的数据框

我有一个创建和重新排列数据集的问题。我看着大熊猫groupby功能,并认为它可能会帮助我做,但我没有经验,使它发生。 我创建了一个我的问题的例子: 我的df: 车辆颜色abcd A1 A2 A3 B1 B2 B3 C1 C2 C3 D1 D2 D3 resp 1自行车绿色5 4 1 3 3 4 5 3 5 3 NaN NaN NaN NaN NaN NaN 2步行红色5 3 ..
发布时间:2017-03-26 01:41:05 Python

从具有多个字符串的列中创建一个get_dummies类型数据框的最快方法

我有一列'col2',它有一个字符串列表。我现在的代码太慢了,大约有2000个独特的字符串(下面的例子中的字母)和4000行。结束为2000列和4000行。 在[268]中:df.head() 输出[268 ]: col1 col2 0 6 A,B 1 15 C,G,A 2 25 B 有没有一种快速的方式来使这个获得虚拟的格式?每个字符串都有自己的列,每个字符 ..
发布时间:2017-03-26 01:40:53 Python

大熊猫:每60秒内只保留第一行数据

在大熊猫中保留每60秒数据的第一行的最佳方式是什么?即对于在增加时间 t 中发生的每一行,我想删除最多发生在 t + 60 秒。 我知道我可以使用的 groupby()。first()我看到的代码示例(例如使用 pandas.Grouper(freq ='60s'))将丢弃原始数据时间,有利于从午夜抵消每60秒,而不是我的原始数据时间。 例如,以下内容: 价值 0✓-1113:0 ..
发布时间:2017-03-26 01:40:41 Python

如何通过重组MALLET输出文件创建表?

我正在使用 MALLET 进行主题分析,将结果输出到文本文件(“主题”)中。 txt“),其中每行由tab分隔的变量组成,如下所示: Num1 text1主题1比例1主题2比例2主题3比例3等 Num2 text2主题1比例1主题2比例2主题3比例3等 Num3 text3主题1比例1主题2比例2主题3比例3等 这是一个实际数据片段: > dat [1:5,1: ..
发布时间:2017-03-26 01:40:06 其他开发