dataframe相关内容
如何在数据框架的每个组中生成唯一的ID号?以下是按“personid”分组的一些数据: 个人日期测量 1 x 23 1 x 32 2 y 21 3 x 23 3 z 23 3 y 23 我希望为“personid”定义的每个子集中的每一行添加一个具有唯一值的id列,始终以 1 开头。这是我的预期输出: 人物日期测量ID 1 x 23 1
..
以下是一些示例数据: days = 365 * 2 date = seq(as.Date(“2000-01-01”),length = days,by = “day”) year = year(date) month = month(date) x1 = cumsum(rnorm(days,0.05)) x2 = cumsum ,0.05)) df1 = data.frame
..
我有一个csv文件,其中一些列如下: df = pd.DataFrame ':[[8.6,1.3,2.5],[7.5,1.2],...,[b] []],'c':[[12,23,79],[42,10],[]]} Out [1]:abc 0 [ID1, ID2,ID3] [8.6,1.3,2.5] [12,23,79] 1 [ID1,ID4] [7.5,1.2] [42,10]
..
我使用 read.table()将CSV文件导入到 data.frame 中。 data.frame 看起来像: X1 X2 X3 样本A 批量新 名称卷% 数据0.1 10 数据0.2 20 数据0.3 30 样本B 许多旧 名称卷% 数据0.1 50 数据0.2 60 数据0.3 70 我想重组这个 data.frame ,使前3个数据点与Sample
..
我想实现的是写一个R哈希表到一个csv文件excel(列像格式化文件 - 键在第一列和值在第二)。请考虑这个例子。 (散列表是由散列包创建的) 包含5个键值对。 1:4 2:NULL 3:NULL 4:3 1 5:1 4 pre> 当我使用这个 write.csv ,file =“hash.csv”,row.names = FALS
..
我是R的新手,所以如果这是一个基本问题,我提前道歉,但我已经搜索高低,但没有找到答案。 我想制作一个包含多个数据框的文件。 (一个例子是BradleyTerry2软件包中的数据集“flatlizards”,该文件称为“flatlizards”,但其中有两个数据框 - “contests”和“predictors”。当你要求查看数据“flatlizards”时两个数据帧都在它们相应的标题下分别
..
我试图使用excel csv文件的列创建多个数据框。这是我能够到达 import pandas as pdfile = pd.read_csv('file.csv')df = pd.DataFrame(文件)cols = df.columns#列名称是'日期','股票1','股票2'等等 - 我有1000列(len(cols)):df [i] = df [['Date',b(i)]]
..
经过多番努力,我开始将我的R脚本迁移到Python。我在R中的大部分工作都涉及数据框架,我使用的是来自pandas包的 DataFrame 对象。在我的脚本中,我需要读入一个csv文件,并将数据导入到一个 DataFrame 对象。接下来,我需要将十六进制值转换为标记为 DATA 的列到按位数据,然后创建16个新列,每个位一个。 我在文件 test.txt 中的输入数据示例如下, PR
..
我有一个CSV文件,我试图读入R中的数据框架,我想知道如何使用分层索引存储它。换句话说,我想使用这样的列名称: ('a1','b1','c1 '),('a1','b1','c2'),('a1','b1','c3'),('a1','b1','c4'), 'a1','b2','c1'),('a1','b2','c2' 'c4'), 1,2,3,4,5,6,7,8,9,10,11,12, 1
..
我有3个数据框,我希望他们被写在一个单一的.csv文件,一个在其他之上,而不是在同一个表。所以,在一个csv文件中有3个不同的表。他们都有相同的大小。 write.csv 的问题:它不包含“ append ” write.table 的问题: write.table 不会被Excel 2010读取,例如 write.csv 帖子我已经阅读,我找不到解决我的问题: write
..
我在阅读csv文件时遇到问题 导入pandas为pd df = pd.read_csv('Data_Matches_tekha.csv',skiprows = 2) pandas.io.common.CParserError:对数据进行标记化时出错。 C错误:第526行中的第一个字段,看到5 code>到 df 我得到另一个错
..
我对R和一般的编程都很新。 这是我写这个脚本的目的: 有332个csv文件。我想,“写一个函数,读取一个目录充满了文件,并报告在每个数据文件中完全观察到的案例数。函数应该返回一个数据框,其中第一列是文件的名称,第二列是完整个案的数目。“ 该函数如下: complete
..
我有一些数据文件由我的实验室中使用的一些相当麻木的脚本。该脚本是相当有趣的,因为它附加在标题之间的行数在文件之间变化(尽管它们是相同的格式和具有相同的标题)。 我正在写一个批处理来处理所有这些文件到数据帧。如果我不知道位置,如何使熊猫识别正确的标题?我知道确切的heder文本,以及直接在它之前的两行文本(它们是文档中 \r\\\ 的唯一连续实例) 。 我试图在文档结尾处定义空跳,并选
..
我在我的data.frame的一列 services 中有以下逗号分隔的数据。 > dput(结构(df $ services [1:5])) list(“全球支出管理,公司隐私政策”,“移除服务,全球支出管理”, “移除服务,公司隐私政策“, ”移除服务,例外与成本管理,辅助服务,全球成本估算,全球支出管理,公司存储,公司隐私政策“, “全球支出管理,公司隐私政策”) 在
..
我有一个数据框架 df = pd.DataFrame(columns = [“AA”,“BB”,“CC “]) df.loc [0] = [”a“,”b“,”c1“] df.loc [1] = [”a“,”b“,”c2“ ] df.loc [2] = [“a”,“b”,“c3”] $ b b 我需要添加secod行到标题 df.columns = pd.M
..
我有两个数据帧,我想使用其中一个数据帧来过滤另一个数据帧,并创建一个新的数据帧。两个数据帧具有包含类似信息的列,但不是精确匹配。我一直在尝试使用 str.contains 但到目前为止我一直得到 TypeError:'Series'对象是可变的,因此他们不能哈希当我尝试。这里是我的数据框架和我试过的代码示例。 promoter = pd.read_csv('promoter_coordin
..
我倾向于将.csv文件导入到pandas中,但有时候我可能会获得其他格式的数据来创建 DataFrame 对象。 今天,我刚刚发现了 read_table 作为其他格式的“通用”导入器,并想知道在熊猫的各种方法之间是否有显着的性能差异用于读取.csv文件,例如 read_table , from_csv , read_excel 。 这些方法比 read_csv 有更好的性能吗? r
..
我正在读一个带有多个datetime列的csv文件。我需要在读入文件时设置数据类型,但数据时间似乎是一个问题。例如: headers = ['col1','col2','col3','col4'] dtypes = ['datetime','datetime','str','float'] pd.read_csv(file,sep ='\t',header = None,names
..
R中的read.table和read.csv函数用于解析包含分隔数据的文件或URL,并生成R数据框。但是,我已经有一个包含CSV分隔数据的字符向量(使用逗号和\\\ 作为列和记录分隔符),因此我不需要从文件或URL读取它。如何将此字符向量传递到 read.table , read.csv 或 scan ()不先将它写入磁盘上的文件,然后读回它?我意识到,将它写入磁盘是可能的,但我正在寻找一个解决
..
我有一个数据框列表。每个数据帧具有相同的列名称和不同的行数。我想将我的列表中的每个数据帧导出到自己的csv文件。文件名应为数据框的名称。我已经通过几个论坛帖子尝试不同的建议,但许多都没有工作或给我一个空的csv文件。 这是我目前拥有的代码: #导出列表中的每个数据框 export = function(data){ filename = function(x)粘贴[[x]]),“.
..