dataframe相关内容
我有一个名为 Fail 的数据框。 我想在用户选择的位置将失败另存为CSV。下面是我发现的一些示例代码,但我不知道如何将 Fail 加入其中。 require(tcltk) fileName if(!nchar(fileName)){ tkmessageBox(message =“No文件被选中!“) } else { tkmessageBox(message = paste
..
我有一个 pandas.DataFrame ,我希望导出到CSV文件。然而,pandas似乎写一些值为 float 而不是 int 类型。 建立资料框架: df = pandas.DataFrame(columns = ['a','b','c','d'],index = ['x','y','z'],dtype = int) x = pandas.Series([10,10,10],i
..
我有一个以下表单的数据框架(例如) shopper_num,is_martian,number_of_items,count_pineapples,birth_country,tranpsortation_method 1,FALSE,0,0,MX, 2,FALSE,1,0,MX, 3,FALSE,0,0,MX, 4,FALSE, 22,0,MX, 5,FALSE,0,0,MX
..
我有几个csv文件都用日期命名,对于所有这些文件,我想在每个文件中创建一个新列,其中包含放置在一起的其他两列的数据。然后,我想将它们组合成一个大数据框,并只选择其中两个列。这里有一个例子: 说我有两个数据框架: abcabc x 1 2 3 x 3 2 1 y 2 3 1 y 2 1 3 然后我想在其中的每一个中创建一个新列d: abcdabcd x
..
我有一个像这样的文件。 “Locations”“X9442”“X5997” “1”“cg00000957”0.87 0.86 “2”“cg00001349”0.78 0.78 “3”“cg00001583”0.06 0.08 “4”“cg00002028”0.01 0.01 我想删除行名称,如下所示: “地点”“X9442”“X5997” “cg000009
..
我有一个大的csv文件,大约600mb与1100万行,我想创建统计数据,如枢轴,直方图,图形等。显然试图只是为了正常阅读: df = pd.read_csv('Check400_900.csv',sep ='\t') 不工作,所以我发现iterate和chunksize在一个类似的职位,所以我使用 df = pd.read_csv('Check1_900.csv'
..
要处理的csv文件不适合内存。 解决方案 你也可以只做一些基本的统计数据 perl -ne'print if(rand() subset.txt 这不一定会给你2万行。 (这里它会占用大约.01或总行数的1%)。但是,它会真的很快,你会有一个很好的副本的两个文件在你的目录。然后,您可以加载较小的文件到R,但你想要的。
..
我有一个包含行名称的 .txt 文件。 如果你使用 read.table()方法,你可以使用 )(或其中一个,例如 read.csv()),那么很容易修复是更改调用: read.table(file =“foo.txt”,row.names = 1,....) 其中 .... 是您需要/使用的其他参数。 row.names 参数接受从中获取行名称的数据文件的列号。它不需要
..
我们有一个来自CSV文件的数据框。数据框 DF 具有包含观察值的列和包含测量日期的列( VaR2 )已采取。如果未记录日期,则CSV文件包含缺少数据的值 NA 。 Var1 Var2 10 2010/01/01 20 NA 30 2010/03/01 我们想使用subset命令定义一个新的数据框架 new_DF ,这样它只包含有 NA'的值( VaR2 )。在
..
我想知道如何将新的DataFrame数据添加到现有csv文件的末尾? to_csv没有提到这样的功能。先谢谢你。 解决方案 您可以使用 to_csv .python.org / 2 / library / functions.html#open“rel =”noreferrer“>以追加模式开启: with open(file_name,'a')as f: df.to_csv(f
..
我有一个 data.table 不是很大(2 GB),但由于某种原因 write.csv 花费很长时间写出来(我从来没有真正完成等待),似乎使用了大量的RAM来做它。我尝试将 data.table 转换为 data.frame ,尽管这不应该做任何事情,因为 data.table extends data.frame 。有谁遇到这个?更重要的是,如果你使用 Ctrl - C 停止它,R似乎不会回忆
..
我需要使用存储在文件中的数据创建数据框。为此,我想使用 read_csv 方法。然而,分离器不是很规则。一些列由制表符( \t )分隔,其他由空格分隔。此外,一些列可以由2或3或更多个空格分隔,甚至由空格和制表符的组合(例如3个空格,两个制表符,然后1个空格)分隔。 有没有办法告诉熊猫正确处理这些文件? 顺便说一句,如果我使用Python,我没有这个问题。我使用: 用于文件中的行
..
我有一个大熊猫的数据框,我想写一个CSV文件。我这样做使用: df.to_csv('out.csv') 得到错误: UnicodeEncodeError: 'ascii'编解码器不能编码字符u'\\\α'在位置20:序数不在范围内(128) 有没有办法容易解决这个问题(即我的数据框中有unicode字符)?并且有一种方法写入一个制表符分隔文件,而不
..
我正在尝试上传一个csv文件,大小为250MB。基本上是4百万行和6列的时间序列数据(1min)。通常的过程是: location = r'C:\Users\Name\Folder_1\Folder_2\file .csv' df = pd.read_csv(location) 此过程大约需要20分钟!!!。非常初步我已经探索了以下选项 以块的形式上传,
..
我有一个pandas数据框架: arrays = [['Midland','Midland','Hereford'赫尔福德','霍布斯','霍布斯','儿童','童女','里斯','里斯', '圣安吉洛,'圣安吉洛'], ,'WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS','WRF','MOS']] tuples = list zip(*
..
我尝试格式化表格,以便每个列中的数据都根据其值格式化为样式(类似于电子表格程序中的条件格式)。如何使用HTML格式化程序在大熊猫中实现? 典型的用例是在表中突出显示重要的值。例如: 相关p值 0 0.5 0.1 1 0.1 0.8 2 0.9 * 0.01 * pandas允许为HTML输出定义自定义格式化程序 - : 将pandas导入为pd
..
我有以下格式的数据称为DF(这只是一个简化的示例): eval.num ,eval.count,fitness,fitness.mean,green.h.0,green.v.0,offset.0 random 1 1 1500 1500 100 120 40 232342 2 2 1000 1250 100 120 40 11843 3 3 1250 1250 100 120
..
我有一个包含大量行的数据集。一些值是NaN,像这样: 在[91]:df Out [91]: 1 3 1 1 1 1 3 1 1 1 2 3 1 1 1 1 1 NaN NaN NaN 1 3 1 1 1 1 1 1 1 我想计算每个字符串中NaN值的数量, this: 在[91]:list = 在[9
..
例如,这是我的数据 mydata v 1 1 2 1 3 2 4 2 5 2 6 3 $ b b 有任何可以生成向量或列的函数。 v count 1 1 2 2 1 2 3 2 3 4 2 3 5 2 3 6 3 1 我尝试了 sum()的方法,但失败了 mydata $ counts
..
我有一个非常简单的问题。我想改变一个给定的列中的一个给定的行的pandas数据帧的值。我尝试以下列方式: df ['column3']。loc [this_date] = val 因此,我收到以下警告: SettingWithCopyWarning:尝试在来自DataFrame的切片的副本上设置值 我对此警告的解释是,使用列名('column3')
..