pandas相关内容
我有一个多索引数据框,其中的索引已从日期导出.它包含年份和季度值. 我要实现的是在x轴上具有两组刻度线标签的图.次刻度标签应代表四分之一值(1到4),而大刻度标签应代表年值.但是,我不希望显示所有年份的刻度标签,而只显示四个季度中每个季度的唯一年份. 这很容易在excel图形中表示,这是我尝试复制的示例. 这是我的数据集中的一个样本. serotype_df = pd.Da
..
我正在使用matplotlib从DF中进行散点图绘制.为了获得每个数据集不同的颜色,我对plt.scatter进行了两个单独的调用: plt.scatter(zzz['HFmV'], zzz['LFmV'], label = dut_groups[0], color = 'r' ) plt.scatter(qqq['HFmV'], qqq['LFmV'], label = dut_group
..
我有一个数据框,其中包含名为id,country_name,location和total_deaths的列.在执行数据清理过程时,我在附加了'\r'的行中遇到了一个值.完成清理过程后,将结果数据帧存储在destination.csv文件中.由于上面的特定行已附加\r,因此始终会创建一个新行. id 29 location
..
我试图计算一个相关矩阵,并根据p值过滤相关性,以找出高度相关的对. 要解释我的意思,请说我有一个这样的数据框. df A B C D 0 2 NaN 2 -2 1 NaN 1 1 1.1 2 1 NaN NaN 3.2 3 -4
..
我有一个熊猫数据框,看起来像这样: qseqid sseqid qstart qend 2 1 125 345 4 1 150 320 3 2 150 450 6 2 25 300 8 2 50 50
..
使用熊猫,我已经提取了一个CSV文件,然后创建了一系列数据来找出一周中哪几天崩溃次数最多: crashes_by_day = bc['DAY_OF_WEEK'].value_counts() 然后我将其绘制出来,但是当然它按照与该系列相同的排序顺序来绘制它们. crashes_by_day.plot(kind='bar') 将它们重新排序为星期一,星期二,星期三,星期四,星期四
..
我有一个很大的csv,这种格式每行有两个字符串: g,k a,h c,i j,e d,i i,h b,b d,d i,a d,h 我读了前两列,并将字符串重新编码为整数,如下所示: import pandas as pd df = pd.read_csv("test.csv", usecols=[0,1], prefix="ID_", header=None) from sklea
..
我正在尝试将未堆叠,多索引数据框转换回单大熊猫日期时间索引. 我的原始数据框的索引,即在进行多索引和拆栈之前,如下所示: In [1]: df1_season.index Out [1]: [2013-05-01 02:00:00, ..., 2014-07-31 23:00:00] Leng
..
我的df DataFrame索引如下: Com_Lag_01 Com_Lag_02 Com_Lag_03 Com_Lag_04 Com_Lag_05 Com_Lag_06 Com_Lag_07 Com_Lag_08 Com_Lag_09 Com_Lag_10 Com_Lag_101 Com_Lag_102 Com_Lag_103 ... Com_Lag_11 Com_Lag_111 Com_
..
我正在运行Pandas 0.16.2和Matplotlib 1.4.3.我遇到的问题是将以下代码生成的箱线图的中位数着色: df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E']) fig, ax = plt.subplots() medianprops = dict(linestyle='-'
..
我是Python的初学者,我一直在使用Jupyter上的Pandas和Geocoder对数据库进行地理编码. 由于df有点长(大约3000行),所以我想使用Google的地理编码API. 我已经创建了一个自由密钥,但是我不知道该怎么做.帮助吗? 顺便说一句,我的代码如下: import geocoder import pandas as pd geo = geocoder
..
我想每个月有一个星期,有些月份可能有四个星期,有些月份可能有五个星期. 对于每个日期,我想知道它属于哪个星期.我最感兴趣的是该月的最后一周. data = pd.DataFrame(pd.date_range(' 1/ 1/ 2000', periods = 100, freq ='D')) 0 2000-01-01 1 2000-01-02 2 2000-01-03 3 2000
..
我想像这样将一些文本和数据框保存到一个excel文件中: 因此,我有以下变量: text1 = "some text here" text2 = "other text here" df = pd.DataFrame({"a": [1,2,3,4,5], "b": [6,7,8,9,10], "c": [11,12,13,14,15]}) 正如我已经发现的那样,可以使用xlsxwr
..
我有一张表格,其中每一行都可以属于多个类别,例如 test = pd.DataFrame({ 'name': ['a', 'b'], 'category': [['cat1', 'cat2'],['cat1', 'cat3']] }) 如何将每个类别转换为虚拟变量,使上表变成 test_res = pd.DataFrame({
..
给出一个df in[0]df1 out[0] DATE REVENUE COST POSITION FACTOR 0 2017/01/01 1000 900 10 1 2017/01/01 900 700 9 2 2017/01/01 1100 800 7 我还有另外一行FACTO
..
我觉得必须快速解决我的问题,我使用多个列表推导方法破解了一个实施不佳的解决方案,但这并不理想.也许有人可以在这里帮忙. 我有一组字符串值(例如3.2B,1.5M,1.1T),其中最后一个字符自然表示一百万,十亿,万亿.在该集合内,还应保留NaN/'none'值.我希望将它们转换为浮点数或整数,因此在给定的示例中(3200000000、1500000、1100000000000) TIA
..
我想在Elasticsearch中索引一堆大熊猫数据框(大约一百万行和50列). 寻找有关如何执行此操作的示例时,大多数人会使用 elasticsearch-py的批量助手方法,将其传递给实例使用熊猫的dataframe.to_dict(orient ='records')方法.可以预先将元数据作为新列插入数据框,例如df['_index'] = 'my_index'等. 但是,我有理
..
我有一个pandas数据框,其中的一列为datatime,如下所示: data.ts_placed Out[68]: 1 2008-02-22 15:30:40 2 2008-03-20 16:56:00 3 2008-06-14 21:26:02 4 2008-06-16 10:26:02 5 2008-06
..
背景 我有一个大数据框,其中包含2个级别的列,但有1个级别的行,并且我尝试按以下方式对其进行排序: 0级:按字母顺序; 级别1:自定义排序. 示例 import pandas as pd dictionary = {'A' : {'M': [1,2,3,4,5], 'L': [6,7,8,9,1],
..
我有一个很大的csv文件,它是呼叫者数据的日志. 我的文件的一小段: CompanyName High Priority QualityIssue Customer1 Yes User Customer1 Yes User Customer2 No U
..