data-analysis相关内容
按照这篇文章的建议进行操作熊猫数据的趋势,我已经在一些数据上使用了numpy的 polyfit 。但是,它不允许我查看何时存在趋势,何时不存在趋势。我想知道我理解错了什么。 首先代码如下 import pandas 将plt 导入matplotlib.pyplot输入为np file =“ data.csv” df = pandas.read_csv(fi
..
我有这样的df _, 姓名级别状态 是高位打开 不高已关闭 否med已关闭 是低开 没有med被拒绝 没有高开 我正在尝试使用 index ='level',columns ='status',values =列和索引的出现次数之和创建一个数据透视表 我的代码: df _ ['temp '] = df _ ['level']。astype(bool).a
..
我在csv文件中有这样的列(我使用 read_csv('fileA.csv',parse_dates = ['ProcessA_Timestamp'])加载 项目ProcessA_Timestamp 'A'2014-06-08 03:32:20 'B'2014-06 -08 03:32:20 'A'2014-06-08 03:33:19 'C'2014-06-08 03:33:20
..
我有df之类的 邮票价值 0 00:00:00 2 1 00:00:00 3 2 01:00:00 5 转换时间Delta df ['stamp'] = pd.to_timedelta(df ['stamp']) 仅切片奇数索引并加30分钟, odd_df = pd.to_timedelta(df [1 :: 2] ['sta
..
我有一个数据框 df 为: Acct_Id Acct_Nm Srvc_Id Phone_Nm Phone_plan_value Srvc_Num 51 Roger 789 Pixel 30 1 51 Roger 800 iPhone 25 2 51 Roger 945 Galaxy 40 3 78 Anjay 100诺基亚50 1 78 Anjay 120 Oppo 3
..
我想使用 python3 构建零膨胀泊松模型。我在库 statsmodel 中发现了函数 statsmodels.discrete.count_model.ZeroInflatePoisson 。 我只是想知道如何使用它。看来我应该这样做: ZIFP(Y_train,X_train).fit()。 但是我想做的时候 X_test 进行预测。 它告诉我 X_test 的长度不
..
如何在python中将索引从“未命名”设置为数据框的第一行 将熊猫作为pd $ b导入 $ b df = pd.read_excel('example.xls','Day_Report',index_col = None,skip_footer = 31,index = False) df = df.dropna(how = 'all',axis = 1) df = df.drop
..
我有一个数据框, DF, 名称阶段描述 Sri 1 Sri是一个这两位好歌手中的一位 2感谢您阅读 Ram 1 Ram是板球运动员 ganesh 1的好司机 和一个列表, my_list = [“一个” ] 我尝试了mask = df [“ Description”]。str.contains('|'.join(my_list),na = False
..
假设我有下表: 原始数据框 我添加了一个名为“ status”的列,这是对(gender,senior_management),基本上是对:[(Female,True),(Male,True),(Male,False),...]等。 假设我正在寻找某些条件,因此我定义了列表: conditions = [(Female,True),(Male, False)] 我现
..
我是PyTables的新手,我想使用自然命名从HDF5检索数据集,但使用以下输入却遇到此错误: f = table.open_file(“ filename.h5”,“ r”) f.root.group-1.dataset-1.read() group / 没有一个名为 group $ b的孩子 $ b ,如果我尝试: f.root.group\-1.dataset\-
..
我有两个具有不同行号和列的数据框。这两个表都有很少的公共列,包括“客户ID”。这两个表的大小分别为11697行×15列和385839行×6列。客户ID在第二张表中可能重复。我想合并两个表,并希望使用Customer ID合并相似的列。如何使用python PANDAS做到这一点。 一张桌子看起来像这样- ,另一个看起来像这样- 我正在使用以下代码- pd.concat([df
..
我正在尝试分析 Airbnb 和便利设施列中的商品的大型数据集列出列出的设施。 例如, {“无线互联网”,“空调”,厨房,暖气,“消防 灭火器”,必需品,洗发水,壁炉} 和 {电视,“无线上网”,“空调”,厨房, “位于 大楼中的电梯”,暖气,“适合举办活动”,“烟雾探测器”,“一氧化碳 探测器”,“急救箱”,必需品,洗发水,“锁在卧室 门“,Hanger
..
我有一个df 键 0一个 1两个,一个 2“” 3五,一个 4“” 5二,四个 6四 7四,五 和两个列表, actual = [“一个”,“两个”] syn = [“四个”,“五个”] 我正在创建新行df [“ val”] 我正在努力获取 df [“ keys”] 中的单元格类别。如果 actual 中存在任何键,那么我
..
我有一个家庭作业,我需要根据美国人口数据获取一个CSV文件,并对内部数据进行一些数据分析。我需要找到针对我的州而存在的数据,并且对于初学者而言,需要运行线性回归分析来预测人口规模。 我一直在研究R几周后,经历了LinkedIn学习培训以及有关R的复数形式的2次不同的培训。我还尝试了寻找如何在R中进行线性回归分析的方法,并且当R出现时,我找到了大量的示例。 CSV数据的布局方式使每个状态
..
我有一些数据,其中包含许多不同的ID,以及在不同时间(t1,t2,t3等)的状态列表,我想生成一个表,其中提供有关不同类型的信息的信息。状态发生变化,因此样例数据看起来像这样(复制如下)。 xyz x 0 2 0 y 1 2 1 z 1 0 2 例如,这将显示 x 更改为 y 两次,而 y 一次更改为 x 。有人知道我怎么能在R中做到这一点吗? 样本数据:
..
最初我有这个TSV文件(示例): 名称类型qty cxfm 1C 0 d2 H50 2 g3g 1G 2 hb E37 1 nlx E45 4 所以我正在使用read.csv从.tsv文件中读取数据,但是我总是得到以下输出: 名称类型数量 1 cxfm 1C 0 2 d2 H50 2 3 g3g 1G 2 4 hb E37 1
..
我有这个熊猫数据框: 打开高价低价收盘价 TimeStamp 2016-06 -23 10:00:00 586.76 594.00 585.54 589.94 478.176973 2016-06-23 11:00:00 589.94 595.49 588.23 592.63 448.689485 2016-06-23 12:00:00 592.63 592.63 1.50 5
..
我有一个问题,我需要获取2个具有2个不同值的特定记录,并找出它们之间的差额。这需要为每个设备完成。 让我们以下表为例 DevID原因金额DateTime -------------------------------------------------- 99 5 84 18-12-2016 18:10 99 0 35 18-12-2016 18:11 99 0 80 1
..
我有一个像这样的评论数据框(df1) 评论 苹果笔记本电脑真的很好上班时,应该给他们买 苹果Iphone太贵了,我们可以诉诸其他品牌 Google搜索是最好的搜索引擎 如今,Android手机很棒 我我今天丢了我的签证卡 我还有另一个商户名称数据框,看起来像这样(df2): Merchant_Name Google Android Geoni Vi
..
我有这样的df, ABCDE 1 2 3 0 2 2 0 7 1 1 3 4 0 3 0 0 0 3 4 3 我正在尝试用第一行和对应列的0值行之间的mean()值替换所有0, 我的预期输出是 ABCDE 1.0 2.00 3.000000 0.0 2.0 2.0 1.00 7.000000 1.0 1.0 3.0 4.00
..