data-analysis相关内容

为什么斜率不能很好地衡量数据趋势?

按照这篇文章的建议进行操作熊猫数据的趋势,我已经在一些数据上使用了numpy的 polyfit 。但是,它不允许我查看何时存在趋势,何时不存在趋势。我想知道我理解错了什么。 首先代码如下 import pandas 将plt 导入matplotlib.pyplot输入为np file =“ data.csv” df = pandas.read_csv(fi ..
发布时间:2020-10-15 21:36:19 Python

如何使用带有重复索引的数据透视表

我有这样的df _, 姓名级别状态 是高位打开 不高已关闭 否med已关闭 是低开 没有med被拒绝 没有高开 我正在尝试使用 index ='level',columns ='status',values =列和索引的出现次数之和创建一个数据透视表 我的代码: df _ ['temp '] = df _ ['level']。astype(bool).a ..
发布时间:2020-10-15 21:36:17 Python

Python中的zeroinflatedpoisson模型

我想使用 python3 构建零膨胀泊松模型。我在库 statsmodel 中发现了函数 statsmodels.discrete.count_model.ZeroInflatePoisson 。 我只是想知道如何使用它。看来我应该这样做: ZIFP(Y_train,X_train).fit()。 但是我想做的时候 X_test 进行预测。 它告诉我 X_test 的长度不 ..
发布时间:2020-10-15 21:36:05 其他开发

在熊猫数据框中使用查询

假设我有下表: 原始数据框 我添加了一个名为“ status”的列,这是对(gender,senior_management),基本上是对:[(Female,True),(Male,True),(Male,False),...]等。 假设我正在寻找某些条件,因此我定义了列表: conditions = [(Female,True),(Male, False)] 我现 ..
发布时间:2020-10-15 21:35:49 Python

Python Pandas-Concat两个具有不同行数和列数的数据框

我有两个具有不同行号和列的数据框。这两个表都有很少的公共列,包括“客户ID”。这两个表的大小分别为11697行×15列和385839行×6列。客户ID在第二张表中可能重复。我想合并两个表,并希望使用Customer ID合并相似的列。如何使用python PANDAS做到这一点。 一张桌子看起来像这样- ,另一个看起来像这样- 我正在使用以下代码- pd.concat([df ..
发布时间:2020-10-15 21:34:32 Python

如何将字符串拆分为不同的变量?

我正在尝试分析 Airbnb 和便利设施列中的商品的大型数据集列出列出的设施。 例如, {“无线互联网”,“空调”,厨房,暖气,“消防 灭火器”,必需品,洗发水,壁炉} 和 {电视,“无线上网”,“空调”,厨房, “位于 大楼中的电梯”,暖气,“适合举办活动”,“烟雾探测器”,“一氧化碳 探测器”,“急救箱”,必需品,洗发水,“锁在卧室 门“,Hanger ..
发布时间:2020-10-15 21:33:09 其他开发

用R进行总体数据的线性回归分析

我有一个家庭作业,我需要根据美国人口数据获取一个CSV文件,并对内部数据进行一些数据分析。我需要找到针对我的州而存在的数据,并且对于初学者而言,需要运行线性回归分析来预测人口规模。 我一直在研究R几周后,经历了LinkedIn学习培训以及有关R的复数形式的2次不同的培训。我还尝试了寻找如何在R中进行线性回归分析的方法,并且当R出现时,我找到了大量的示例。 CSV数据的布局方式使每个状态 ..
发布时间:2020-10-15 21:32:01 其他开发

如何在R中生成转换类型表?

我有一些数据,其中包含许多不同的ID,以及在不同时间(t1,t2,t3等)的状态列表,我想生成一个表,其中提供有关不同类型的信息的信息。状态发生变化,因此样例数据看起来像这样(复制如下)。 xyz x 0 2 0 y 1 2 1 z 1 0 2 例如,这将显示 x 更改为 y 两次,而 y 一次更改为 x 。有人知道我怎么能在R中做到这一点吗? 样本数据: ..
发布时间:2020-10-15 21:31:56 其他开发

过滤熊猫数据框

我有这个熊猫数据框: 打开高价低价收盘价 TimeStamp 2016-06 -23 10:00:00 586.76 594.00 585.54 589.94 478.176973 2016-06-23 11:00:00 589.94 595.49 588.23 592.63 448.689485 2016-06-23 12:00:00 592.63 592.63 1.50 5 ..
发布时间:2020-10-15 21:31:47 Python

属于同一组但存储在两行中的值之差

我有一个问题,我需要获取2个具有2个不同值的特定记录,并找出它们之间的差额。这需要为每个设备完成。 让我们以下表为例 DevID原因金额DateTime -------------------------------------------------- 99 5 84 18-12-2016 18:10 99 0 35 18-12-2016 18:11 99 0 80 1 ..
发布时间:2020-10-15 21:31:45 数据库

基于R中另一个数据帧中的列填充数据帧中的列

我有一个像这样的评论数据框(df1) 评论 苹果笔记本电脑真的很好上班时,应该给他们买 苹果Iphone太贵了,我们可以诉诸其他品牌 Google搜索是最好的搜索引擎 如今,Android手机很棒 我我今天丢了我的签证卡 我还有另一个商户名称数据框,看起来像这样(df2): Merchant_Name Google Android Geoni Vi ..
发布时间:2020-10-15 21:30:40 其他开发