敏捷数据科学 - 简介

敏捷数据科学是一种将数据科学与敏捷方法用于Web应用程序开发的方法.它侧重于适用于组织变革的数据科学过程的输出.数据科学包括构建描述研究过程的应用程序,包括分析,交互式可视化以及现在应用的机器学习.

敏捷数据科学的主要目标是减去;

文档和指导解释性数据分析,以发现并遵循
引人注目的产品的关键路径.

敏捷数据科学按以下原则组织并减去;

连续迭代

此过程涉及使用创建表,图表,报告和预测进行连续迭代.构建预测模型需要多次迭代特征工程,并提取和生成洞察力.

中间输出

这是生成的输出的轨道列表.甚至说失败的实验也有输出.跟踪每次迭代的输出将有助于在下一次迭代中创建更好的输出.

原型实验

原型实验包括分配任务并根据实验.在给定的任务中,我们必须迭代以获得洞察力,这些迭代可以最好地解释为实验.

数据集成

软件开发生命周期包括不同的阶段,数据必不可少;

  • 客户

  • 开发人员,

  • 业务

数据的整合为更好的前景和产出铺平了道路.

金字塔数据值

金字塔数据值

上述金字塔值描述了"敏捷数据科学"开发所需的各个层.它首先根据需求和管道单个记录收集记录.在清理和汇总数据之后创建图表.聚合数据可用于数据可视化.使用适当的结构,元数据和数据标签生成报告.从顶部开始的第二层金字塔包括预测分析.预测层是创建更多值的地方,但有助于创建专注于特征工程的良好预测.

最顶层涉及有效驱动数据值的操作.这种实现的最好例证是"人工智能".