数据分析 - 过程

数据分析是一个收集,转换,清理和建模数据的过程,目的是发现所需的信息.如此获得的结果被传达,提出结论并支持决策.数据可视化有时用于描绘数据,以便于发现数据中的有用模式.术语"数据建模"和"数据分析"具有相同的含义.

数据分析过程包括以下阶段,这些阶段本质上是迭代的 :

  • 数据要求规范

  • 数据收集

  • 数据处理

  • 数据清理

  • 数据分析

  • 沟通

数据分析过程

数据要求规范

分析所需的数据基于一个问题或实验.基于指导分析的那些要求,确定作为分析输入所必需的数据(例如,人口的人口).可以指定和获得关于人口(例如,年龄和收入)的特定变量.数据可以是数字或分类.

数据收集

数据收集是收集有关被识别为数据要求的目标变量的信息的过程.重点是确保准确和诚实地收集数据.数据收集确保收集的数据准确,以便相关决策有效.数据收集提供了衡量基准和改进目标.

从组织数据库到网页信息等各种来源收集数据.由此获得的数据可能不是结构化的并且可能包含不相关的信息.因此,收集的数据需要进行数据处理和数据清理.

数据处理

必须处理收集的数据或组织分析.这包括根据相关分析工具的需要构建数据.例如,可能必须将数据放入电子表格或统计应用程序中的表中的行和列中.可能必须创建数据模型.

数据清理

处理和组织的数据可能不完整,包含重复项或包含错误.数据清理是防止和纠正这些错误的过程.有几种类型的数据清理取决于数据类型.例如,在清理财务数据时,可以将某些总计与可靠的公布数字或定义的阈值进行比较.同样,定量数据方法可用于异常值检测,随后将在分析中排除.

数据分析

处理,组织和处理的数据清理后即可进行分析.各种数据分析技术可用于根据需求理解,解释和得出结论.数据可视化也可用于检查图形格式的数据,以获得有关数据中消息的其他见解.

统计数据模型,如相关,回归分析,可用于识别数据变量之间的关系.这些描述数据的模型有助于简化分析和传达结果.

该过程可能需要额外的数据清理或其他数据收集,因此这些活动本质上是迭代的./p>

通信

数据分析的结果将以用户要求的格式报告,以支持他们的决策和进一步的行动.来自用户的反馈可能会导致额外的分析.

数据分析师可以选择数据可视化技术,例如表格和图表,这有助于清晰有效地向用户传达消息.分析工具提供了使用颜色代码和表格和图表格式来突出显示所需信息的功能.