大数据分析 - 方法论

在方法论方面,大数据分析与传统的实验设计统计方法有很大不同.分析从数据开始.通常我们以解释响应的方式对数据建模.此方法的目标是预测响应行为或了解输入变量与响应的关系.通常在统计实验设计中,开发实验并且因此检索数据.这允许以统计模型可以使用的方式生成数据,其中某些假设保持独立,正态和随机化.

在大数据分析中,我们被提供给数据.我们无法设计出满足我们最喜欢的统计模型的实验.在大规模的分析应用中,只需要清理数据就可以完成大量的工作(通常是80%的工作量),因此它可以被机器学习模型使用.

我们没有一种独特的方法可以在真正的大规模应用中使用.通常,一旦确定了业务问题,就需要一个研究阶段来设计要使用的方法.然而,一般指导原则是相关的,并且几乎适用于所有问题.

大数据分析中最重要的任务之一是统计建模,意思是监督和无监督分类或回归问题.一旦数据被清理和预处理,可用于建模,就应该注意评估具有合理损失度量的不同模型,然后在实施模型后,应报告进一步的评估和结果.预测建模的一个常见缺陷是仅实施模型而从不测量其性能.