敏捷数据科学 - 敏捷中的数据处理

在本章中,我们将重点关注结构化,半结构化和非结构化数据之间的区别.

结构化数据

结构化数据问题在表格中以行和列存储的SQL格式的数据.它包括一个关系密钥,它被映射到预先设计的字段中.结构化数据用于更大规模.

结构化数据仅占所有信息学数据的5%到10%.

半结构化数据

Sem结构数据包括不存在于关系数据库中的数据.它们包括一些可以更容易分析的组织属性.它包括将它们存储在关系数据库中的相同过程.半结构化数据库的示例是CSV文件,XML和JSON文档. NoSQL数据库被认为是半结构化的.

非结构化数据

非结构化数据代表80%的数据.它通常包括文本和多媒体内容.非结构化数据的最佳示例包括音频文件,演示文稿和网页.机器生成的非结构化数据的例子是卫星图像,科学数据,照片和视频,雷达和声纳数据.

卫星图像

上述金字塔结构特别关注数据量及其分散比率.

准结构化数据显示为输入非结构化和半结构化数据.在本教程中,我们将重点关注半结构化数据,这有利于敏捷方法论和数据科学研究.

半结构化数据没有正式的数据模型,但有明显的,通过分析得出的自描述模式和结构.