Hadoop - 大数据概述

"世界上90%的数据是在过去几年中产生的."

由于社交网站等新技术,设备和通信手段的出现,金额人类每年产生的数据正在快速增长.从2003年开始到2003年,我们生成的数据量为50亿千兆字节.如果你以磁盘的形式堆积数据,它可能会填满整个足球场.在 2011 中每两天创建相同的金额,在 2013 中每隔十分钟创建相同的金额.这个比率仍在大幅增长.虽然所有这些信息都是有意义的,并且在处理时很有用,但却被忽略了.

什么是大数据?

大data 是无法使用传统计算技术处理的大型数据集的集合.它不是单一的技术或工具,而是已成为一个完整的主题,涉及各种工具,技术和框架.

大数据下的内容是什么?

大数据涉及不同设备和应用程序生成的数据.下面给出了一些属于大数据保护范围的字段.

  • 黑匣子数据 : 它是直升机,飞机和喷气式飞机等的一个组成部分.它捕捉飞行机组人员的声音,麦克风和耳机的录音以及飞机的性能信息.

  • 社交媒体数据 :  Facebook和Twitter等社交媒体持有全球数百万人发布的信息和观点.

  • 证券交易所数据 :  ;股票交易所数据包含有关客户对不同公司股票做出的"买入"和"卖出"决策的信息.

  • 电力网格数据 : 电网数据保存特定节点相对于基站消耗的信息.

  • 传输数据 : 运输数据包括车辆的型号,容量,距离和可用性.

  • 搜索引擎数据 : 搜索引擎从不同的数据库中检索大量数据.

大数据

因此,大数据包括大量,高速和可扩展的各种数据.其中的数据有三种类型.

  • 结构化数据 : 关系数据.

  • 半结构化数据 :  XML数据.

  • 非结构化数据 :  Word,PDF,文本,媒体日志.

大数据的好处

  • 使用Facebook等社交网络中保存的信息,营销机构正在了解其广告系列,促销活动和其他广告媒介的响应.

  • 使用社交媒体中的信息,如消费者的偏好和产品认知,产品公司和零售组织正在计划他们的生产.

  • 使用有关患者既往病史的数据,医院提供更好,更快捷的服务.

大数据技术

大数据技术对于提供更准确的分析非常重要,这可能会带来更具体的决策,从而提高运营效率,降低成本并降低业务风险.

要利用大数据的强大功能,您需要一个基础设施可以实时管理和处理大量结构化和非结构化数据,并可以保护数据隐私和安全.

市场上有来自不同供应商的各种技术,包括亚马逊,IBM,微软等,处理大数据.在研究处理大数据的技术时,我们检查以下两类技术 :

运营大数据

这包括像MongoDB这样的系统为数据主要捕获和存储的实时交互式工作负载提供操作功能.

NoSQL大数据系统旨在利用过去出现的新云计算架构十年允许大规模计算以低成本和高效率运行.这使得操作大数据工作负载更易于管理,更便宜,实施更快.

一些NoSQL系统可以基于实时数据提供对模式和趋势的洞察,只需最少的编码即可需要数据科学家和其他基础设施.

分析大数据

这些包括大规模并行处理(MPP)数据库系统和MapReduce等系统可以触及大部分或全部数据的回顾性和复杂分析的分析能力.

MapReduce提供了一种分析数据的新方法,它与SQL提供的功能互补,并且基于系统可以从单个服务器扩展到数千个高端和低端机器的MapReduce.

这两类技术是互补的,经常一起部署.

运营与分析系统


OperationalAnalytical
Latency1 ms - 100 ms1 min - 100 min
Concurrency1000 - 100,0001 - 10
Access PatternWrites and ReadsReads
QueriesSelectiveUnselective
Data ScopeOperationalRetrospective
End UserCustomerData Scientist
TechnologyNoSQLMapReduce, MPP Database

与大数据相关的主要挑战如下:大数据挑战

  • C.适用数据

  • 策展

  • 存储

  • 搜索

  • 分享

  • 转移

  • 分析

  • 演示文稿

为了应对上述挑战,组织通常会借助企业服务器.