亚马逊网络服务 - 弹性MapReduce

Amazon Elastic MapReduce(EMR)是一种Web服务,它提供了一个托管框架,可以轻松,经济高效地运行数据处理框架,如Apache Hadoop,Apache Spark和Presto方式.

它用于数据分析,网络索引,数据仓库,财务分析,科学模拟等.

如何设置亚马逊EMR?

按照以下步骤设置Amazon EMR :

步骤1 : 登录AWS账户并在管理控制台上选择Amazon EMR.

步骤2 : 为群集日志创建Amazon S3存储桶&输出数据. (程序在Amazon S3部分详细说明)

第3步 : 启动Amazon EMR集群.

以下是创建集群并将其启动到EMR的步骤.

  • 使用此链接打开Amazon EMR控制台 :   https://console.aws.amazon.com/elasticmapreduce/home

  • 选择create cluster并在Cluster Configuration页面上提供所需的详细信息.

群集配置

  • 将"标签"部分选项保留为默认值

  • 在"软件配置"部分,将选项调整为默认值.

Spark

  • 开在"文件系统配置"部分中,默认情况下保留EMRFS的选项. EMRFS是HDFS的一种实现,它允许Amazon EMR集群在Amazon S3上存储数据.

服务器端加密

  • 在"硬件配置"部分,选择EC2实例中的m3.xlarge键入字段并将其他设置保留为默认值.单击下一步按钮.

硬件配置

  • 在安全和访问部分,对于EC2密钥对,从EC2密钥对字段中的列表中选择该对并保留其他设置默认情况下.

  • 在"引导操作"部分,保留默认设置的字段,然后单击"添加"按钮.引导操作是在Hadoop在每个群集节点上启动之前在设置期间执行的脚本.

  • 在"步骤"部分,将设置保留为默认值并继续.

  • 单击"创建群集"按钮,将打开"群集详细信息"页面.这是我们应该将Hive脚本作为集群步骤运行并使用Hue Web界面查询数据的地方.

第4步 : 使用以下步骤运行Hive脚本.

  • 打开Amazon EMR控制台并选择所需的群集.

  • 移至"步骤"部分并展开它.然后单击"添加"步骤按钮.

  • 将打开"添加步骤"对话框.填写必填字段,然后单击"添加"按钮.

流程序

  • 要查看Hive脚本的输出,请使用以下步骤 :

    • 打开Amazon S3控制台并选择用于输出数据的S3存储桶.

    • 选择输出文件夹.

    • 查询将结果写入单独的文件夹.选择 os_requests .

    • 输出存储在文本文件中.此文件可以下载.

Amazon EMR的好处

以下是亚马逊EMR的好处&减去;

  • 容易使用 :  Amazon EMR易于使用,即可以轻松设置群集,Hadoop配置,节点配置等.

  • 可靠 &减去;它在重试失败的任务并自动替换性能不佳的实例的意义上是可靠的.

  • 弹性 :  Amazon EMR允许计算大量实例以处理任何规模的数据.它可以轻松增加或减少实例数量.

  • 安全 : 它会自动配置Amazon EC2防火墙设置,控制对实例的网络访问,在Amazon VPC中启动集群等.

  • 灵活&minus ;它允许完全控制集群和对每个实例的root访问权限.它还允许安装其他应用程序并根据要求自定义您的群集.

  • 经济高效 : 它的定价很容易估算.它每小时收取一次使用的费用.