Hadoop的2.7,星火,蜂巢,JasperReports的,炒到 - Architecuture [英] Hadoop 2.7, Spark, Hive, JasperReports, Scoop - Architecuture

查看:304
本文介绍了Hadoop的2.7,星火,蜂巢,JasperReports的,炒到 - Architecuture的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

这一切的第一个没有寻求帮助的问题,以逐步部署以下组件的步骤。什么我问的是关于如何架构应设计一个建议。我正打算做的是开发利用现有的数据报告平台。以下是我的数据采集通过研究。

我有一个现有的关系型数据库里面有大量的记录。所以我用

I have an existing RDBMS which has large number of records. So I'm using


  • 炒到 - 提取RDBMS数据的Hadoop

  • 的Hadoop - 存储平台

  • 蜂巢 - 数据仓库

  • 星火 - 由于蜂巢更像是蜂巢批处理星火将加快东西

  • JasperReports的 - 要生成报表

我做了什么就知道了部署在Hadoop集群2如下

What I have done up to know is deployed a Hadoop 2 cluster as follows


  • 192.168.X.A - 的Namenode

  • 192.168.X.B - 2的Namenode

  • 192.168.X.C - SLAVE1

  • 192.168.X.D - SLAVE2

  • 192.168.X.E - Slave3

我的问题是


  • 在哪一个节点,我应该部署火花? A或B,因为我要支持故障转移。这就是为什么我有基于B。配置一个单独的NameNode

  • 我应该对每一个实例部署火花?谁是工作节点应该是什么?

  • 在哪一个节点应该我部署蜂巢?有没有更好的替代蜂巢?

  • 我应该如何连接JasperReports的?和在哪里?蜂巢或火花?

请告诉我来设计架构以合适的方式?请提供详细阐述答案。

Please tell me a suitable way to design the architecture? Please provide a elaborated answer.

需要注意的是,如果你能提供类似性质的任何技术指导或个案研究这将是非常有益的。

推荐答案

您已经想通了,过了!我所有的答案都仅是一般的意见,并根据数据可能彻底改变,要执行的操作的味道。也意味着问题的数据和这种操作的结果是关键任务,我认为如此。

You've figured it out, already! All my answers are merely general opinions and might drastically change depending on data, flavors of operations to be performed. Also question implies data and results of such operations are mission critical, I assumed so.

在蜂巢星火将加快东西

不一定是正确的。传闻证据,<一个href=\"http://blog.cloudera.com/blog/2014/09/new-benchmarks-for-sql-on-hadoop-impala-1-4-widens-the-performance-gap/\"相对=nofollow>这个帖子(由Cloudera的),证明了完全相反。实际上有朝向相反的举动,即蜂箱星火

Not necessarily correct. Anecdotal evidence, this post (by cloudera), proves the quite opposite. There is actually a move towards the vice-versa, i.e. Hive on Spark.

在哪一个节点,我应该部署火花? A或B,因为我要支持故障转移。这就是为什么我对B.配置一个单独的NameNode
  我是否应该对每一个实例部署火花?谁是工作节点应该是什么?

In which node should I deploy Spark? A or B, Given that I want to support fail-over. That's why I have a separate namenode configured on B. Should I deploy Spark on each and every instances? Who are the worker nodes should be?

肯定 - 在大多数情况下,无论如何。将A或B为主,其余的可以工作节点。如果你不希望有SPOF在你的架构,请参见高可用性部分火花文档的,需要一些额外的工作。

Definitely - in most cases anyway. Set A or B as master, all of the rest can be worker nodes. If you don't want to have SPOF in your architecture, see high availability section of spark documentation, requires a bit of extra work.

有没有更好的替代蜂巢?

Is there a better alternative to Hive?

这一个是主观和具体任务。如果SQL查询感觉自然和适合的任务,还有的因帕拉通过Cloudera的,号称要执行和量级比蜂巢更快推广。但在排序的Hadoop的Apache生态系统的一个陌生人。火花-and如果你是罚款打字有点蟒蛇或scala-你可以做类似SQL的查询,同时仍享受前pressive电源这些语言提供。

This one is both subjective and task-specific. If SQL querying feels natural and fits the task, there is also Impala promoted by Cloudera, which claims to perform and order of magnitude faster than Hive. But is sort of a stranger in Apache Hadoop ecosystem. With Spark -and if you are fine typing a bit of python or scala- you can do SQL-like querying while still enjoying the expressive power these languages provide.

我应该如何连接JasperReports的?和在哪里?蜂巢或火花?

How should I connect JasperReports? And to where? To Hive or Spark?

不知道这一个。

这篇关于Hadoop的2.7,星火,蜂巢,JasperReports的,炒到 - Architecuture的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆