cluster-computing相关内容

集群配置中的Hibernate搜索?

我有一个我正在开发的Java Web应用程序,使用JBoss Seam作为应用程序框架。我想利用Hibernate Search来提供实体搜索功能。整合已经很好,我正在接近部署。生产中应用程序的设置为: 2个(或更多)Tomcat应用服务器,负载均衡 PostgreSQL数据库在后端 我的问题是,如何配置Hibernate Search以便更新本地Lucene索引在应用程序服务器#2 ..
发布时间:2018-06-07 19:57:41 Java开发

在Heroku中运行带有集群模块的Node.js应用程序是没有意义的?

Heroku 可以运行 Web Dynos 和 工作者Dynos 使负责路线 和工人工人Dynos 负责处理工作。 由于 Dyno , 看来在Heroku上使用Node.js集群模块对我来说毫无意义。 由于Node.js集群模块将使用服务器CPU的所有内核,所以对我而言, 和 Dyno 似乎是CPU核心的虚拟单元。 我是对吗?或者,它仍然 ..
发布时间:2018-06-07 10:38:06 其他开发

hadoop集群仅使用主节点或所有节点

我创建了一个 4节点hadoop群集。我启动所有datanode,namenode资源管理器等。 要查找我的所有节点是否在工作,我尝试了以下过程: 第1步。当所有节点都处于活动状态时运行我的程序 第2步。仅当已激活。 两种情况下的完成时间几乎都相同。 所以,我想知道是否有其他方法可以让我知道在运行程序时实际使用了多少个节点。 解决方案 在聊天中讨论。这个问题是 ..
发布时间:2018-06-01 12:44:09 Java开发

如何收集Hadoop集群大小/内核数量信息

我在由多台机器组成的集群上运行我的hadoop作业,这些机器的大小未知(主内存,内核数量,每台机器的大小等)。如果没有使用任何操作系统专用库(* .so文件,我的意思是说),是否有任何类或工具用于hadoop本身或一些额外的库,我可以在Hadoop MR作业正在执行时收集信息: 作业使用的内核总数/内核数量 总可用主内存/已分配可用主内存 li> 每台机器上的存储空间总量/分配的存储空间 ..
发布时间:2018-05-31 20:24:11 分布式计算/Hadoop

Nutch在Hadoop 2.x中

我有一个运行Hadoop 2.2.0和HBase 0.98.1的三节点集群,我需要在其上使用Nutch 2.2.1爬行程序。但它只支持1.x分支的Hadoop版本。现在我可以向我的集群提交一个Nutch作业,但是它失败了,并且java.lang.NumberFormatException异常。 所以我的问题很简单:我如何让Nutch在我的环境中工作? 现在它是不可能将Nutch 2.2.1(Go ..
发布时间:2018-05-31 20:12:07 分布式计算/Hadoop

Hadoop:如何防止失败的任务使整个工作失败?

我正在运行一个hadoop工作,比如说1000个任务。我需要这份工作来尝试运行每项任务,但许多任务不会完成,而是会抛出异常。我无法改变这种行为,但我仍然需要从没有失败的任务中获得的数据。 我怎样才能确保Hadoop完成所有1000个任务遇到大量失败的任务? 解决方案 在您的情况下,您可以设置允许失败的任务的最大百分比而不会触发工作失败。使用 mapred.max.map.fa ..
发布时间:2018-05-31 19:49:49 Java开发

映射群集上的作业性能

假设我有15个数据块和两个群集。第一个群集有5个节点,复制因子是1,而第二个群集的复制因子是3.如果我运行我的地图作业,我应该期望地图作业的性能或执行时间有任何变化吗? 解决方案当JobTracker将作业分配给HDFS上的TaskTracker时,根据数据的局部性将作业分配给特定节点(首选项是同一节点,然后是同一网络切换/帧)。通过具有不同的复制因素,您可以限制JobTracker为数据分 ..

Wordcount C ++ Hadoop管道不起作用

我试图在C ++中运行wordcount的例子,就像这个链接描述的那样: 使用C ++运行WordCount程序。编译工作正常,但是当我试图运行我的程序时,出现了一个错误: blockquote bin / hadoop pipes -conf ../dev /word.xml - 输入testtile.txt - 输出wordcount-out 11/06/06 14:23:40 ..
发布时间:2018-05-31 19:45:17 C/C++开发

Hadoop:将多个IP地址绑定到集群NameNode

我在Softlayer上有一个四节点Hadoop集群。主(NameNode)具有用于外部访问的公共IP地址和用于集群访问的私有IP地址。从节点(datanodes)具有私有IP地址,我试图连接到主节点,而不需要为每个从属节点分配公有IP地址。 我发现设置 fs.defaultFS 到NameNode的公共地址允许外部访问,除了NameNode只监听传入连接的地址而不是私有地址。因此,我在Da ..

Hadoop虚拟集群vs单机

我有一个关于速度&性能 在一台机器上使用多个虚拟化节点,在单台机器上使用单个节点。 哪一个性能更好? 我之所以问这个问题,是因为我目前在一台机器上学习hadoop,并且在互联网上看到一些教程,显示了多个虚拟节点在一台机器上。 预先感谢您 解决方案 有总是有一些虚拟化带来的开销,所以除非真正需要,否则我不会建议在虚拟化环境中运行Hadoop。 这就是说,我知道VMW ..

在hadoop集群中,应该在所有节点上安装配置单元吗?

我是Hadoop / Hive的新手,我刚开始阅读文档。有很多关于在集群模式下安装Hadoop的博客。另外,我知道Hive在Hadoop之上运行。 我的问题是:Hadoop安装在所有集群节点上。我应该在所有群集节点上安装Hive还是只在主节点上安装Hive? 解决方案 不,它不是你安装的东西在工作者节点上。 Hive是一个Hadoop客户端。根据您在 Hive网站上看到的说明运行Hive。 ..
发布时间:2018-05-31 19:13:40 分布式计算/Hadoop

在Hadoop中,框架在哪里将Map任务的输出保存在普通的Map-Reduce应用程序中?

我试图找出Map任务的输出在被Reduce任务使用之前保存到磁盘的哪个地方。 注意: - 使用的版本是带有新API的Hadoop 0.20.204 例如,覆盖Map类中的map方法时: public void map(LongWritable key,Text value,Context context)throws IOException,InterruptedExcepti ..
发布时间:2018-05-31 19:11:36 Java开发

如何在纱线客户端模式下在远程主节点上提交点火作业?

我需要将spark应用程序/作业提交到远程Spark群集。我目前在我的机器上激发并将主节点的IP地址作为纱线客户端。顺便说一句,我的机器不在集群中。 我使用这个命令提交我的作业 ./ spark-submit --class SparkTest - 部署模式客户端/home/vm/app.jar 我将我的主人的地址硬编码到我的应用中表格 val spark_ ..
发布时间:2018-05-31 19:10:43 分布式计算/Hadoop

Apache Helix vs YARN

Apache Helix和Hadoop YARN(MRv2)有什么区别?有没有人有这两种技术的经验?有人可以向我解释Helix优于YARN的优缺点吗?为什么LinkedIn人员开发自己的集群管理而不是使用YARN? 在此先感谢 Tobi 解决方案 虽然Helix和YARN都提供了管理分布式应用程序的功能,但两者之间存在重要差异。 b $ y YARN主要在一组机器上提供资源管理功 ..
发布时间:2018-05-31 19:05:45 Java开发

有没有将节点添加到正在运行的Hadoop集群的方法?

我一直在玩Cloudera,并在开始工作之前定义了群集的数量,然后使用cloudera管理器确保一切正在运行。 我正在开发一个新项目,而不是使用hadoop使用消息队列分发工作,但工作结果存储在HBase中。我可能会启动10台服务器来处理作业并存储到Hbase,但是我想知道如果以后我决定添加更多的工作节点,我可以轻松地(读取:可编程)使它们自动连接到正在运行的群集,以便它们可以本地添加到群集 ..
发布时间:2018-05-31 19:05:05 分布式计算/Hadoop

Hadoop和Python:禁用排序

我已经意识到,当使用Python代码运行Hadoop时,无论是mapper还是reducer(不确定是哪个)在输出之前都会对输出进行排序,然后由 reducer.py 打印输出。目前它似乎按照字母数字排序。我想知道是否有一种方法可以完全禁用此功能。我希望程序的输出基于从 mapper.py 打印的顺序。我在Java中找到了答案,但是没有找到Python的答案。我需要修改 mapper.py 或者命 ..
发布时间:2018-05-31 18:58:21 Python