hadoop-yarn相关内容
以下是我的配置: **mapred-site.xml**地图-mb:4096 个选项:-Xmx3072m减少-mb:8192 选择:-Xmx6144m**yarn-site.xml**资源内存-mb:40GB最小分配-mb:1GB hadoop 集群中的 Vcores 显示 8GB,但我不知道如何计算或在哪里配置它. 希望有人可以帮助我. 解决方案 简答 如果您只是在单
..
我已经设置了 Hadoop 2.3.0 的 2 节点集群.它工作正常,我可以成功运行分布式shell-2.2.0.jar 示例.但是当我尝试运行任何 mapreduce 作业时,我得到了错误.我已经根据 (http://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide)但我收到以下错误
..
我了解了 MRv1 的工作原理.现在我正在尝试了解 MRv2.. YARN 中的 Application Manager 和 Application Master 有什么区别? 解决方案 Application Master 和 Application Manager 这两个术语经常互换使用.实际上,Application Master 是请求、启动和监控应用程序特定资源的主要容器,而 A
..
这个参数的官方说明如下: 用于执行 MapReduce 作业的运行时框架.可以是本地、经典或纱线之一. 我知道 'yarn' 的值适用于 MRv2,它会将 mapreduce 作业提交给资源管理器.但是本地和经典之间有什么区别?哪个对应MRv1? 非常感谢! 解决方案 你说得对,“yarn"代表MRv2.“经典"适用于 MRv1,“本地"适用于 MR 作业的本地运行.但为什么需要
..
YARN 是第二代 Hadoop,不再使用 jobtracker 守护进程,而是用资源管理器代替它.但是为什么在 mapred-site.xml hadoop 2 上有一个 mapreduce.jobtracker.address 属性呢? 解决方案 你是对的.在 YARN 中,jobtracker 不再存在.因此,作为客户端配置的一部分,您不必指定属性 mapreduce.jobtrac
..
我已经在 3 个集群上设置了 hadoop2.2.0.一切都很顺利.NodeManager 和 Datanode 在每个集群中启动.但是,当我运行 wordcount 示例时,会发生 100% 的映射,并且会出现以下异常: 地图 100% 减少 0%28 年 13 月 11 日 09:57:15 信息 mapreduce.Job:任务 ID:尝试_1385611768688_0001_r_000
..
我刚刚开始使用 Hadoop 2. 使用基本配置安装后,我总是无法运行任何示例.有没有人看到这个问题,请帮助我? 错误类似于 错误启动 MRAppMasterjava.lang.RuntimeException: java.lang.reflect.InvocationTargetException 这是日志 20152015-01-06 11:56:23,194 INFO [m
..
我已经建立了一个 3 节点的 Apache Hadoop 集群.在主节点上,我可以看到 [hadoop-conf]$ jps16856 数据节点17051 次要名称节点16701 名称节点21601 资源管理器21742 节点管理器18335 作业历史服务器 在从节点上,我看到了 [fedora20-template dfs]$ jps28677 日元28510 节点管理器27449 数据节
..
我试图在 Mac OS X EL Captain 10.11 上使用 Java 1.7 SDK 和 Hadoop2.7.1 运行一个简单的 wordcount MapReduce 程序,我在容器日志“stderr"中收到以下错误消息/bin/bash:/bin/java: 没有这样的文件或目录 应用程序日志- 5/11/27 02:52:33 WARN util.NativeCodeLoa
..
我有一个由 1 个主节点(namenode、secondarynamenode、resourcemanager)和 2 个从节点(datanode、nodemanager)组成的小型集群. 我已经在master的yarn-site.xml中设置了: yarn.scheduler.minimum-allocation-mb:512 yarn.scheduler.maximum-allo
..
Yarn 的基础设施层与原始 map reduce 架构的不同之处在于: 在 YARN 中,作业跟踪器分为两个不同的守护进程,称为 Resource Manager 和 Node Manager(特定于节点).资源管理器只管理对不同作业的资源分配,除了包含一个调度器,它只负责调度作业,而不用担心任何监控或状态更新.不同的资源,如内存、cpu 时间、网络带宽等,都被放入一个称为 Resourc
..
我正在从我的 Eclipse 中运行 WordCount 程序.我尝试使用 Hadoop1.x 运行良好.在 hadoop2.x 上运行时遇到问题 我试过了1)将所有 xml 添加到我的类路径中.2)也尝试了conf.set(),在conf对象中设置xml属性. 还在日志中显示:-没有可用于容器 container_1394042163908_0573_01_000001 的日志
..
提前感谢您的帮助 我正在运行以下版本: Hadoop 2.2动物园管理员 3.4.5Hbase 0.96蜂巢 0.12 当我转到 http://:50070 时,我能够正确地看到 2 个节点正在运行. 问题是当我访问 http://:8088 时,它显示 0 个节点正在运行. 我知道 :8088 反映了资源管理器并显示了正在运行的节点管理器的数量.守护进程全部启动,但
..
我正在设置一个 Hadoop YARN 集群,并且我正在使用一台机器作为主机和从机.当我使用以下命令启动 YARN 时,它会在从属节点上启动节点管理器,但不会在主节点上启动. sbin/yarn-daemons.sh 启动节点管理器 我有一个master,也是slave,然后我在集群中有另外两个slave,slave中的nodemanagers正在正常启动. 我得到的错误: org.a
..
我有一个非常简单的 NextJS 9.3.5 项目.目前,它只有一个页面/用户和一个 pages/api/users,用于从本地 MongoDB 表中检索所有用户 使用“next dev"在本地构建良好但是,它在“下一次构建"时失败并出现 ECONNREFUSED 错误 页面/用户 从“node-fetch"导入获取从“下一个/链接"导入链接导出异步函数 getStaticProps
..
我正在尝试在 BigInsights on Cloud 4.2 Enterprise 上运行一个访问 Hive 表的 pyspark 脚本. 首先我创建 hive 表: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive蜂巢>CREATE TABLE pokes (foo INT, bar STRING);行耗时:2.147 秒蜂巢>LOAD DATA L
..
A 上一个问题推荐sc.applicationId,但不是 存在于 PySpark 中,仅存在于 scala 中. 那么,如何确定 PySpark 进程的应用程序 ID(用于 yarn)? 解决方案 您可以通过 Py4J RPC 网关使用 Java SparkContext 对象: >>>sc._jsc.sc().applicationId()u'application_14338
..
我试图建立一个 dataproc 集群,它一次只计算一个作业(或指定的最大作业),其余的将在队列中. 我找到了这个解决方案,如何配置垄断FIFOYARN 中的应用程序队列? ,但由于我一直在创建新集群,因此我需要将其自动化.我已将此添加到集群创建中: "softwareConfig": {“特性": {"yarn:yarn.resourcemanager.scheduler.class":
..
我正在构建一个 Apache Spark Streaming 应用程序,但在 YARN 上运行时无法将其记录到本地文件系统上的文件.怎样才能做到这一点? 我已经设置了 log4.properties 文件,以便它可以成功写入本地文件系统上 /tmp 目录中的日志文件(部分如下所示): log4j.appender.file=org.apache.log4j.FileAppenderlog4
..
找到许多运行 map-reduce 程序的选项.任何人都可以解释以下命令之间的区别.以及对 Map-reduce 工作的影响(如果有). java -jar MyMapReduce.jar [args]hadoop jar MyMapReduce.jar [参数]纱线 jar MyMapReduce.jar [args] 在这些命令中,哪一个最好? 可以使用以下命令中的 Web 服务端
..