yarn相关内容

Hive on Spark:无法创建Spark客户端

我试图让Spark 2.1.0上的Hive 2.1.1在单个实例上工作。我不确定这是否正确。目前我只有一个实例,因此我无法构建集群。 当我在配置单元中运行任何插入查询时,出现错误: hive>插入到mcus(id,name)值(1,'ARM'); 查询ID = server_20170223121333_416506b4-13ba-45a4-a0a2-8417b187e8cc 共 ..
发布时间:2018-06-12 14:09:59 其他开发

Map-Reduce登录Hive-Tez

我想在Hive-Tez上运行查询后获得Map-Reduce日志的解释? INFO之后的内容:传达的是什么? 在这里,我附上了一个示例 INFO:Session已经打开 INFO:Dag name:SELECT a.Model ...) 信息:Tez会话已关闭。重新开启... 信息:会话重新建立。 INFO: 信息:状态:正在运行(在应用程序ID为application_14708 ..
发布时间:2018-06-12 14:07:18 其他开发

auxService:mapreduce_shuffle不存在

当我尝试运行下面的命令时: #sqoop import --connect jdbc:mysql:// IP地址/数据库 - 用户名root - 密码PASSWORD - 表table_name - m 1 从mysql数据库到HDFS的数据,我收到错误: auxService:mapreduce_shuffle不存在。 搜索并浏 ..
发布时间:2018-06-06 11:19:52 数据库

使用Hadoop在datanode上写入临时文件时遇到困难

我想在我的程序中创建一个文件。然而,我不希望这个文件写在HDFS上,而是写在执行 map 操作的datanode文件系统中。 我尝试了以下方法: pre $ public void map(Object key,Text value,Context context) 抛出IOException,InterruptedException { //做一些hadoop的东西,比如计算单词 ..
发布时间:2018-06-06 11:12:09 Java开发

在带有其他文件的YARN群集上运行Spark作业

我正在编写一个简单的Spark应用程序,它使用一些输入RDD,通过管道将其发送到外部脚本,并将该脚本的输出写入文件。驱动程序代码如下所示: val input = args(0) val scriptPath = args(1) val output = args(2) val sc = getSparkContext if(args.length == 4){ //在这里我传 ..
发布时间:2018-06-06 11:04:00 其他开发

Hadoop在Hadoop 2.7上添加每个容器多于1个核心

我听说有一种方法可以在Hadoop 2.7纱线中添加32个核心,或者将核心添加到1个容器中。 这是可能的吗?有一个示例配置,我需要更改以实现此目的? 测试将是terasort,将我的40个内核添加到1个容器作业中。 解决方案 对于vCore,以下是配置: $ b yarn.scheduler.maximum- allocation-vcores - 为每个容器请求指定vCo ..
发布时间:2018-06-01 12:40:43 分布式计算/Hadoop

我如何将Kerberos票证传递给Spring Yarn应用程序

我正在尝试运行简单的单一项目纱线应用程序,详细此处 。我将应用程序作为jar文件部署到我们的hadoop集群。试图运行时,我收到了一个异常,下面是堆栈跟踪: [2015-06-04 14:10:45.866 ]引导 - 13669 ERROR [主] --- SpringApplication:应用程序启动失败 java.lang.IllegalStateException:未能执行在 ..
发布时间:2018-06-01 12:37:06 分布式计算/Hadoop

纱罐lauch失败异常和mapred-site.xml配置

我的Hadoop集群中有7个节点[8GB RAM和4VCPU到每个节点],1个Namenode + 6 datanodes。 EDIT-1 @ ARNON :我遵循链接,根据我的节点上的硬件配置疯狂计算,并在我的问题中添加了更新mapred-site和yarn-site.xml文件。我的应用程序崩溃时使用了相同的缓存 我的mapreduce应用程序有34个输入拆分,块大小为128MB。 ..
发布时间:2018-05-31 20:28:37 分布式计算/Hadoop

我如何从Java向远程YARN集群提交级联作业?

我知道我可以通过将其打包到JAR中来提交级联作业,详见Cascading用户指南。然后,如果使用 hadoop jar CLI命令手动提交它,那么这个作业将运行在我的群集上。原始Hadoop 1 Cascading版本,可以通过在Hadoop JobConf 上设置特定属性来向集群提交作业。设置 fs.defaultFS 和 mapred.job.tracker 导致本地Hadoop库自动尝试将作 ..
发布时间:2018-05-31 20:27:40 Java开发

Hadoop MapReduce(Yarn)使用具有不同功率/规格的主机

我目前在群集中拥有高功率(cpu / ram)主机,我们正在考虑添加一些优质存储,但是低功耗主机。 我担心的是会降低工作表现。来自新的(较弱的)主机的Map / Reducers将运行得更慢,而更强大的主机将只需等待结果。 有没有办法配置这个在纱线?也许可以为主机设置优先级,或根据每台机器上的内核数量来分配映射器/缩减器。 谢谢, Horatiu 解决方案 在YARN中 ..
发布时间:2018-05-31 20:22:00 分布式计算/Hadoop

Oozie工作流配置单元动作卡在RUNNING中

我从Hortonworks发行版运行Hadoop 2.4.0,Oozie 4.0.0,Hive 0.13.0。 我有多个Oozie协调器作业可以启动工作流程大约在同一时间。协调器作业每个都监视不同的目录,当_SUCCESS文件显示在这些目录中时,工作流将启动。 工作流运行Hive操作,从外部目录读取并复制东西。 SET hive.exec.dynamic.partition = ..
发布时间:2018-05-31 20:20:58 分布式计算/Hadoop

如何提高从非分区表加载数据到HIVE ORC分区表中的性能

我是Hive Querying的新手,我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了向量化。 我们希望从Hive表格中进行报告,我从TEZ文档中读取它可以用于实时报告。场景来自我的WEB应用程序,我想在UI上显示Hive Query Select *从Hive表中的结果,但对于任何查询,在hive命令提示符下最少需要20-60秒,即使hive表有60 GB ..
发布时间:2018-05-31 20:20:34 分布式计算/Hadoop

YARN的工作历史未到

我使用源代码中最新的hadoop 3.0.0版本。我的时间轴服务已启动并运行,并已配置hadoop将其用于作业历史记录。但是当我点击resoucemanager UI中的历史记录时,出现以下错误: - HTTP错误404 问题访问/ jobhistory / job / job_1444395439959_0001。原因: NOT_FOUND 有人可以指出我在 ..
发布时间:2018-05-31 20:14:50 分布式计算/Hadoop