Apache的火花消息的理解 [英] Apache spark message understanding

查看：222 发布时间：2016/5/20 0:38:24 apache apache-spark

本文介绍了Apache的火花消息的理解的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

请求帮助理解这个消息。

Request help to understand this message..

信息spark.MapOutputTrackerMaster：输出状态，为洗牌2尺寸是** 2202921 **字节

这是什么意思2202921这里？

what does 2202921 mean here ?

我的工作做了随机操作，而从previous阶段阅读洗牌文件时，它先给出消息一段时间后失败下面埃罗..

My job does a shuffle operation and while reading shuffle files from previous stage , it gives the message first and then after sometime it fails with below erro..

14/11/12 11点09分46秒WARN scheduler.TaskSetManager：失落的任务224.0舞台4.0（TID 13938，IP-XX-XXX-XXX-xx.ec2.internal）：FetchFailed （BlockManagerId（11，IP-XX-XXX-XXX-xx.ec2.internal，48073，0），shuffleId = 2的azazaz = 7468，reduceId = 224） 14/11/12 11点09分46秒INFO scheduler.DAGScheduler：标记阶段4（合并AT＆LT;＆控制台GT;：49）为失败，原因是从第3阶段抓取失败（图AT＆LT;＆控制台GT;：42） 14/11/12 11点09分46秒INFO scheduler.DAGScheduler：第4阶段（合并AT＆LT;＆控制台GT;：49）未能213.446小号 14/11/12 11点09分46秒INFO scheduler.DAGScheduler：重新提交第3阶段（图AT＆LT;＆控制台GT;：42）和第4阶段（合并AT＆LT;＆控制台GT; 49）因获取失败 14/11/12 11点09分46秒INFO scheduler.DAGScheduler：执行人丢失：11（2时代） 14/11/12 11点09分46秒INFO storage.BlockManagerMasterActor试图从BlockManagerMaster删除执行人11。 14/11/12 11点09分46秒INFO storage.BlockManagerMaster：在removeExecutor删除11成功 14/11/12 11点09分46秒INFO scheduler.Stage：第三阶段是现在执行人11不可用（12836分之11893，FALSE） 14/11/12 11点09分46秒INFO scheduler.DAGScheduler：重新提交失败的阶段 14/11/12 11点09分46秒INFO scheduler.DAGScheduler：提交第3阶段（MappedRDD [13]在地图AT＆LT;＆控制台GT;：42），它没有父母失踪 14/11/12 11点09分46秒INFO storage.MemoryStore：ensureFreeSpace（25472）调用curMem = 474762，MAXMEM = 11113699737 14/11/12 11点09分46秒INFO storage.MemoryStore：阻止broadcast_6作为值存储在内存中（估计大小24.9 KB，自由10.3 GB） 14/11/12 11点09分46秒INFO storage.MemoryStore：ensureFreeSpace（5160）调用curMem = 500234，MAXMEM = 11113699737 14/11/12 11点09分46秒INFO storage.MemoryStore：阻止broadcast_6_piece0存储在内存中（估计大小5.0 KB，免费10.3 GB）字节 14/11/12 11点09分46秒INFO storage.BlockManagerInfo：在内存中添加broadcast_6_piece0对IP-xx.ec2.internal：35571（尺寸：5.0 KB，自由：10.4 GB） 14/11/12 11点09分46秒INFO storage.BlockManagerMaster：块broadcast_6_piece0的更新信息 14/11/12 11点09分46秒INFO scheduler.DAGScheduler：从第3阶段提交943缺少的任务（MappedRDD [13]在地图AT＆LT;＆控制台GT;：42） 14/11/12 11点09分46秒INFO cluster.YarnClientClusterScheduler：添加任务设置3.1 943任务

我的code是这样的，

My code looks like this,

（RDD1集++ RDD2）.MAP {T =＆GT; （（t.id），T）} .groupByKey（1280）{.MAP 情况下（（ID），序列）= GT; VAL newrecord = {sequence.maxBy 案件事实（ID，钥匙，类型，一天，组，c_key，s_key，plan_id的数据类型，大小， is_mom，customer_shipment_id，customer_shipment_item_id，ASIN，company_key，product_line_key，dw_last_updated，措施）=＆GT; dw_last_updated.toLong } （（PARTITION_KEY +=+ newrecord.day.toString +/部件），（newrecord）） } .coalesce（2048，真）.saveAsTextFile（S3：// MyFolder中/ PT / test20nodes /）

我得出1280，因为我有每个都具有32个内核20个节点。我得出它像2 * 32 * 20。

I derived 1280 as I have 20 nodes each having 32 cores. I derived it like 2*32*20.

Apache的火花消息的理解 [英] Apache spark message understanding

问题描述

推荐答案

相关文章

服务器开发最新文章

热门教程

热门工具

登录关闭

Apache的火花消息的理解 [英] Apache spark message understanding

问题描述

推荐答案

相关文章

服务器开发最新文章

热门教程

热门工具

登录 关闭

登录关闭