分布式计算/Hadoop

HDFS中零件文件的命名约定

当我们在Hive中执行INSERT INTO命令时,执行结果会在HDFS中创建多个零件文件。 例如。部分 - * - *****或000000_0,000001_0等或其他。 是否有配置/设置控制这些零件文件的命名? 我工作的集群创建了000000_0,000001_0和000000_1等。我想将其更改为部分或文本等,以便我可以更轻松地选择这些文件并在需要时合并它们。 如果 ..
发布时间:2018-05-31 20:27:42 分布式计算/Hadoop

在hadoop中的块大小

我目前正在研究四节点多集群。任何人都可以建议我适用于22GB输入文件的块大小? 提前致谢。 以下是我的表现结果: 64M - 32分钟。 128M - 19.4分钟 256M - 15分钟 现在,我应该考虑将其扩大到1GB / 2GB吗?请解释一下是否有任何问题。 编辑: 此外,如果性能随着块大小的增加而增加一个20GB的输入文件为什么默认块大小是64MB或128MB? ..
发布时间:2018-05-31 20:27:37 分布式计算/Hadoop

Hadoop奇怪的行为:reduce函数不能获取某个键的所有值

在我的Hadoop项目中,我正在读取每行文本行的许多名称。第一个名字代表我的用户名,其余的是朋友列表。 然后我在map函数中创建一对(用户名,朋友),每一对都有一个键“Key [name1] [name2]”,其中name1,2是用户名和朋友名字按字母顺序排列。 通常,在读取userA和userB行后,他们在他们的朋友列表中都有对方,我会得到2个具有不同值的标识键,在本例中为:KeyUserA ..
发布时间:2018-05-31 20:27:32 分布式计算/Hadoop

使用hadoop项目的maven打包多项输入jar

我对maven很陌生。我想打包一个我的hadoop项目的jar和它的依赖项,然后使用它: .abc.def.SomeClass1 -params ... hadoop jar project.jar com.abc.def.AnotherClass -params ... 我想为这个jar有多个入口点(不同的hadoop作业)。 我该怎么做? / p> 感谢! 解决方案 ..
发布时间:2018-05-31 20:27:30 分布式计算/Hadoop

Hive作业发生mapreduce错误:调用从hmaster / 127.0.0.1到localhost:44849连接异常失败

当我在hive命令行中运行时: hive>从alogs中选择count(*); 在终端上显示以下内容: 总计工作= 1 启动Job 1 out of 1 在编译时确定的reduce任务数量:1 为了改变平均值加载减速器(以字节为单位): set hive.exec.reducers.bytes.per.reducer = 为了限制还原器 ..
发布时间:2018-05-31 20:27:24 分布式计算/Hadoop

Apache PIG - 如何在小数点后削减数字

是否有可能在浮点数或双精度数的小数点后删除某个区域? 例如:结果将是2.67894 =>我希望结果为2.6(四舍五入不是2.7)。 解决方案 为此写一个UDF(用户定义的函数)。 $ b $ p 一个非常简单的python UDF(numformat.py): @outputSchema('value:double') def格式(数据): return round(da ..
发布时间:2018-05-31 20:27:14 分布式计算/Hadoop

Hadoop仅使用主节点来处理数据

我已经安装了一个Hadoop 2.5集群,其中包含1个主节点(namenode和secondary namenode和datanode)以及2个从节点(datanode)。所有机器都使用Linux CentOS 7 - 64位。当我运行我的MapReduce程序(wordcount)时,我只能看到主节点正在使用额外的CPU和RAM。从节点不做任何事情。 我检查了所有namenode中的日志, ..
发布时间:2018-05-31 20:27:04 分布式计算/Hadoop

在hadoop / map中读取avro格式的数据

我正在尝试读取保存在hdfs中的hadoop中的avro格式数据。 但是我见过的大多数例子都要求我们解析一个模式才行。 但是我无法理解这个需求。我使用pig和avro,并且我从来没有传过架构信息。 所以,我想我可能会错过一些东西。基本上,如果我没有模式信息,读取hadoop mapreduce中的avro文件有什么好方法? 谢谢 解决方案 你是对的,Avro对提前知道类型非常严 ..
发布时间:2018-05-31 20:27:01 分布式计算/Hadoop

使用Hadoop NameNode,Checkpoint Node和Backup Node有什么优点和缺点?

Hadoop文档说明: Secondary NameNode has已被弃用。相反,请考虑使用检查点节点或备份节点 有三种选项 / em>和他们做什么,但我无法在哪些情况下找到有关三种选项中的哪一个被推荐的信息。基本上,检查点节点是辅助名称节点的一个新实现,备份点是临时释放namenode的热备份(加上它现在可以通过分离读取和写入来提供小的性能提升 - 读取名称节点并写入备份节点中) ..
发布时间:2018-05-31 20:26:59 分布式计算/Hadoop

如何找到Hadoop 2.x的安装模式

寻找Hadoop 2.x安装模式的最快方法是什么? 我只想学习在我登录时找到模式的最佳方式第一次进入Hadoop安装的机器。 解决方案 在hadoop 2中 - 转到/ etc / hadoop / conf文件夹并检查Fs core-site.xml中的.defaultFS和yarn-site.xml中的Yarn.resourcemanager.hostname属性。这些属性的值决 ..
发布时间:2018-05-31 20:26:57 分布式计算/Hadoop

使用JobControl测量Hadoop作业时间

我曾用以下方式启动Hadoop作业: long start = new Date()。getTime(); 布尔状态= job.waitForCompletion(true); long end = new Date()。getTime(); 通过这种方式,我可以测量作业在我的代码中直接结束所花费的时间。 p> 现在我必须使用JobControl来表达我的 ..
发布时间:2018-05-31 20:26:54 分布式计算/Hadoop

使用命令行启动Hadoop服务(CDH 5)

我知道如何使用Cloudera管理器界面启动服务,但我更愿意知道幕后发生的事情,而不是依赖“魔术”。 我阅读此页,但它确实不提供所需的信息 我知道有一些.sh文件可以使用,但它们似乎因版本而异,而且我使用的是最新的今天(5.3)。 我希望能有一个服务启动命令(特别是HDFS)的列表 PS:看起来像不知何故 Cloudera放弃了传统的Apache脚本(start-dfs.s ..
发布时间:2018-05-31 20:26:52 分布式计算/Hadoop

在Hive中加入在MapReduce中触发哪种类型的JOIN?

如果我在使用JOIN的 hive 中有一个查询,可以说一个 LEFT OUTER JOIN 或一个 INNER JOIN 在两个表 ON 任何列上,那么我怎么知道它在后面转换成哪种类型的JOIN -end MapReduce (即Map-side JOIN或Reduce-side JOIN)? 谢谢。 使用解释解释方法选择... 并检查计划。它解释了究竟地图和减少会做什么。在执行期间,您还可 ..
发布时间:2018-05-31 20:26:44 分布式计算/Hadoop

Hive错误:java.lang.Throwable:子错误

我正在使用CDH 5.9,而执行以下配置单元查询时,它将引发错误。有关这个问题的任何想法? 对于正常的select查询来说它的工作正常,但是对于复杂的查询,它会导致失败。 hive> select * from dt = '22 -01-2017',字段'%xyz%'limit 10; reduce任务的 查询ID = 1的1 $出hdfs_20170123200303_44a9c423 ..
发布时间:2018-05-31 20:26:37 分布式计算/Hadoop

关于Hive的问题

我有这样的环境: 具有多个应用程序的Haddop环境(1个主站,4个从站): ambari,hue ,hive,sqoop,hdfs ...使用mysql数据库生产服务器(与hadoop分离 )。 我的目标是: 优化在此mysql服务器上进行的查询,这些查询对于 执行速度很慢。 我做了什么: 我将mysql数据导入HDFS使用Sqoop。 我的疑惑: ..
发布时间:2018-05-31 20:26:34 分布式计算/Hadoop