分布式计算/Hadoop 第10页 - IT屋-程序员软件开发技术分享社区

hadoop流式传输失败，错误代码为5

（HADOOP_CMD =“/ usr / local / hadoop / bin / hadoop”）Sys.setenv（HADOOP_STREAMING =“/ usr / local / hadoop /share/hadoop/tools/lib/hadoop-streaming-2.4.1.jar\")Sys.setenv(HADOOP_HOME=\"/usr/local/hadoo ..

发布时间：2018-05-31 20:27:47 r hadoop rhadoop 分布式计算/Hadoop

HDFS中零件文件的命名约定

当我们在Hive中执行INSERT INTO命令时，执行结果会在HDFS中创建多个零件文件。例如。部分 - * - *****或000000_0,000001_0等或其他。是否有配置/设置控制这些零件文件的命名？我工作的集群创建了000000_0，000001_0和000000_1等。我想将其更改为部分或文本等，以便我可以更轻松地选择这些文件并在需要时合并它们。如果 ..

发布时间：2018-05-31 20:27:42 hadoop hdfs 分布式计算/Hadoop

在hadoop中的块大小

我目前正在研究四节点多集群。任何人都可以建议我适用于22GB输入文件的块大小？提前致谢。以下是我的表现结果： 64M - 32分钟。 128M - 19.4分钟 256M - 15分钟现在，我应该考虑将其扩大到1GB / 2GB吗？请解释一下是否有任何问题。编辑：此外，如果性能随着块大小的增加而增加一个20GB的输入文件为什么默认块大小是64MB或128MB？ ..

发布时间：2018-05-31 20:27:37 hadoop mapreduce 分布式计算/Hadoop

Hadoop奇怪的行为：reduce函数不能获取某个键的所有值

在我的Hadoop项目中，我正在读取每行文本行的许多名称。第一个名字代表我的用户名，其余的是朋友列表。然后我在map函数中创建一对（用户名，朋友），每一对都有一个键“Key [name1] [name2]”，其中name1,2是用户名和朋友名字按字母顺序排列。通常，在读取userA和userB行后，他们在他们的朋友列表中都有对方，我会得到2个具有不同值的标识键，在本例中为：KeyUserA ..

发布时间：2018-05-31 20:27:32 hadoop mapreduce 分布式计算/Hadoop

使用hadoop项目的maven打包多项输入jar

我对maven很陌生。我想打包一个我的hadoop项目的jar和它的依赖项，然后使用它： .abc.def.SomeClass1 -params ... hadoop jar project.jar com.abc.def.AnotherClass -params ... 我想为这个jar有多个入口点（不同的hadoop作业）。我该怎么做？ / p> 感谢！解决方案 ..

发布时间：2018-05-31 20:27:30 maven hadoop maven-3 分布式计算/Hadoop

如何提取apache phoenix表/查看数据到文件

如何从apache phoenix表/视图提取数据为CSV / PSV /文本？对于ex查询： select * from test_view 解决方案使用sqlline.py连接到phoenix后： phoenix-sqlline zk4-habsem.lzmf1fzmprtezol2fr25obrdth.jx.internal.cloudapp.ne ..

发布时间：2018-05-31 20:27:27 hadoop hbase phoenix 分布式计算/Hadoop

Hive作业发生mapreduce错误：调用从hmaster / 127.0.0.1到localhost：44849连接异常失败

当我在hive命令行中运行时： hive>从alogs中选择count（*）; 在终端上显示以下内容：总计工作= 1 启动Job 1 out of 1 在编译时确定的reduce任务数量：1 为了改变平均值加载减速器（以字节为单位）： set hive.exec.reducers.bytes.per.reducer = 为了限制还原器 ..

发布时间：2018-05-31 20:27:24 hadoop mapreduce hive hql 分布式计算/Hadoop

Apache PIG - 如何在小数点后削减数字

是否有可能在浮点数或双精度数的小数点后删除某个区域？例如：结果将是2.67894 =>我希望结果为2.6（四舍五入不是2.7）。解决方案为此写一个UDF（用户定义的函数）。 $ b $ p 一个非常简单的python UDF（numformat.py）： @outputSchema（'value：double'） def格式（数据）： return round（da ..

发布时间：2018-05-31 20:27:14 hadoop apache-pig hadoop2 分布式计算/Hadoop

ElephantBird ERROR 1070：--->班级没有阅读

我的问题类似于这个未解答的问题： [ https://stackoverflow.com/questions/42140344/elephantbird-dependency-jars] [1] 我已经注册了大象鸟必须运行的所有jar。注册'/MyJARS/elephant-bird-hadoop-compat-4.1 注册'/ MyJARS / json-simple -1 ..

发布时间：2018-05-31 20:27:12 json hadoop apache-pig elephantbird 分布式计算/Hadoop

HDFS：java.io.FileNotFoundException：文件不存在：name._COPYING

我正在使用Scala进行Spark Streaming。我需要从HDFS目录下面用这行读取一个.csv文件： val lines = ssc.textFileStream（“/ user / root /“）我使用以下命令行将文件放入HDFS中： hdfs dfs -put ./head40k.csv 它可以很好地处理相对较小的文件。当我尝 ..

发布时间：2018-05-31 20:27:07 scala hadoop apache-spark hdfs spark-streaming 分布式计算/Hadoop

Hadoop仅使用主节点来处理数据

我已经安装了一个Hadoop 2.5集群，其中包含1个主节点（namenode和secondary namenode和datanode）以及2个从节点（datanode）。所有机器都使用Linux CentOS 7 - 64位。当我运行我的MapReduce程序（wordcount）时，我只能看到主节点正在使用额外的CPU和RAM。从节点不做任何事情。我检查了所有namenode中的日志， ..

发布时间：2018-05-31 20:27:04 hadoop mapreduce 分布式计算/Hadoop

在hadoop / map中读取avro格式的数据

我正在尝试读取保存在hdfs中的hadoop中的avro格式数据。但是我见过的大多数例子都要求我们解析一个模式才行。但是我无法理解这个需求。我使用pig和avro，并且我从来没有传过架构信息。所以，我想我可能会错过一些东西。基本上，如果我没有模式信息，读取hadoop mapreduce中的avro文件有什么好方法？谢谢解决方案你是对的，Avro对提前知道类型非常严 ..

发布时间：2018-05-31 20:27:01 hadoop avro 分布式计算/Hadoop

使用Hadoop NameNode，Checkpoint Node和Backup Node有什么优点和缺点？

Hadoop文档说明： Secondary NameNode has已被弃用。相反，请考虑使用检查点节点或备份节点有三种选项 / em>和他们做什么，但我无法在哪些情况下找到有关三种选项中的哪一个被推荐的信息。基本上，检查点节点是辅助名称节点的一个新实现，备份点是临时释放namenode的热备份（加上它现在可以通过分离读取和写入来提供小的性能提升 - 读取名称节点并写入备份节点中） ..

发布时间：2018-05-31 20:26:59 hadoop 分布式计算/Hadoop

如何找到Hadoop 2.x的安装模式

寻找Hadoop 2.x安装模式的最快方法是什么？我只想学习在我登录时找到模式的最佳方式第一次进入Hadoop安装的机器。解决方案在hadoop 2中 - 转到/ etc / hadoop / conf文件夹并检查Fs core-site.xml中的.defaultFS和yarn-site.xml中的Yarn.resourcemanager.hostname属性。这些属性的值决 ..

发布时间：2018-05-31 20:26:57 hadoop hadoop2 分布式计算/Hadoop

使用JobControl测量Hadoop作业时间

我曾用以下方式启动Hadoop作业： long start = new Date（）。getTime（）; 布尔状态= job.waitForCompletion（true）; long end = new Date（）。getTime（）; 通过这种方式，我可以测量作业在我的代码中直接结束所花费的时间。 p> 现在我必须使用JobControl来表达我的 ..

发布时间：2018-05-31 20:26:54 hadoop jobs timing 分布式计算/Hadoop

使用命令行启动Hadoop服务（CDH 5）

我知道如何使用Cloudera管理器界面启动服务，但我更愿意知道幕后发生的事情，而不是依赖“魔术”。我阅读此页，但它确实不提供所需的信息我知道有一些.sh文件可以使用，但它们似乎因版本而异，而且我使用的是最新的今天（5.3）。我希望能有一个服务启动命令（特别是HDFS）的列表 PS：看起来像不知何故 Cloudera放弃了传统的Apache脚本（start-dfs.s ..

发布时间：2018-05-31 20:26:52 hadoop hdfs bigdata 分布式计算/Hadoop

在Hive中加入在MapReduce中触发哪种类型的JOIN？

如果我在使用JOIN的 hive 中有一个查询，可以说一个 LEFT OUTER JOIN 或一个 INNER JOIN 在两个表 ON 任何列上，那么我怎么知道它在后面转换成哪种类型的JOIN -end MapReduce （即Map-side JOIN或Reduce-side JOIN）？谢谢。使用解释解释方法选择... 并检查计划。它解释了究竟地图和减少会做什么。在执行期间，您还可 ..

发布时间：2018-05-31 20:26:44 hadoop hive mapreduce 分布式计算/Hadoop

为什么仅仅使用mapper的工作在真正的集群中太慢了？

我只有将映射器PrepareData用于将文本数据转换为具有 VLongWritable 的 SequencialFile 作为键和 DoubleArrayWritable 作为值。当我使用直线在455000x90（〜384 Mb）的数据上运行它时， p> 13.124,123.12,12.12，... 1.12 23.12,1.5,12.6 ，... 6.123 ... ..

发布时间：2018-05-31 20:26:39 hadoop 分布式计算/Hadoop

Hive错误：java.lang.Throwable：子错误

我正在使用CDH 5.9，而执行以下配置单元查询时，它将引发错误。有关这个问题的任何想法？对于正常的select查询来说它的工作正常，但是对于复杂的查询，它会导致失败。 hive> select * from dt = '22 -01-2017'，字段'％xyz％'limit 10; reduce任务的查询ID = 1的1 $出hdfs_20170123200303_44a9c423 ..

发布时间：2018-05-31 20:26:37 hadoop hive hiveql 分布式计算/Hadoop

关于Hive的问题

我有这样的环境：具有多个应用程序的Haddop环境（1个主站，4个从站）： ambari，hue ，hive，sqoop，hdfs ...使用mysql数据库生产服务器（与hadoop分离）。我的目标是：优化在此mysql服务器上进行的查询，这些查询对于执行速度很慢。我做了什么：我将mysql数据导入HDFS使用Sqoop。我的疑惑： ..

发布时间：2018-05-31 20:26:34 hadoop hive hdfs sqoop 分布式计算/Hadoop