分布式计算/Hadoop 第12页 - IT屋-程序员软件开发技术分享社区

尽管mapred.output.compress = true，hadoop流式产生未压缩的文件

hadoop jar / opt / cloudera / parcels / CDH / lib / hadoop -mapreduce / hadoop-streaming.jar -Dmapred.reduce.tasks = 16 -Dmapred.output.compres = true -Dmapred.output.compression.codec = org.ap ..

发布时间：2018-05-31 20:24:46 hadoop hadoop-streaming 分布式计算/Hadoop

通过cloudera manager API重新启动jobtracker

我试图通过Cloudera Manager API重新启动Mapreduce Jobtracker。 Jobtracker的统计信息如下： local-iMac-399：$ curl -u'admin：admin''http：/ /hadoop-namenode.dev.com:7180/api/v6/clusters/Cluster%201/services/mapreduce/role ..

发布时间：2018-05-31 20:24:44 api hadoop cloudera-manager cloudera-cdh 分布式计算/Hadoop

为什么每次重启机器后都需要格式化HDFS？

我在我的笔记本电脑上以伪分布式模式安装了Hadoop，操作系统是Ubuntu。我改变了hadoop存储数据的路径（默认情况下hadoop存储数据在 / tmp 文件夹中） hdfs-site.xml 文件如下所示： dfs.data.dir / HADOOP_CLUSTER_DATA / data ..

发布时间：2018-05-31 20:24:41 hadoop ubuntu-11.04 分布式计算/Hadoop

map减少输出文件：part-r- 和part-

我有一些关于缩小输出零件文件的问题。 1> map缩减输出中的part-r- *文件和part- *文件有什么不同？ part-r- *从mapper输出，part- *从reducer输出 2>如果reducer没有产生任何结果，mapper输出将会停留或将被删除？解决方案通常，part-r- *来自reducer。 MultipleOutputs 允许您使用不同的命名约 ..

发布时间：2018-05-31 20:24:39 hadoop mapreduce 分布式计算/Hadoop

Hadoop DBWritable：无法将记录从Hadoop缩减器插入到MySQL

我已经使用Hadoop映射器来从文件中读取记录，它成功完全从文件中读取记录。但是while java.io.IOException：关键'PRIMARY'的重复条目'505975648' 但是Mysql表仍然是空的。无法将记录写入Hadoop DBWritable reducer的mysql表。以下是错误日志：警告：com.mysql.jdbc.exceptions.j ..

发布时间：2018-05-31 20:24:36 hadoop mysql-error-1064 hadoop-streaming hadoop-plugins 分布式计算/Hadoop

执行hadoop-mapreduce-examples-2.2.0.jar时出错

作为hadoop的初学者，我开始尝试在Ubuntu中配置单节点hadoop集群。在安装和配置后，我使用hadoop处理了示例部分，它引发了以下错误： $ b $ hduser1 @ ubuntu：/ usr / local / hadoop $ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce- examples-2.2.0.jar p ..

发布时间：2018-05-31 20:24:33 hadoop ubuntu-12.04 分布式计算/Hadoop

数值列表中的循环数，在Spark和Scala中混合使用正数和负数

使用包含正值和负值组合的值列表的RDD。需要根据这些数据计算周期数。例如， val range = List（sampleRange（2020,2030,2040,2050，-1000，-1010，-1020，Start point，-1030,2040，-1020,2050,2040,2020，end point ，-1060，-1030，-1010）上面列表中每个值之 ..

发布时间：2018-05-31 20:24:31 scala hadoop apache-spark bigdata 分布式计算/Hadoop

Hadoop Rest API用于上传/下载

我试图使用C＃应用程序从Hadoop集群上传/下载文件，但是我无法找到用于上传的API并从文档中下载。那么你能让我知道如何使用RestAPI上传和下载Hadoop中的文件吗？ $ b 谢谢 nofollow“> http://hadoop.apache.org/docs/r1.0.4/webhdfs.html 编辑：创建并写入文件第1步：提交一个HT ..

发布时间：2018-05-31 20:24:28 hadoop webhdfs 分布式计算/Hadoop

如何收集Hadoop集群大小/内核数量信息

我在由多台机器组成的集群上运行我的hadoop作业，这些机器的大小未知（主内存，内核数量，每台机器的大小等）。如果没有使用任何操作系统专用库（* .so文件，我的意思是说），是否有任何类或工具用于hadoop本身或一些额外的库，我可以在Hadoop MR作业正在执行时收集信息：作业使用的内核总数/内核数量总可用主内存/已分配可用主内存 li> 每台机器上的存储空间总量/分配的存储空间 ..

发布时间：2018-05-31 20:24:11 hadoop mapreduce cluster-computing 分布式计算/Hadoop

Hadoop：File ...只能复制到0个节点，而不是1个

我尝试在8节点IB（OFED-1.5.3-4.0.42）集群上部署Hadoop-RDMA，并且遇到以下问题（又名File ...只能复制到0个节点，而不是1个）： frolo @ A11：〜/ hadoop-rdma-0.9.8> ./bin/hadoop dfs -copyFromLocal ../pg132 .txt /user/frolo/input/pg132.txt 警告：$ ..

发布时间：2018-05-31 20:24:08 hadoop infiniband 分布式计算/Hadoop

从hbase读取时，Flink正在尝试序列化错误

当我在地图中使用richfatMapFunction从hbase读取时，出现序列化错误。我想要做的是，如果一个数据流等于从hbase读取的特定字符串，否则忽略。下面是示例程序和我遇到的错误。 package com.abb.Flinktest import java.text。 SimpleDateFormat import java.util.Properties imp ..

发布时间：2018-05-31 20:24:06 hadoop hbase apache-flink flink-streaming 分布式计算/Hadoop

与ooopop一起使用hadoop与Oracle数据导入的Sqoop集成

我安装了CDH sqoop，试图将已经运行的apache hadoop。我发现oraoop使用正确，但我在导入时遇到以下问题。我也尝试用apache hadoop的apache sqoop，但仍面临以下问题。网页搜索建议使用CDH hadoop，而不是Apache Hadoop。 $ b ** 线程“main”中的异常java.lang.IncompatibleClassCh ..

发布时间：2018-05-31 20:24:01 hadoop sqoop 分布式计算/Hadoop

Giraph best的顶点输入格式，用于输入String类型为id的输入文件

我有一个多节点giraph集群，可以在我的电脑上正常工作。我执行了Giraph的SimpleShortestPathExample并且执行正常。这个算法是用这个文件（tiny_graph.txt）运行的： [0,0，[[1,1]，[3,3]]] [1,0，[[0,1]，[2 ，2]，[3,1]]] [2,0，[[1,2]，[4,4]]] [3,0，[[0,3]， [1, ..

发布时间：2018-05-31 20:23:46 hadoop giraph 分布式计算/Hadoop

为什么预分区会因减少洗牌而受益？

许多教程提到， RDD 的预分区将优化火花作业的数据混洗。我感到困惑的是，因为我的理解，预分区也会导致洗牌，为什么在这里提前洗牌会有利于某些操作？特别是将它自动激发，自我将对一组转换进行优化。例如：如果我想要要加入两个数据集国家（id，国家）和收入（id，（收入，月份，年份）），这两种操作有什么区别？（我使用PySpark模式）通过id预分区收入= income. ..

发布时间：2018-05-31 20:23:34 hadoop apache-spark pyspark rdd partition 分布式计算/Hadoop

Hive：使用正则表达式分割字符串

我有一串 :: 分隔符的单词。我如何使用 Hive UDF regexp_extract（）来从字符串中提取单词？解决方案 regexp_extract（'2foa1fa :: 12hjk'，' ^（\\w。*）\\：{2}（\\w。*）$'，1）as word1 OUTPUT： 2foa1fa regexp_extract（'2foa1fa :: 1 ..

发布时间：2018-05-31 20:23:28 regex hadoop hive 分布式计算/Hadoop

OOZIE中的多输入路径配置

我正在尝试在oozie中配置一个Mapreduce作业。该作业有两种不同的输入格式和两个输入数据文件夹。我用这个帖子如何配置oozie具有多个映射器的多输入路径工作流程并将这些属性添加到我的workflow.xml中： mapred.input.dir.formats 文件夹/ data / *; org.apach ..

发布时间：2018-05-31 20:23:26 hadoop oozie 分布式计算/Hadoop

使用sqoop导入，如何将行添加到现有的配置表格中？

在sqlserver中，我使用下面的查询导入并创建了一个配置表。 sqoop import --connect'jdbc：sqlserver ：//10.1.1.12; database = testdb'--username uname --password paswd --table demotable --hive-import --hive-table hivedb.demotab ..

发布时间：2018-05-31 20:23:16 hadoop hive sqoop 分布式计算/Hadoop

如何使用配置单元上下文高效地查询火花中的配置单元表？

我有一个带时间序列数据的1.6T Hive表。我在 scala中使用 Hive 1.2.1 和 Spark 1.6.1 。以下是我在代码中查询的内容。但是我总是得到 Java内存不足错误。 val sid_data_df = hiveContext.sql（s“SELECT time，total_field，sid，year，date FROM tablename WHERE s ..

发布时间：2018-05-31 20:23:12 scala hadoop apache-spark hive hiveql 分布式计算/Hadoop

RHive没有使用CDH4

有没有人试图让cdive使用RHive？它与cdh4兼容吗？我试过在他们的Google小组上询问这个问题，但没有答案！我已经在cdh4上安装了R，RHadoop和所有相关的软件包，但我被困在了RHive中。对所有环境变量使用cdh4，rhive.connect（）给我以下错误 - pre > WARN conf.Configuration：fs.default.name已弃用 ..

发布时间：2018-05-31 20:23:07 hadoop rhadoop 分布式计算/Hadoop

java.io.IOException：无法在Hadoop二进制文件中找到可执行文件null\bin\winutils.exe

$ bin / start-hbase.sh 2015-07-01 19：21：34,971错误[main] util.Shell：找不到在hadoop二进制路径中的winutils二进制文件 java.io.IOException：在Hadoop二进制文件中找不到可执行文件null \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ at org.apache.had ..

发布时间：2018-05-31 20:22:55 windows hadoop cygwin hbase 分布式计算/Hadoop