分布式计算/Hadoop
hadoop jar / opt / cloudera / parcels / CDH / lib / hadoop -mapreduce / hadoop-streaming.jar -Dmapred.reduce.tasks = 16 -Dmapred.output.compres = true -Dmapred.output.compression.codec = org.ap
..
我试图通过Cloudera Manager API重新启动Mapreduce Jobtracker。 Jobtracker的统计信息如下: local-iMac-399:$ curl -u'admin:admin''http:/ /hadoop-namenode.dev.com:7180/api/v6/clusters/Cluster%201/services/mapreduce/role
..
我在我的笔记本电脑上以伪分布式模式安装了Hadoop,操作系统是Ubuntu。 我改变了hadoop存储数据的路径(默认情况下hadoop存储数据在 / tmp 文件夹中) hdfs-site.xml 文件如下所示: dfs.data.dir / HADOOP_CLUSTER_DATA / data
..
我有一些关于缩小输出零件文件的问题。 1> map缩减输出中的part-r- *文件和part- *文件有什么不同? part-r- *从mapper输出,part- *从reducer输出 2>如果reducer没有产生任何结果,mapper输出将会停留或将被删除? 解决方案 通常,part-r- *来自reducer。 MultipleOutputs 允许您使用不同的命名约
..
我已经使用Hadoop映射器来从文件中读取记录,它成功完全从文件中读取记录。但是while java.io.IOException:关键'PRIMARY'的重复条目'505975648' 但是Mysql表仍然是空的。无法将记录写入Hadoop DBWritable reducer的mysql表。 以下是错误日志: 警告:com.mysql.jdbc.exceptions.j
..
作为hadoop的初学者,我开始尝试在Ubuntu中配置单节点hadoop集群。在安装和配置后,我使用hadoop处理了示例部分,它引发了以下错误: $ b $ hduser1 @ ubuntu:/ usr / local / hadoop $ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce- examples-2.2.0.jar p
..
使用包含正值和负值组合的值列表的RDD。 需要根据这些数据计算周期数。 例如, val range = List(sampleRange(2020,2030,2040,2050,-1000,-1010,-1020,Start point,-1030,2040,-1020,2050,2040,2020,end point ,-1060,-1030,-1010) 上面列表中每个值之
..
我试图使用C#应用程序从Hadoop集群上传/下载文件,但是我无法找到用于上传的API并从文档中下载。 那么你能让我知道如何使用RestAPI上传和下载Hadoop中的文件吗? $ b 谢谢 nofollow“> http://hadoop.apache.org/docs/r1.0.4/webhdfs.html 编辑: 创建并写入文件 第1步: 提交一个HT
..
我在由多台机器组成的集群上运行我的hadoop作业,这些机器的大小未知(主内存,内核数量,每台机器的大小等)。如果没有使用任何操作系统专用库(* .so文件,我的意思是说),是否有任何类或工具用于hadoop本身或一些额外的库,我可以在Hadoop MR作业正在执行时收集信息: 作业使用的内核总数/内核数量 总可用主内存/已分配可用主内存 li> 每台机器上的存储空间总量/分配的存储空间
..
我尝试在8节点IB(OFED-1.5.3-4.0.42)集群上部署Hadoop-RDMA,并且遇到以下问题(又名File ...只能复制到0个节点,而不是1个): frolo @ A11:〜/ hadoop-rdma-0.9.8> ./bin/hadoop dfs -copyFromLocal ../pg132 .txt /user/frolo/input/pg132.txt 警告:$
..
当我在地图中使用richfatMapFunction从hbase读取时,出现序列化错误。我想要做的是,如果一个数据流等于从hbase读取的特定字符串,否则忽略。下面是示例程序和我遇到的错误。 package com.abb.Flinktest import java.text。 SimpleDateFormat import java.util.Properties imp
..
我安装了CDH sqoop,试图将已经运行的apache hadoop。 我发现oraoop使用正确,但我在导入时遇到以下问题。我也尝试用apache hadoop的apache sqoop,但仍面临以下问题。 网页搜索建议使用CDH hadoop,而不是Apache Hadoop。 $ b ** 线程“main”中的异常java.lang.IncompatibleClassCh
..
我有一个多节点giraph集群,可以在我的电脑上正常工作。我执行了Giraph的SimpleShortestPathExample并且执行正常。 这个算法是用这个文件(tiny_graph.txt)运行的: [0,0,[[1,1],[3,3]]] [1,0,[[0,1],[2 ,2],[3,1]]] [2,0,[[1,2],[4,4]]] [3,0,[[0,3], [1,
..
许多教程提到, RDD 的预分区将优化火花作业的数据混洗。我感到困惑的是,因为我的理解,预分区也会导致洗牌,为什么在这里提前洗牌会有利于某些操作?特别是将它自动激发,自我将对一组转换进行优化。 例如: 如果我想要要加入两个数据集国家(id,国家)和收入(id,(收入,月份,年份)),这两种操作有什么区别? (我使用PySpark模式) 通过id预分区 收入= income.
..
我有一串 :: 分隔符的单词。我如何使用 Hive UDF regexp_extract()来从字符串中提取单词? 解决方案 regexp_extract('2foa1fa :: 12hjk',' ^(\\w。*)\\:{2}(\\w。*)$',1)as word1 OUTPUT: 2foa1fa regexp_extract('2foa1fa :: 1
..
我正在尝试在oozie中配置一个Mapreduce作业。该作业有两种不同的输入格式和两个输入数据文件夹。我用这个帖子如何配置oozie具有多个映射器的多输入路径工作流程 并将这些属性添加到我的workflow.xml中: mapred.input.dir.formats 文件夹/ data / *; org.apach
..
在sqlserver中,我使用下面的查询导入并创建了一个配置表。 sqoop import --connect'jdbc:sqlserver ://10.1.1.12; database = testdb'--username uname --password paswd --table demotable --hive-import --hive-table hivedb.demotab
..
我有一个带时间序列数据的1.6T Hive表。我在 scala中使用 Hive 1.2.1 和 Spark 1.6.1 。 以下是我在代码中查询的内容。但是我总是得到 Java内存不足错误。 val sid_data_df = hiveContext.sql(s“SELECT time,total_field,sid,year,date FROM tablename WHERE s
..
有没有人试图让cdive使用RHive?它与cdh4兼容吗? 我试过在他们的Google小组上询问这个问题,但没有答案!我已经在cdh4上安装了R,RHadoop和所有相关的软件包,但我被困在了RHive中。 对所有环境变量使用cdh4,rhive.connect()给我以下错误 - pre > WARN conf.Configuration:fs.default.name已弃用
..
$ bin / start-hbase.sh 2015-07-01 19:21:34,971错误[main] util.Shell:找不到在hadoop二进制路径中的winutils二进制文件 java.io.IOException:在Hadoop二进制文件中找不到可执行文件null \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ at org.apache.had
..