分布式计算/Hadoop
我是Hadoop和Java的新手,我觉得有一些显而易见的缺点。如果这意味着什么,我正在使用Hadoop 1.0.3。 我使用hadoop的目标是每次读取一堆文件并解析一个文件(而不是逐行)。每个文件都会生成多个键值,但其他行的上下文非常重要。键和值是多值/复合,所以我已经为键实现了WritableCompare,并为值实现了Writable。因为每个文件的处理需要一些CPU,所以我想保存映射
..
我有一个本地库,我需要为我的reduce方法加载,并将其添加到分布式缓存中,但是当我在地图方法中调用System.loadLibrary(mylib.so)时,出现错误和失败的映射任务: 错误:java.library.path中没有mylib.so 尽管我将它添加到分布式缓存中。我错过了一步吗?在我的作业配置中,我打电话给: DistributedCache.a
..
以下方法在 Yahoo的Hadoop教程 public void run(String inputPath,String outputPath)throws Exception { JobConf conf = new JobConf(WordCount.class); conf.setJobName(“wordcount”); //键是单词(字符串) conf.setOu
..
在HBase中,为了提供单行事务支持,它使用Row Locking Concept。假设,例如 Put p = new Put(“/ * Row Key * /”); 将锁定该行。 这样,直到我们完成 表。 (p) 锁定不会被释放。 所以,如果我开始一个新的放置,即 放置p1 = new Put(“/ Row Key “); p1 put不应该工作,因为该
..
好的,所以在烫伤时,我们可以使用矩阵api轻松处理矩阵,并且可以 - 以这种方式: val matrix = Tsv(path,('row,'col,'val)) .read .toMatrix [Long,Long,Double]('row,'col,'val ) 但是我如何将矩阵转换为格式,就像我们通常写的那样?是否有一些优雅的方式? 1 2 3 3
..
我有多个压缩文件,每个压缩文件包含8个大小为5-10kb的xml文件。我将这些数据用于测试目的,否则实时数据有1000个xml文件。 (FileStatus状态:状态列表){ this.unzip()我写了map only程序来解压缩压缩文件 status.getPath()。toString(),DestPath,fs); } 此方法将创建文件并读取未压缩的数据
..
使用CDH 5,当我运行我的oozie工作流程时,我不再看到来自映射器(log4j,slf4j)的日志语句。我什至试过System.out.println - 我仍然没有看到这些陈述。有没有我缺少的设置? 解决方案 事实证明,日志仍然存在,除非您需要手动指向您的浏览器。例如,单击map-reduce动作仍会打开作业日志页面,如( http:// localhost:50030 / jobd
..
我在Hadoop群集上使用Hive。每当我尝试运行hive查询时,它总是显示为 Stage-1的Hadoop作业信息:减速器数量:1 我已经使用了以下Hive配置: hive.exec.reducers.bytes.per.reducer = 1000000000 hive.exec.reducers.max = 999 请告诉我如何增加减速器数量。
..
我是一名新的Pig用户。 我有一个我想修改的现有模式。我的源数据如下6列: 名称类型日期地区运算值 ------ ----------------------------------------------- john ab 20130106 DX 20 john ab 20130106 DC 19 jphn ab 20130106 DT 8 jphn ab 2013
..
我是新手,在EC2上设置hadoop。我正在尝试设置单节点hadoop设置。我已成功安装并在Amazon EC2实例之一上运行Hadoop 1.1.2。所有节点,namenode,datanode,jobtracker,mapred节点都在同一台机器上。 我的核心站点配置是 <性> fs.default.name hdfs:// loc
..
我使用的是Hadoop 0.20.2(无法更改),我想将过滤器添加到我的输入路径中。数据如下: / path1 / test_a1 / path1 / test_a2 / path1 / train_a1 / path1 / train_a2 我只想用列车处理所有文件在它们中。 查看FileInputFormat类建议使用: FileInp
..
有人可以给一个与Hbase mapreduce很好的示例链接吗?我的要求是在hdfs文件上运行mapreduce并将reducer输出存储到hbase表。映射器输入将是hdfs文件,输出将是Text,IntWritable键值对。 Reducers输出将是Put对象,即添加Reducer Iterable IntWritable值并存储在hbase表中。 解决方案 以下代码将解决您的问题
..
我对Hadoop Map / Reduce相当陌生。我试图编写一个Map / Reduce作业来查找n个进程所花费的平均时间,如下所示: ProcessName Time process1 10 process2 20 processn 30 我经历了一些教程,但仍然无法得到彻底的理解。我的mapper和reducer类应该为这个问题做些什么?请问我的输出总是
..
我刚刚从0.19升级到0.20,一切似乎都正常,但网络监控工具无法正常工作: http:// mydomain.com:50070/webapps/hdfs/dfshealth.jsp 给我一个 404 。 同样代表作业追踪工具 任何想法在哪里看? > 解决方案 基本上从零开始重新安装Hadoop 0.20.2。 Nota:没有使用Nutch1.2构建来安装它
..
我使用下面的代码从一个表格中读取,该表格的行键格式为“epoch_meter”,其中epoch是以秒为单位的日期时间的长表示,并且meter是米数。 b $ b Job jobCalcDFT = Job.getInstance(confCalcIndDeviation); jobCalcDFT.setJarByClass(CalculateIndividualDeviation.
..
当我试图在R中执行map reduce并且未能与JT和TT交谈时,我注意到了这个问题。发生这种情况后,我改变了一些配置文件,但不幸的是,我忘了如何改回它(我的坏)!! JT日志: 2013-08-05 15:14:09,335 INFO org.apache.hadoop.mapred.JobTracker:STARTUP_MSG: / *** ******************
..
我试图运行以下命令。 在hdfs的输入目录中添加lined-sinple-sorted.txt和users.txt后, hduser @ ubuntu:/ usr / local / hadoop $ bin / hadoop jar /opt/mahout/core/target/mahout-core-0.7-快照job.jar org.apache.mahout.cf.taste.
..
我试图找到所有可能的组合使用阿帕奇猪,我能够产生排列,但我想消除值的复制我写这段代码: A = LOAD'data'AS f1:chararray; DUMP A; ('B') ('C') B = FOREACH A GENERATE $ 0 AS v1; C = FOREACH A GENERATE $ 0 AS v2; D = CROSS B,C; 我得
..
我使用Oozie将一组MapReduce作业串起来。由于需要大量的属性,每个作业的单独存根长约400行。这些属性中的大多数在作业之间是相同的,并使用在config-default.xml中设置的配置。我希望能够缩短每个存根并集中共同属性,因为在创建新作业时必须计算出哪些属性是常见的,这是非常不切实际的。 显而易见的解决方案是通过将常用属性放入每个存根中使用job-xml标签调用的job.xm
..
我试图使用NetBeans 7.1分析器来分析运行一系列hadoop任务(本地,单进程)的程序,但每个任务都是在单独的线程中启动的。 我已经将我的根方法设置为映射并减少了我正在使用的Mapper和Reducer的方法,但似乎在线程50之后,netbeans profiler简单地停止分析。它不能识别何时再次调用根方法。 我在最后得到的实时结果停止和快照似乎只包含来自前几个任务的数据。
..