分布式计算/Hadoop

Custom WritableCompare将对象引用显示为输出

我是Hadoop和Java的新手,我觉得有一些显而易见的缺点。如果这意味着什么,我正在使用Hadoop 1.0.3。 我使用hadoop的目标是每次读取一堆文件并解析一个文件(而不是逐行)。每个文件都会生成多个键值,但其他行的上下文非常重要。键和值是多值/复合,所以我已经为键实现了WritableCompare,并为值实现了Writable。因为每个文件的处理需要一些CPU,所以我想保存映射 ..
发布时间:2018-05-31 20:18:01 分布式计算/Hadoop

在hadoop reducer中加载本地库?

我有一个本地库,我需要为我的reduce方法加载,并将其添加到分布式缓存中,但是当我在地图方法中调用System.loadLibrary(mylib.so)时,出现错误和失败的映射任务: 错误:java.library.path中没有mylib.so 尽管我将它添加到分布式缓存中。我错过了一步吗?在我的作业配置中,我打电话给: DistributedCache.a ..
发布时间:2018-05-31 20:17:59 分布式计算/Hadoop

行锁定HBase单行事务支持

在HBase中,为了提供单行事务支持,它使用Row Locking Concept。假设,例如 Put p = new Put(“/ * Row Key * /”); 将锁定该行。 这样,直到我们完成 表。 (p) 锁定不会被释放。 所以,如果我开始一个新的放置,即 放置p1 = new Put(“/ Row Key “); p1 put不应该工作,因为该 ..
发布时间:2018-05-31 20:17:50 分布式计算/Hadoop

转换矩阵格式,烫伤

好的,所以在烫伤时,我们可以使用矩阵api轻松处理矩阵,并且可以 - 以这种方式: val matrix = Tsv(path,('row,'col,'val)) .read .toMatrix [Long,Long,Double]('row,'col,'val ) 但是我如何将矩阵转换为格式,就像我们通常写的那样?是否有一些优雅的方式? 1 2 3 3 ..
发布时间:2018-05-31 20:17:47 分布式计算/Hadoop

Hadoop - LeaseExpiredException

我有多个压缩文件,每个压缩文件包含8个大小为5-10kb的xml文件。我将这些数据用于测试目的,否则实时数据有1000个xml文件。 (FileStatus状态:状态列表){ this.unzip()我写了map only程序来解压缩压缩文件 status.getPath()。toString(),DestPath,fs); } 此方法将创建文件并读取未压缩的数据 ..
发布时间:2018-05-31 20:17:32 分布式计算/Hadoop

Oozie - 任务日志不显示

使用CDH 5,当我运行我的oozie工作流程时,我不再看到来自映射器(log4j,slf4j)的日志语句。我什至试过System.out.println - 我仍然没有看到这些陈述。有没有我缺少的设置? 解决方案 事实证明,日志仍然存在,除非您需要手动指向您的浏览器。例如,单击map-reduce动作仍会打开作业日志页面,如( http:// localhost:50030 / jobd ..
发布时间:2018-05-31 20:17:30 分布式计算/Hadoop

猪改变模式为所需的类型

我是一名新的Pig用户。 我有一个我想修改的现有模式。我的源数据如下6列: 名称类型日期地区运算值 ------ ----------------------------------------------- john ab 20130106 DX 20 john ab 20130106 DC 19 jphn ab 20130106 DT 8 jphn ab 2013 ..
发布时间:2018-05-31 20:17:23 分布式计算/Hadoop

Hadoop setInputPathFilter错误

我使用的是Hadoop 0.20.2(无法更改),我想将过滤器添加到我的输入路径中。数据如下: / path1 / test_a1 / path1 / test_a2 / path1 / train_a1 / path1 / train_a2 我只想用列车处理所有文件在它们中。 查看FileInputFormat类建议使用: FileInp ..
发布时间:2018-05-31 20:17:13 分布式计算/Hadoop

在hdfs文件上运行mapreduce并将reducer结果存储在hbase表中的示例

有人可以给一个与Hbase mapreduce很好的示例链接吗?我的要求是在hdfs文件上运行mapreduce并将reducer输出存储到hbase表。映射器输入将是hdfs文件,输出将是Text,IntWritable键值对。 Reducers输出将是Put对象,即添加Reducer Iterable IntWritable值并存储在hbase表中。 解决方案 以下代码将解决您的问题 ..
发布时间:2018-05-31 20:17:10 分布式计算/Hadoop

在编写Map / Reduce作业时需要帮助以找到平均值

我对Hadoop Map / Reduce相当陌生。我试图编写一个Map / Reduce作业来查找n个进程所花费的平均时间,如下所示: ProcessName Time process1 10 process2 20 processn 30 我经历了一些教程,但仍然无法得到彻底的理解。我的mapper和reducer类应该为这个问题做些什么?请问我的输出总是 ..
发布时间:2018-05-31 20:17:05 分布式计算/Hadoop

Hadoop网站监控升级问题

我刚刚从0.19升级到0.20,一切似乎都正常,但网络监控工具无法正常工作: http:// mydomain.com:50070/webapps/hdfs/dfshealth.jsp 给我一​​个 404 。 同样代表作业追踪工具 任何想法在哪里看? > 解决方案 基本上从零开始重新安装Hadoop 0.20.2。 Nota:没有使用Nutch1.2构建来安装它 ..
发布时间:2018-05-31 20:17:02 分布式计算/Hadoop

重写TableMapper分割

我使用下面的代码从一个表格中读取,该表格的行键格式为“epoch_meter”,其中epoch是以秒为单位的日期时间的长表示,并且meter是米数。 b $ b Job jobCalcDFT = Job.getInstance(confCalcIndDeviation); jobCalcDFT.setJarByClass(CalculateIndividualDeviation. ..
发布时间:2018-05-31 20:16:59 分布式计算/Hadoop

无法启动CDH伪群集中的Jobtracker和Tasktracker

当我试图在R中执行map reduce并且未能与JT和TT交谈时,我注意到了这个问题。发生这种情况后,我改变了一些配置文件,但不幸的是,我忘了如何改回它(我的坏)!! JT日志: 2013-08-05 15:14:09,335 INFO org.apache.hadoop.mapred.JobTracker:STARTUP_MSG: / *** ****************** ..
发布时间:2018-05-31 20:16:57 分布式计算/Hadoop

缩短Oozie工作流程

我使用Oozie将一组MapReduce作业串起来。由于需要大量的属性,每个作业的单独存根长约400行。这些属性中的大多数在作业之间是相同的,并使用在config-default.xml中设置的配置。我希望能够缩短每个存根并集中共同属性,因为在创建新作业时必须计算出哪些属性是常见的,这是非常不切实际的。 显而易见的解决方案是通过将常用属性放入每个存根中使用job-xml标签调用的job.xm ..
发布时间:2018-05-31 20:16:33 分布式计算/Hadoop

NetBeans分析器“停止工作” 50线程限制之后?

我试图使用NetBeans 7.1分析器来分析运行一系列hadoop任务(本地,单进程)的程序,但每个任务都是在单独的线程中启动的。 我已经将我的根方法设置为映射并减少了我正在使用的Mapper和Reducer的方法,但似乎在线程50之后,netbeans profiler简单地停止分析。它不能识别何时再次调用根方法。 我在最后得到的实时结果停止和快照似乎只包含来自前几个任务的数据。 ..
发布时间:2018-05-31 20:16:15 分布式计算/Hadoop