hadoop相关内容

如何把文件放到特定的节点上?

是否可以告诉HDFS 在哪里存储特定文件? 用例 HDFS并希望针对这些数据运行作业/应用程序。但是,我也有第2批仍然需要加载。如果我可以在第一批上运行作业/应用程序,例如从1到10的节点,并将新数据加载到节点(如11到20)并完全并行,那将会很好。 最初,我认为 那么,有没有办法在HDFS中控制数据分布?而且它有意义吗? 解决方案 从技术上讲,你可以,但我不会。 ..
发布时间:2018-05-31 18:36:25 分布式计算/Hadoop

Hadoop / Hive - 将单行分成多行

我试图找到一种方法将Hive中的一行拆分成基于分隔列的多行。比如拿一个结果集: ID1子 1 1,2 2 2,3 返回: ID1 Subs 1 1 1 2 2 2 2 3 我在 http://osdir.com/ml/hive-user-hadoop-apache/2009-09/msg00092.html ,但我没有足够 ..
发布时间:2018-05-31 18:36:23 分布式计算/Hadoop

在Hadoop Map / Reduce中为多个映射器配置映射端连接

我有一个关于在Hadoop中为多个映射器配置Map / Side内部连接的问题。 假设我有两个非常大的数据集A和B,我使用相同的分区和排序算法将它们分成较小的部分。对于A,假设我有(1)到(10),对于B我有b(1)到b(10)。确保a(1)和b(1)包含相同的密钥,a(2)和b(2)具有相同的密钥,依此类推。我想设置10个映射器,具体来说,映射器(1)映射器(10)。据我所知,Map / Si ..
发布时间:2018-05-31 18:36:21 分布式计算/Hadoop

如果我有一个需要文件路径的构造函数,我该如何“伪造”如果它被包装成一个罐子?

这个问题的上下文是,我正尝试在我编写的猪脚本中使用maxmind java api ...但我不认为知道这两者是否有必要回答这个问题,但是。 maxmind API有一个构造函数,它需要一个名为GeoIP.dat的文件的路径,该文件是一个逗号分隔的文件,它具有所需的信息。 我有一个包含API的jar文件,以及一个实例化类并使用它的包装类。我的想法是将GeoIP.dat文件打包到jar文 ..
发布时间:2018-05-31 18:36:18 Java开发

在Hive中以逗号分隔值的列

它已被问及SQL的答案(转换多行合并为一个逗号作为分隔符),上述任何方法都可以在Hive中使用,例如从这里去: + ------ + ------ + | Col1 | Col2 | + ------ + ------ + | a | 1 | | a | 5 | | a | 6 | | b | 2 | | b | 6 | + ------ + ------ ..
发布时间:2018-05-31 18:36:11 分布式计算/Hadoop

Hadoop Streaming with Python Mapper的多个输出文件

/在Hadoop流中生成单独的输出文件 我的用例如下: / p> 我有一个map-only mapreduce作业,它接受一个输入文件,进行大量解析和消除,然后写回。但是,某些行可能不是不正确的格式,如果是这种情况,我想将原始行写入单独的文件。 它似乎做到这一点的一种方法是将文件的名称预先添加到我打印的行并使用multipleOutputFormat参数。例如,如果我原本有: ..
发布时间:2018-05-31 18:36:07 Python

如何在Map / Reduce函数中提取数据?

根据 Hadoop:权威指南。 新的API支持“push”和“pull”风格的迭代。在这两个API中,键值记录对都被推送到映射器,但是另外,新API允许映射器从map()方法中提取记录。减速机也是如此。 “拉”风格如何有用的一个例子是批量处理记录,而不是一个接一个。 有人拉Map / Reduce函数中的数据?我对这个API或者相同的例子感兴趣。 解决方案 我发布了一个查询@ ..
发布时间:2018-05-31 18:36:02 分布式计算/Hadoop

尝试格式化namenode时无法找到或加载主类;在MAC OS X 10.9.2上安装hadoop

我试图用我的MAC OS X 10.9.2搭配hadoop完成开发单节点集群设置。我已经尝试了各种在线教程,最近的教程是这个。总结我所做的: 1)$ brew install hadoop 这个在/usr/local/Cellar/hadoop/2.2.0中安装了hadoop 2.2.0 2 )配置的环境变量。以下是我的.bash_profile的相关部分: ..
发布时间:2018-05-31 18:35:59 Java开发

在Hadoop伪分布式模式下充分利用所有内核

我在4核心笔记本电脑上以伪分布模式运行任务。我如何确保所有内核都得到有效使用。 目前我的作业跟踪器显示一次只能执行一个作业。这意味着只有一个核心使用? 以下是我的配置文件。 conf / core- site.xml: fs.default.name hdfs:// localhost:9 ..
发布时间:2018-05-31 18:35:57 Java开发

为什么不能识别选择部分中命名的别名?

以下是这种情况:当我如下调用hql时,它告诉我它找不到u1的别名。 hive> ;选择用户为u1,url为rank2中的u2,其中u1!=“”; FAILED:SemanticException [错误10004]:行1:50无效的表别名或列引用'u1':(可能的列名是:user,url) 这个问题与我尝试使用 count(*)作为cnt 相同。任何人都可以给我一些 ..
发布时间:2018-05-31 18:35:55 分布式计算/Hadoop

hadoop方法将输出发送到多个目录

我的 MapReduce 作业按日期处理数据并将输出写入某个文件夹结构。目前的预期是产生以下结构: 2013 01 02 .. 2012 01 02 .. $ p 在任何时候,我只能获得长达12个月的数据,所以我使用 MultipleOutputs code $>类创建12个输出,使用驱动程序中的以下函数: public ..
发布时间:2018-05-31 18:35:48 Java开发

在Hadoop中更改现有文件的块大小

考虑在 hdfs-site.xml 中缺省块大小为64MB的hadoop群集。然而,稍后团队决定将其更改为128MB。以下是我对上述情况的疑问吗? 此更改是否需要重新启动群集,否则会自动占用并且所有新文件将拥有128MB的默认块大小? 块大小为64M的现有文件会发生什么情况?配置中的更改是否会自动应用于现有文件?如果它会自动完成,那么什么时候完成 - 一旦完成更改或集群启动时?如果没有自动 ..
发布时间:2018-05-31 18:35:29 分布式计算/Hadoop

纱线容器的理解和调整

你好,我们最近升级到mr1的纱线。我知道容器是一个抽象的概念,但我不明白一个容器可以产生多少jvm任务(map,reduce,filter等),或者其他方式要求的是容器可以在多个map或reduce任务中重用。我在以下博客中阅读: YARN中的容器是什么? $ b $ p “每个映射器和reducer在它自己的容器上运行都很准确!”这意味着如果我查看AM日志,我应该请参阅分配的容器数量等于ma ..
发布时间:2018-05-31 18:35:24 Java开发

为什么要将Mapper和Reducer类声明为静态?

这可能表明我缺乏对Java的理解,但我想知道为什么大多数MapReduce程序中mapper和reducer类被声明为static? 解决方案 当将映射器和reducer类声明为另一个类的内部类时,它们必须声明为静态的,以使它们不依赖于。 Hadoop使用反射为每个映射或减少运行的任务创建类的实例。创建的新实例需要一个零参数构造函数(否则它将如何知道要传递什么)。 通过声明不带 ..
发布时间:2018-05-31 18:35:21 Java开发