分布式计算/Hadoop

map减少输出文件:part-r- *和part- *

我有一些关于缩小输出零件文件的问题。 1> map缩减输出中的part-r- *文件和part- *文件有什么不同? part-r- *从mapper输出,part- *从reducer输出 2>如果reducer没有产生任何结果,mapper输出将会停留或将被删除? 解决方案 通常,part-r- *来自reducer。 MultipleOutputs 允许您使用不同的命名约 ..
发布时间:2018-05-31 20:24:39 分布式计算/Hadoop

Hadoop DBWritable:无法将记录从Hadoop缩减器插入到MySQL

我已经使用Hadoop映射器来从文件中读取记录,它成功完全从文件中读取记录。但是while java.io.IOException:关键'PRIMARY'的重复条目'505975648' 但是Mysql表仍然是空的。无法将记录写入Hadoop DBWritable reducer的mysql表。 以下是错误日志: 警告:com.mysql.jdbc.exceptions.j ..

Hadoop Rest API用于上传/下载

我试图使用C#应用程序从Hadoop集群上传/下载文件,但是我无法找到用于上传的API并从文档中下载。 那么你能让我知道如何使用RestAPI上传和下载Hadoop中的文件吗? $ b 谢谢 nofollow“> http://hadoop.apache.org/docs/r1.0.4/webhdfs.html 编辑: 创建并写入文件 第1步: 提交一个HT ..
发布时间:2018-05-31 20:24:28 分布式计算/Hadoop

如何收集Hadoop集群大小/内核数量信息

我在由多台机器组成的集群上运行我的hadoop作业,这些机器的大小未知(主内存,内核数量,每台机器的大小等)。如果没有使用任何操作系统专用库(* .so文件,我的意思是说),是否有任何类或工具用于hadoop本身或一些额外的库,我可以在Hadoop MR作业正在执行时收集信息: 作业使用的内核总数/内核数量 总可用主内存/已分配可用主内存 li> 每台机器上的存储空间总量/分配的存储空间 ..
发布时间:2018-05-31 20:24:11 分布式计算/Hadoop

为什么预分区会因减少洗牌而受益?

许多教程提到, RDD 的预分区将优化火花作业的数据混洗。我感到困惑的是,因为我的理解,预分区也会导致洗牌,为什么在这里提前洗牌会有利于某些操作?特别是将它自动激发,自我将对一组转换进行优化。 例如: 如果我想要要加入两个数据集国家(id,国家)和收入(id,(收入,月份,年份)),这两种操作有什么区别? (我使用PySpark模式) 通过id预分区 收入= income. ..
发布时间:2018-05-31 20:23:34 分布式计算/Hadoop

OOZIE中的多输入路径配置

我正在尝试在oozie中配置一个Mapreduce作业。该作业有两种不同的输入格式和两个输入数据文件夹。我用这个帖子如何配置oozie具有多个映射器的多输入路径工作流程 并将这些属性添加到我的workflow.xml中: mapred.input.dir.formats 文件夹/ data / *; org.apach ..
发布时间:2018-05-31 20:23:26 分布式计算/Hadoop

RHive没有使用CDH4

有没有人试图让cdive使用RHive?它与cdh4兼容吗? 我试过在他们的Google小组上询问这个问题,但没有答案!我已经在cdh4上安装了R,RHadoop和所有相关的软件包,但我被困在了RHive中。 对所有环境变量使用cdh4,rhive.connect()给我以下错误 - pre > WARN conf.Configuration:fs.default.name已弃用 ..
发布时间:2018-05-31 20:23:07 分布式计算/Hadoop