首页
分布式计算/Hadoop
通过键Scalding Hadoop（一个MapReduce作业）写入多个输出

通过键Scalding Hadoop（一个MapReduce作业）写入多个输出 [英] Write to multiple outputs by key Scalding Hadoop, one MapReduce Job

查看：231 发布时间：2018/5/31 19:14:55 scala hadoop mapreduce cascading scalding

本文介绍了通过键Scalding Hadoop（一个MapReduce作业）写入多个输出的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

如何在单个Map Reduce作业中使用Scalding（/ cascading）来写入多个依赖于键的输出。我当然可以为所有可能的键使用 .filter ，但这是一个可怕的黑客攻击，它会触发许多作业。

How can you write to multiple outputs dependent on the key using Scalding(/cascading) in a single Map Reduce Job. I could of course use .filter for all the possible keys, but that is a horrible hack, which will fire up many jobs.

推荐答案

TemplatedTsv Scalding（从版本0.9.0rc16开始），与Cascading TemplateTsv完全一样。

There is TemplatedTsv in Scalding (from version 0.9.0rc16 and up), exactly same as Cascading TemplateTsv.

Tsv(args("input"), ('COUNTRY, 'GDP)) .read .write(TemplatedTsv(args("output"), "%s", 'COUNTRY)) // it will create a directory for each country under "output" path in Hadoop mode.

这篇关于通过键Scalding Hadoop（一个MapReduce作业）写入多个输出的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

相关文章

通过 key Scalding Hadoop 写入多个输出，一个 MapReduce Job;

通过键 Spark 写入多个输出 - 一项 Spark 作业;

在 Hadoop 中链接多个 MapReduce 作业;

在Hadoop中链接多个MapReduce作业;

Hadoop MapReduce排序使用键减少输出;

Hadoop MapReduce - 每个输入一个输出文件;

Hadoop MapReduce - 每个输入的一个输出文件;

Hadoop MapReduce 中间输出;

Hadoop MapReduce中间输出;

Hadoop MapReduce：可以在一个hadoop作业类中定义两个mappers和reducer？;

不通过PuTTy / SSH，通过Python启动Hadoop MapReduce作业;

如何从 Eclipse 调试 hadoop mapreduce 作业?;

在Hadoop mapreduce作业中重用JVM;

在 Hadoop mapreduce 作业中重用 JVM;

（Hadoop）MapReduce - 链作业 - JobControl不停止;

MapReduce 作业输出排序顺序;

MapReduce作业输出排序顺序;

Hadoop MapReduce Streaming输出与本地运行MapReduce的输出不同;

Hadoop HDFS MapReduce输出到MongoDb;

Hadoop MapReduce:可以在一个 hadoop 作业类中定义两个映射器和化简器吗?;

一个火花的工作 - 通过按键星火写入到多个输出;

Hadoop:提供目录作为 MapReduce 作业的输入;

提高Hadoop中MapReduce作业性能的技巧;

(Hadoop) MapReduce - 链式作业 - JobControl 不会停止;

Hadoop：提供目录作为MapReduce作业的输入;

分布式计算/Hadoop最新文章

SearchPhaseExecutionException [无法执行phase [query]，所有分片失败];

如何计算Hive中两个数组的交集和联合？;

Elasticsearch：执行精确搜索，其中查询包含特殊字符，如'＃';

找不到hadoop安装：必须设置$ HADOOP_HOME或hadoop必须位于路径中;

Hive错误：parseexception缺少EOF;

如何从HIVE中的日期中减去几个月;

在ambari hadoop安装过程中，许可被拒绝（publickey，gssapi-keyex，gssapi-with-mic，密码）;

从kibana导出到csv / excel;

检索ElasticSearch中所有_id的高效方法;

不正确的配置：namenode地址dfs.namenode.rpc-address未配置;

热门教程

Java教程

Apache ANT 教程

Kali Linux教程

JavaScript教程

JavaFx教程

MFC 教程

Apache HTTP客户端教程

Microsoft Visio 教程

热门工具

Java 在线工具

C(GCC) 在线工具

PHP 在线工具

C# 在线工具

Python 在线工具

MySQL 在线工具

VB.NET 在线工具

Lua 在线工具

Oracle 在线工具

C++(GCC) 在线工具

Go 在线工具

Fortran 在线工具

登录关闭

扫码关注1秒登录

发送“验证码”获取 | 15天全站免登陆

友情链接： IT屋 Chrome插件谷歌浏览器插件

IT屋 ©2016-2022 琼ICP备2021000895号-1 站点地图站点标签 SiteMap <免责申明> 本站内容来源互联网,如果侵犯您的权益请联系我们删除.