amazon-emr相关内容

MapReduce如何从多个输入文件读取?

我正在开发一个代码来读取数据,并使用 mapreduce 将它写入 HDFS 中。但是,当我有多个文件,我不明白它是如何处理的。 字符串文件名= conf1.get(“输出路径”)的输出显示了目录的输入路径, map.input.file“); 那么它如何处理目录中的文件呢? 解决方案 为了获得输入文件路径,您可以使用上下文对象,如下所示: FileSp ..
发布时间:2018-05-31 19:26:58 分布式计算/Hadoop

AWS EMR上的avro错误

我正在使用spark-redshift( https://github.com/databricks/spark-redshift 从Redshift中读取是可以的,在写入时我得到 导致:java.lang.NoSuchMethodError:org.apache.avro.generic.GenericData.createDatumWriter(Lorg / apache / av ..
发布时间:2018-05-31 19:01:04 Java开发

如何将Hadoop Streaming与LZO压缩的序列文件一起使用?

我正在尝试使用Amazon的Elastic Map Reduce来处理Google ngrams数据集。在 http://aws.amazon.com/datasets/8172056142375670 有一个公共数据集,而我希望使用Hadoop流。 对于输入文件,它说:“我们将数据集存储在Amazon S3中的单个对象中。该文件采用顺序文件格式LZO压缩,序列文件关键字是以LongWrit ..
发布时间:2018-05-31 18:52:17 分布式计算/Hadoop

你如何使用JSON数据制作HIVE表格?

我想从一些JSON数据(嵌套)创建一个Hive表并在其上运行查询?这甚至有可能吗? 我已经将JSON文件上传到S3并启动了一个EMR实例,但我不知道要在Hive控制台中键入要获取JSON的内容文件是一个Hive表? 有没有人有一些示例命令让我开始,我找不到任何有用的Google ... 解决方案 您需要使用JSON serde才能将您的JSON映射到表中的列。 不幸的是, ..
发布时间:2018-05-31 18:40:41 分布式计算/Hadoop

在EMR群集上优化GC

我在EMR上运行一个用Scala编写的Spark Job,每个执行程序的stdout都被GC分配失败填满。 2016-12-07T23:42:20.614 + 0000:[GC(分配失败)2016-12-07T23:42: 20.614 + 0000:[ParNew:909549K-> 432K(1022400K),0.0089234secs] 2279433K-> 1370373K(32 ..
发布时间:2018-04-19 18:03:12 其他开发

星火未安装EMR集群

我一直使用星火电子病历集群上几个星期,现在没有问题 - 设置是与AMI 3.8.0和1.3.1星火,我通过'-x'作为参数传递给星火(没有这个它似乎没有安装)。 我想升级到较新版本的Spark和今天的纺与电子病历-4.1.0 AMI集群,包含星火1.5.0。当集群启动它声称已经成功安装火花(至少在AWS集群管理页面上),但是当我ssh到'的hadoop @ [IP地址]“我没有看到任何在”Had ..

星火运行在EC2上VS EMR

我们是被关于与数据科学毕业设计工作的学生,我们正在开发使用与Python(Pyspark)火花与Android应用程序(界面为用户)一个导购引擎,我们有遇到了很多路障,其中之一就是如何保持星火脚本并运行在云的快速处理和实时结果。 我们所知道EMR它比EC2更新,已经具有安装在Hadoop。 我们仍然有困难时期采取在其上使用的,什么是处理星火它们之间的差异决定的。 解决方案 EMR提供了 ..
发布时间:2016-05-22 16:08:42 Python

在星火AWS EMR UI

我正在通过EMR控制台下拉装有火花AWS EMR集群(1.3.1)。 Spark是当前和处理数据,但我试图找到哪个端口已被分配给在WebUI。我试着用口无连接转发4040都和8080。我转发像这样 的ssh -i〜/ KEY.pem -L 8080:本地主机:8080 Hadoop的@ EMR_DNS 1)如何找出星火WebUI中指定的端口是什么? 2)如何验证星火WebUI中运行? ..
发布时间:2016-05-22 15:54:00 其他开发

如何使EMR保持运行

可能重复: 再利用亚马逊的弹性麻preduce实例 我可以保持一个推出EMR集群运行和不断提交新的就业机会,直到我(之后几天再说)完成,然后关闭集群或做我必须lanuch在EC2我自己的群集这样做? 解决方案 是的。 在特别的,我用的是CLI客户端。下面是我的脚本一个片段: JOBFLOW_ID =`弹性-MA preduce --create --alive --name集群--n ..
发布时间:2015-12-01 13:52:33 云存储

在AWS上运行电子病历与java.lang.NoClassDefFoundError的猪UDF:组织/阿帕奇/头/ LoadFunc

我开发的尝试读取存储在S3雄鹿日志文件,并使用弹力麻preduce解析它的应用程序。当前的日志文件的格式如下 ------------------------------- 颜色=黑色 日期= 1349719200 PID = 23898 程序= Java的 EOE ------------------------------- COLOR =白 日期= 1349719234 PID = 23 ..
发布时间:2015-12-01 13:52:07 云存储

无法在AWS EMR安装R / rmr2

已经花费了大约一个星期要安装R和rmr2对AWS-EMR,我转向大家一点帮助。我的启动脚本被成功安装 - [R 2.14.1-1〜lennycran.0(感谢JD朗的博客)。当我尝试安装rmr2我有经典的依赖问题。看来我得安装软件包像RCPP,RJSONIO,bitops,消化和5个。因为只有一个老RCPP工作有R 2.14.1,我下载了一个名为版本,并安装它。多大年纪,我不知道 - 我随意尝试了 ..
发布时间:2015-12-01 13:49:24 云存储