amazon-emr 第12页 - IT屋-程序员软件开发技术分享社区

简单的RDD在Spark中写入DynamoDB

试图将基本的RDD数据集导入DynamoDB时就陷入困境。这是代码： import org.apache.hadoop.mapred.JobConf var rdd = sc.parallelize（Array（（“”，Map（“col1” - > Map（“s” - >“abc”），“col2” - > Map（“n” - >“123”）））） $ b $ jobConf = ..

发布时间：2018-05-31 19:32:49 hadoop apache-spark amazon-dynamodb amazon-emr 分布式计算/Hadoop

Hive有相当于DUAL的东西吗？

我想运行如下语句： SELECT date_add（'2008-12-31'，1）FROM DUAL $ b Hive（在Amazon EMR上运行）是否有类似的功能？解决方案尚未： https://issues.apache.org/jira/浏览/ HIVE-1558 ..

发布时间：2018-05-31 19:27:57 hadoop hive amazon-emr 分布式计算/Hadoop

如何从亚马逊的弹性mapreduce（emr）群集上运行mapreduce作业？

我试图学习如何在亚马逊的EMR上运行java Map / Reduce（M / R）作业。我所遵循的文档在这里 http://aws.amazon.com/articles/3938 。我在Windows 7电脑上。当我尝试运行此命令时，显示帮助信息。 ./ elasticmapreduce-client.rb RunJobFlow streaming_jobflow.json ..

发布时间：2018-05-31 19:27:09 hadoop mapreduce elastic-map-reduce amazon-emr 分布式计算/Hadoop

MapReduce如何从多个输入文件读取？

我正在开发一个代码来读取数据，并使用 mapreduce 将它写入 HDFS 中。但是，当我有多个文件，我不明白它是如何处理的。字符串文件名= conf1.get（“输出路径”）的输出显示了目录的输入路径， map.input.file“）; 那么它如何处理目录中的文件呢？解决方案为了获得输入文件路径，您可以使用上下文对象，如下所示： FileSp ..

发布时间：2018-05-31 19:26:58 hadoop mapreduce amazon-emr emr 分布式计算/Hadoop

AWS EMR上的YARN日志聚合 - UnsupportedFileSystemException

我努力为我的Amazon EMR群集启用YARN日志聚合。我正在关注这个配置文件： http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-debugging.html#emr-plan-debugging-logs-归档在标题为“使用AWS CLI在Amazon S3中汇总日志”的部分下。 ..

发布时间：2018-05-31 19:20:20 hadoop yarn emr amazon-emr hadoop2 分布式计算/Hadoop

AWS EMR上的avro错误

我正在使用spark-redshift（ https://github.com/databricks/spark-redshift 从Redshift中读取是可以的，在写入时我得到导致：java.lang.NoSuchMethodError：org.apache.avro.generic.GenericData.createDatumWriter（Lorg / apache / av ..

发布时间：2018-05-31 19:01:04 java scala hadoop avro amazon-emr Java开发

如何将Hadoop Streaming与LZO压缩的序列文件一起使用？

我正在尝试使用Amazon的Elastic Map Reduce来处理Google ngrams数据集。在 http://aws.amazon.com/datasets/8172056142375670 有一个公共数据集，而我希望使用Hadoop流。对于输入文件，它说：“我们将数据集存储在Amazon S3中的单个对象中。该文件采用顺序文件格式LZO压缩，序列文件关键字是以LongWrit ..

发布时间：2018-05-31 18:52:17 hadoop mapreduce amazon-emr 分布式计算/Hadoop

你如何使用JSON数据制作HIVE表格？

我想从一些JSON数据（嵌套）创建一个Hive表并在其上运行查询？这甚至有可能吗？我已经将JSON文件上传到S3并启动了一个EMR实例，但我不知道要在Hive控制台中键入要获取JSON的内容文件是一个Hive表？有没有人有一些示例命令让我开始，我找不到任何有用的Google ... 解决方案您需要使用JSON serde才能将您的JSON映射到表中的列。不幸的是， ..

发布时间：2018-05-31 18:40:41 json hadoop hive amazon-emr emr 分布式计算/Hadoop

在EMR群集上优化GC

我在EMR上运行一个用Scala编写的Spark Job，每个执行程序的stdout都被GC分配失败填满。 2016-12-07T23：42：20.614 + 0000：[GC（分配失败）2016-12-07T23：42： 20.614 + 0000：[ParNew：909549K-> 432K（1022400K），0.0089234secs] 2279433K-> 1370373K（32 ..

发布时间：2018-04-19 18:03:12 apache-spark garbage-collection jvm emr amazon-emr 其他开发

使用Java将文件从FTP下载到本地会导致文件无法读取 - 编码问题

我开发了一个代码，可以从FTP读取非常大的文件，并使用Java将其写入本地计算机。它的代码如下。这是来自下一个（Text key，Text value）在的 RecordReader > CustomInputFormat if（！processed） { System.out .println（“in processed”）; in = fs.open（file）; proc ..

发布时间：2018-04-13 14:17:03 java hadoop ftp elastic-map-reduce amazon-emr Java开发

如何将.net DateTime.Ticks转换为Hive DateTime在查询中？

首先我尝试了代码，我在日期文件中添加了一个列DateTime.Ticks（635677577653488758），我试图将它转换为Hadoop Hive的Date。在MySql下面阻止它，它的工作。但是，与Hive相同的代码并不起作用，因为date_add函数适用于INT。 SELECT DATE_ADD（'2001-01-01 00:00:00'，INTERVAL（MAX（f.date） ..

发布时间：2017-04-15 14:02:32 c# datetime hadoop hive amazon-emr C#/.NET

我一直使用星火电子病历集群上几个星期，现在没有问题 - 设置是与AMI 3.8.0和1.3.1星火，我通过'-x'作为参数传递给星火（没有这个它似乎没有安装）。我想升级到较新版本的Spark和今天的纺与电子病历-4.1.0 AMI集群，包含星火1.5.0。当集群启动它声称已经成功安装火花（至少在AWS集群管理页面上），但是当我ssh到'的hadoop @ [IP地址]“我没有看到任何在”Had ..

发布时间：2016-05-22 16:08:56 amazon-web-services amazon-ec2 apache-spark amazon-emr 其他开发

星火运行在EC2上VS EMR

我们是被关于与数据科学毕业设计工作的学生，我们正在开发使用与Python（Pyspark）火花与Android应用程序（界面为用户）一个导购引擎，我们有遇到了很多路障，其中之一就是如何保持星火脚本并运行在云的快速处理和实时结果。我们所知道EMR它比EC2更新，已经具有安装在Hadoop。我们仍然有困难时期采取在其上使用的，什么是处理星火它们之间的差异决定的。解决方案 EMR提供了 ..

发布时间：2016-05-22 16:08:42 python amazon-web-services amazon-ec2 apache-spark amazon-emr Python

对于application_申请报告（州：接受）从来没有火花结束提交（含纱线星火1.2.0）

我正在室壁运动加火花应用 ..

发布时间：2016-05-22 15:58:40 apache-spark yarn amazon-emr amazon-kinesis 其他开发

在星火AWS EMR UI

我正在通过EMR控制台下拉装有火花AWS EMR集群（1.3.1）。 Spark是当前和处理数据，但我试图找到哪个端口已被分配给在WebUI。我试着用口无连接转发4040都和8080。我转发像这样的ssh -i〜/ KEY.pem -L 8080：本地主机：8080 Hadoop的@ EMR_DNS 1）如何找出星火WebUI中指定的端口是什么？ 2）如何验证星火WebUI中运行？ ..

发布时间：2016-05-22 15:54:00 apache-spark amazon-emr 其他开发

与MASTER =纱线集群中运行HiveFromSpark例子

我试图运行 ..

发布时间：2016-05-22 15:36:15 hadoop apache-spark amazon-emr apache-spark-sql 其他开发

获得＆QUOT;文件不存在＆QUOT;运行一个Amazon EMR作业时出错

我已经上传我的数据 genotype1_large_ind_large.txt phenotype1_large_ind_large_1.txt 到S3系统，并在电子病历的用户界面，我喜欢设置参数如下 RunDear.run S3N：//scalability/genotype1_large_ind_large.txt S3N：//scalability/phenotype1_large_in ..

发布时间：2015-12-01 13:52:38 amazon-web-services amazon-emr emr 云存储

如何使EMR保持运行

可能重复：再利用亚马逊的弹性麻preduce实例我可以保持一个推出EMR集群运行和不断提交新的就业机会，直到我（之后几天再说）完成，然后关闭集群或做我必须lanuch在EC2我自己的群集这样做？解决方案是的。在特别的，我用的是CLI客户端。下面是我的脚本一个片段： JOBFLOW_ID =`弹性-MA preduce --create --alive --name集群--n ..

发布时间：2015-12-01 13:52:33 amazon-web-services amazon-emr emr 云存储

在AWS上运行电子病历与java.lang.NoClassDefFoundError的猪UDF：组织/阿帕奇/头/ LoadFunc

我开发的尝试读取存储在S3雄鹿日志文件，并使用弹力麻preduce解析它的应用程序。当前的日志文件的格式如下 ------------------------------- 颜色=黑色日期= 1349719200 PID = 23898 程序= Java的 EOE ------------------------------- COLOR =白日期= 1349719234 PID = 23 ..

发布时间：2015-12-01 13:52:07 hadoop amazon-web-services apache-pig amazon-emr 云存储

无法在AWS EMR安装R / rmr2

已经花费了大约一个星期要安装R和rmr2对AWS-EMR，我转向大家一点帮助。我的启动脚本被成功安装 - [R 2.14.1-1〜lennycran.0（感谢JD朗的博客）。当我尝试安装rmr2我有经典的依赖问题。看来我得安装软件包像RCPP，RJSONIO，bitops，消化和5个。因为只有一个老RCPP工作有R 2.14.1，我下载了一个名为版本，并安装它。多大年纪，我不知道 - 我随意尝试了 ..

发布时间：2015-12-01 13:49:24 r amazon-web-services amazon-emr bootstrapping 云存储

amazon-emr相关内容