emr相关内容
在EMR Spark上,通过数据帧向S3写入RDD[String]。 rddString .toDF() .coalesce(16) .write .option("compression", "gzip") .mode(SaveMode.Overwrite) .json(s"s3n://my-bucket/some/new/path") 保存模式为Overwri
..
阅读本页后: http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-differences.html “运营差异和注意事项”->“消除了对Amazon S3的直接写入”部分。 我想知道-这是否意味着在EMR 4.x版本中从配置单元写入S3将比5.x版本更快? 如果是这样的话,这不是一种倒退吗?为什么AWS要取消此优化
..
我们在 RDS 中有几个巨大的 mySql 表(超过 700 GB),我们希望将它们迁移到 DynamoDB 表.您能否提出一个策略或方向,以一种干净、并行的方式做到这一点?也许使用 EMR 或 AWS Data Pipeline. 解决方案 您可以使用 AWS Pipeline.有两个基本模板,一个用于将 RDS 表移动到 S3,第二个用于将数据从 S3 导入 DynamoDB.您可以使
..
我想知道在使用自定义 jar 运行流式作业时如何指定 mapreduce 配置,例如 mapred.task.timeout 、 mapred.min.split.size 等. 当我们使用ruby或python等外部脚本语言运行时,我们可以通过以下方式来指定这些配置: ruby elastic-mapreduce -j --stream --step-name "mystream
..
我的减速器出现以下异常: EMFILE: 打开的文件太多在 org.apache.hadoop.io.nativeio.NativeIO.open(本机方法)在 org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161)在 org.apache.hadoop.mapred.TaskLog.writeToInd
..
我收到此错误,我尝试增加集群实例以及执行程序和驱动程序参数中的内存,但没有成功. 17/05/07 23:17:07 错误 TransportClient:无法将 RPC 6465703946954088562 发送到 ip-172-30-12-164.eu-central-1.compute.internal/172.30.12.164: java.nio.channels.ClosedCha
..
有谁知道适用于 Amazon Web Services 的 Scala SDK?我对 EMR 工作特别感兴趣. 解决方案 看看 AWScala(它是 AWS SDK for Java 之上的一个简单包装器): https://github.com/seratch/AWScala [来自 04/07/2015 的更新]:来自@dwhjames 的另一个非常有前途的库: 用于
..
我通过 Elastic MapReduce 交互式会话创建了一个 Hive 表,并从一个 CSV 文件中填充它,如下所示: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING)行格式分隔以 '\t' 结尾的字段;加载数据本地输入路径'/home/hadoop/file.csv' OVERWRITE INTO TABLE csvimp
..
我想从一些 JSON 数据(嵌套)中创建一个 Hive 表并对其运行查询?这甚至可能吗? 我已经将 JSON 文件上传到 S3 并启动了一个 EMR 实例,但我不知道在 hive 控制台中输入什么才能使 JSON 文件成为 Hive 表? 有没有人有一些示例命令可以帮助我入门,我在 Google 上找不到任何有用的东西... 解决方案 您需要使用 JSON serde 以便 H
..
我已经在 Amazon EMR 上成功完成了 mahout 矢量化工作(使用 在 Elastic MapReduce 上的 Mahout 作为参考).现在我想将结果从 HDFS 复制到 S3(以便在将来的集群中使用它). 为此,我使用了 hadoop distcp:den@aws:~$ elastic-mapreduce --jar s3://elasticmapreduce/samples/d
..
我的减速器出现以下异常: EMFILE:打开的文件太多在 org.apache.hadoop.io.nativeio.NativeIO.open(本机方法)在 org.apache.hadoop.io.SecureIOUtils.createForWrite(SecureIOUtils.java:161)在 org.apache.hadoop.mapred.TaskLog.writeToInde
..
我正在 Amazon Elastic Map Reduce (EMR) 上的 Apache Spark 上运行一项作业.目前我在 emr-4.1.0 上运行,其中包括 Amazon Hadoop 2.6.0 和 Spark 1.5.0. 当我开始作业时,YARN 已正确地将所有工作节点分配给了 spark 作业(当然,其中一个用于驱动程序). 我将神奇的“maximizeResourc
..
我在 amazom aws emr 4.0.0 中运行 spark 1.4.1 由于某些原因,与 emr 3.8 相比,emr 4.0.0 上的 saveAsTextFile 速度非常慢(原为 5 秒,现在为 95 秒) 实际上 saveAsTextFile 说它是在 4.356 秒内完成的,但在那之后我看到很多 INFO 消息,在接下来的 90 秒内来自 com.amazonaws.
..
我正在尝试使用最新的 EMR 加载一个包含 1TB 数据的数据库以在 AWS 上触发.而且运行时间太长,甚至 6 小时内都没有完成,但是在运行 6h30m 之后,我收到一些错误,宣布 Container 在 lost 节点上发布,然后作业失败.日志是这样的: 16/07/01 22:45:43 WARN scheduler.TaskSetManager: 在阶段 0.0 丢失任务 144178.
..
我正在 AWS EMR 上运行一个 5 节点 Spark 集群,每个集群的大小为 m3.xlarge(1 主 4 从).我成功地运行了一个 146Mb bzip2 压缩的 CSV 文件,最终得到了一个完美聚合的结果. 现在我正在尝试在此集群上处理 ~5GB bzip2 CSV 文件,但收到此错误: 16/11/23 17:29:53 WARN TaskSetManager: Lost
..
使用 EMR(使用 Spark、Zeppelin)时,在 Zeppelin Spark 解释器设置中更改 spark.driver.memory 将不起作用. 我想知道在使用 EMR Web 界面(而不是 aws CLI)创建集群时设置 Spark 驱动程序内存的最佳和最快方法是什么? Bootstrap 操作是否可以成为解决方案?如果是,您能否提供一个示例,说明引导操作文件的外观?
..
我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本.为此,我使用了一个如下所示的 json 对象: [{"分类": "zeppelin-env",“特性": {},“配置":[{"分类": "出口",“特性": {"ZEPPELIN_NOTEBOOK_STORAGE":"org.apache.zeppelin.notebook.repo.S3NotebookRepo","
..
我有 Amazon EMR Hadoop v2.6 集群和 Spark 1.4.1,以及 Yarn 资源管理器.我想在单独的机器上部署 Zeppelin,以便在没有作业运行时关闭 EMR 集群. 我尝试按照此处的说明操作 https://zeppelin.incubator.apache.org/docs/install/yarn_install.html收效甚微. 有人可以解开 Ze
..
我在 aws spark 上运行以下句子 val sqlContext = new org.apache.spark.sql.SQLContext(sc)导入 sqlContext.implicits._案例类 Wiki(项目:字符串,标题:字符串,计数:整数,字节大小:字符串)val data = sc.textFile("s3n://++++/").map(_.split(" ")).fil
..
我正在使用标准 hdfs 而不是 S3 与 amazon emr 一起运行 spark 作业来存储我的文件.我在 hdfs://user/hive/warehouse/中有一个 hive 表,但是在运行我的 spark 作业时找不到它.我配置了 spark 属性 spark.sql.warehouse.dir 以反映我的 hdfs 目录的属性,而纱线日志确实说: 17/03/28 19:54:0
..