emr相关内容

无法在EMR 5.0 HUE上实例化SparkSession

我正在运行EMR 5.0集群,并且正在使用HUE创建OOZIE工作流程来提交SPARK 2.0作业.我已经在YARN上直接执行了火花提交工作,并在同一集群上执行了此步骤.没问题.但是当我使用HUE进行操作时,出现以下错误: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.i ..
发布时间:2020-05-20 18:31:25 其他开发

包含org.apache.hadoop.hive.dynamodb的罐子

我试图以编程方式将dynamodb表加载到HDFS中(通过java和 not 配置单元),我无法在网上找到有关如何执行此操作的示例,因此以为我会下载包含以下内容的jar org.apache.hadoop.hive.dynamodb进行反向工程. 不幸的是,我也找不到该文件:(. 有人可以为我回答以下问题(按优先顺序列出). 将动态表加载到HDFS中的Java示例(可以将其作为表 ..
发布时间:2020-05-05 15:49:06 其他开发

安排Amazon Elastic MapReduce作业的工具/方式

我使用EMR创建新实例并处理作业,然后关闭实例. 我的要求是定期安排工作.一种简单的实现方法是使用石英来触发EMR作业.但是,从更长远的角度来看,我对使用开箱即用的mapreduce调度解决方案感兴趣.我的问题是,我可以使用EMR或AWS-SDK提供的任何现成的计划功能吗?我可以看到在自动缩放中有计划,但是我想改为计划EMR工作流程. 解决方案 有适用于Hadoop的Apache O ..
发布时间:2020-05-05 15:47:00 其他开发

如何抑制在EMR上运行的spark-sql的INFO消息?

我正在EMR上运行Spark,如在Amazon Elastic MapReduce上运行Spark和Spark SQL 所述: 本教程将引导您快速安装和操作Spark 以及Amazon EMR上用于大规模数据处理的通用引擎 簇.您还将使用以下方法在Amazon S3中创建和查询数据集: Spark SQL,并了解如何在Amazon EMR集群上监视Spark 使用Amazon CloudWa ..
发布时间:2020-05-03 06:35:43 其他开发

在EMR上运行Spark应用程序很慢

我是Spark和MApReduce的新手,我在Elastic Map Reduce(EMR)AWS集群上运行Spark时遇到问题。 问题是在EMR上运行需要花费很多时间。 例如,我在.csv文件中有几百万条记录,我在JavaRDD中读取和转换。对于Spark,在这个数据集上计算简单的mapToDouble()和sum()函数需要104.99秒。 当我在没有Spark的情况下进行相同的 ..
发布时间:2019-01-14 12:14:15 Java相关

将负载数据发布到HIVE中

我们在AWS中启动了两个EMR,并在一个EMR中安装了hadoop和hive-0.11.0,另外一个配置了hive-0.13.1。 工作正常,但在尝试将数据加载到TABLE时,它给出了以下错误,并且它发生在两个Hive服务器中。 错误信息: 执行SQL命令时发生错误:load数据inpath 's3:// buckername / export / employee_1 /'到 ..
发布时间:2018-06-01 12:44:12 分布式计算/Hadoop

Nutch - 错误:未设置JAVA_HOME。当试图抓取

首先,我是Nutch / Hadoop的新手。我已经安装了Cassandra。我在我的EMR集群的主节点上安装了Nutch。当我尝试使用以下命令执行爬网时: sudo bin /抓取抓取网址-dir抓取-depth 3 -topN 5 我得到 错误:未设置JAVA_HOME。 如果我运行没有'sudo'的命令,我会得到: 喷油器:从2014- ..
发布时间:2018-05-31 20:29:49 Java开发

将1亿个文件写入s3

我的主要目标是根据每条记录的ID将记录分成文件,现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。 输入文件采用csv格式,其中一个字段必须是输出中的文件名。 所以说有以下输入记录: awesomeId1,somedetail1,somedetail2 awesomeID1,somedetail ..

如何强制Hadoop解压缩其扩展名的输入?

我正在运行map-reduce,我的输入是gzipped,但没有.gz(文件名)扩展名。 通常,当它们具有.gz扩展名时,Hadoop负责在将它们传递给映射器之前快速解压缩它们。但是,如果没有扩展,它不会这样做。我无法重命名我的文件,因此我需要一些“强制”Hadoop将其解压缩的方法,即使它们没有.gz扩展名。 我尝试将以下标志传递给Hadoop: $ b step_args = ..

如何在Amazon EMR上重新启动HDFS

我在Amazon EMR群集上对HDFS的设置进行了一些更改。我想重新启动namenode和datanode以使更改生效。我无法在namenode(master)和datanode上找到任何启​​动和停止脚本。 解决方案 在EMR4上,在主控主机上运行 - sudo / sbin / start hadoop-hdfs-namenode ssh -i < ..
发布时间:2018-05-31 20:00:58 分布式计算/Hadoop

Hive分区修剪计算列

我在Hive上有几张表,我的查询正在尝试检索过去x天的数据。 选择Hive在使用直接日期时修剪分区,但在使用公式时进行全表扫描。 * from f_event where date_key> 20160101; 扫描分区.. s3://...key=20160102 [f] s3://...key=20160103 [f] s3://...key=2016010 ..
发布时间:2018-05-31 19:58:03 分布式计算/Hadoop

在hadoop mapreduce作业上增加/减少交互节点数量是个好主意吗?

我有一个直觉,认为在运行作业中交互式增加/减少 数量的节点可以加速地图繁重的 工作,但无助于减少繁重的工作,大部分工作完成 by reduce。 关于此问题有一个常见问题,但它不能很好地解释 http://aws.amazon.com/elasticmapreduce/faqs/#cluster-18 解决方案 这个问题由Christopher Smith回答,他允许我在 ..
发布时间:2018-05-31 19:48:08 分布式计算/Hadoop

如何在emr上重新启动hadoop集群

我在Amazon Elastic MapReduce上安装了hadoop安装,每当我尝试重新启动集群时,都会收到以下错误消息: /stop-all.sh no jobtracker停止 主机'localhost(:: 1)'的真实性无法建立。 RSA密钥指纹是 您确定要继续连接(是/否)吗?是 localhost:警告:永久性地将'localhost'(RSA)添加到已知主机列表中。 ..
发布时间:2018-05-31 19:35:56 分布式计算/Hadoop

hadoop streaming:在EMR上导入模块

上一个问题解决方法如何导入模块,例如nltk for hadoop streaming。 列出的步骤包括: zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod code> 您现在可以导入nltk模块以用于您的P ..
发布时间:2018-05-31 19:32:23 Python

EMR与AWS上的EC2 / Hadoop

我知道EC2比EMR更灵活但更多工作。然而,就成本而言,如果使用EC2,可能需要将EBS卷附加到EC2实例,而AWS只是从S3流入数据。因此,在AWS计算器上计算数字,即使对于EMR,也必须为EC2支付,EMR变得比EC2便宜?我错了吗? 当然EC2与EBS的速度可能更快,但它是值得的成本? 谢谢, Matt EMR为您做了很多事情,您在EC2上的标准Hadoop中找不到。一些特别重要 ..
发布时间:2018-05-31 19:31:02 分布式计算/Hadoop

MapReduce如何从多个输入文件读取?

我正在开发一个代码来读取数据,并使用 mapreduce 将它写入 HDFS 中。但是,当我有多个文件,我不明白它是如何处理的。 字符串文件名= conf1.get(“输出路径”)的输出显示了目录的输入路径, map.input.file“); 那么它如何处理目录中的文件呢? 解决方案 为了获得输入文件路径,您可以使用上下文对象,如下所示: FileSp ..
发布时间:2018-05-31 19:26:58 分布式计算/Hadoop