amazon-emr相关内容

使用Airflow dag运行EMR集群,一旦完成任务,EMR将终止

我有Airflow作业,这些作业在EMR群集上运行良好。我需要的是,假设我有4个气流作业,而这些作业需要一个EMR群集,例如20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群,一旦工作完成,它将终止创建的EMR集群。 解决方案 当然,那将是最有效地利用资源。让我警告您:这里有很多细节;我会尝试列出尽可能多的清单。我鼓励您添加自己的综合答案,列出遇到的任何问题以及解决方法( ..
发布时间:2020-06-02 21:22:29 其他开发

AWS EMR性能HDFS与S3

在大数据中,代码被推向数据以执行.这是有道理的,因为数据量很大并且执行的代码相对较小.来到AWS EMR时,数据可以在HDFS或S3中.在S3的情况下,必须将数据拉到核心/任务节点以从其他一些节点执行.与HDFS中的数据相比,这可能会有些开销. 最近,我注意到执行MR作业时,将日志文件放入S3的等待时间很长.有时,即使作业完成后,日志文件仍然需要花费几分钟的时间. 对此有何想法?是否有 ..
发布时间:2020-05-05 15:40:24 其他开发

AWS Athena并发限制:提交的查询数与正在运行的查询数

根据 AWS雅典娜限制,您可以提交一次最多可查询20个相同类型的查询,但这是一个软限制,可以根据要求增加.我使用boto3与Athena进行交互,并且我的脚本提交了16个CTAS查询,每个查询大约需要2分钟才能完成.在一个AWS账户中,只有我在使用Athena服务.但是,当我通过控制台查看查询状态时,尽管所有查询都处于状态Running,但实际上只有少数查询(平均5个)正在执行.这是通常在“雅典娜 ..
发布时间:2020-04-30 11:32:54 其他开发

从EC2上运行的Jupyter/IPython向EMR集群发送命令

我们可以从运行在AWS EC2上的Jupyter/IPython笔记本向具有单词计数代码的AWS EMR发送命令吗? 我已按照以下网址进行安装 在EC2上使用Jupyter. 还有另一个链接可以在EMR上安装 Jupyter并执行字数统计 但是,我想分开Jupyter来执行EC2,将字数统计功能在EMR上执行.有什么办法可以做到这一点? 解决方案 有关在连接到EMR集群的外部EC2主机上 ..
发布时间:2020-04-25 06:24:04 其他开发

在EMR上的Spark中添加JDBC驱动程序

我试图将JDBC驱动程序添加到在顶级Amazon EMR上执行的Spark集群中,但我一直得到: java.sql.SQLException:未找到合适的异常驱动程序. 我尝试了以下操作: 使用addJar从代码中显式添加驱动程序Jar. 使用spark.executor.extraClassPath spark.driver.extraClassPath参数. 使用spar ..
发布时间:2019-09-02 12:59:34 Java相关

在EMR上运行Spark应用程序很慢

我是Spark和MApReduce的新手,我在Elastic Map Reduce(EMR)AWS集群上运行Spark时遇到问题。 问题是在EMR上运行需要花费很多时间。 例如,我在.csv文件中有几百万条记录,我在JavaRDD中读取和转换。对于Spark,在这个数据集上计算简单的mapToDouble()和sum()函数需要104.99秒。 当我在没有Spark的情况下进行相同的 ..
发布时间:2019-01-14 12:14:15 Java相关

尝试使用AWS SDK for Java在EMR上运行Spark,但它会跳过存储在S3上的远程JAR

我正在尝试使用SDK for Java在EMR上运行Spark,但是我遇到了使用我在S3上存储的JAR获取spark-submit的问题。以下是相关代码: public String launchCluster()抛出异常{ StepFactory stepFactory = new StepFactory(); //为调试 创建一个集群流程步骤StepConfig enable ..
发布时间:2018-11-19 14:20:04 Java相关

将包含动态列的DynamoDB表备份到S3

我已阅读其他几篇关于此的帖子,特别是问题 greg回答如何在Hive中做到这一点。我想知道如何考虑具有可变数量列的DynamoDB表? 也就是说,原始DynamoDB表具有使用不同列动态添加的行。我曾尝试查看Amazon在其DataPipeLine服务中使用的exportDynamoDBToS3脚本,但其代码如下所示,似乎没有映射列: - 映射DynamoDB表 CREATE E ..

针对Amazon EMR / Hive处理S3中大量文件的性能调优

我试图将Amazon EMR与Hive一起使用,以处理由广告跟踪服务器生成的大量日志文件。性能比我预期的要差得多,我希望有人能够给我提供改进的指针。 跟踪服务器每隔几分钟就会将日志文件上传到由S3分区的S3文件夹日(例如,“2014-05-20”)。每天上传大约3000个文件,每个文件大约20K。 使用Hive,我成功创建了引用S3中数据的外部表,并为30天的日志文件设置了分区。我已经 ..
发布时间:2018-06-12 14:12:20 其他开发

如何在HiveThriftServer2中注册自定义的UDF jar?

在HiveThriftServer2类中,调用 startWithContext 与调用 main ? 我有一个客户UDF jar,我想要注册,所以每次当thrift服务器启动时,所有这些都是自动配置。有没有办法做到这一点? 我可以使用Hive上下文来注册UDF jar和函数,并调用HiveThriftServer2.startWithContext来启动服务器吗? 谢谢 ..
发布时间:2018-06-12 14:08:08 其他开发

亚马逊EMR上的s3fs:它会扩展大约1亿个小文件吗?

请参考以下已提出的问题: 写入1亿个文件到s3 和 打开的文件过多EMR 这里处理的数据量至少约为4-5TB。准确地说 - 300GB的gzip压缩。 输入的大小将随着时间的推移而逐渐增加。 例如,直到2012年12月的日志将包含: $ p $ UD $ 1,DateTime,Lat,Lng,位置 UDID-2,DateTime,Lat,Lng,位置 UDID-3 ..
发布时间:2018-06-06 11:15:23 其他开发

如何使用AWS自动扩展功能扩展具有1个主节点和2个核心节点的AWS EMR群集?有没有办法?

我使用AWS EMR实施了一个集群。我有一个拥有2个核心节点的hadoop bootstrap动作主ndoe。现在,我想使用自动缩放并根据cpu阈值和其他一些约束条件动态调整簇大小。 BUt,我不知道网络上没有太多关于如何在现有集群上使用AutoScaling的信息。任何帮助。 解决方案 目前,您无法在AutoScaling组中启动EMR CLuster。但是,通过将CloudWatch警 ..

将1亿个文件写入s3

我的主要目标是根据每条记录的ID将记录分成文件,现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。 输入文件采用csv格式,其中一个字段必须是输出中的文件名。 所以说有以下输入记录: awesomeId1,somedetail1,somedetail2 awesomeID1,somedetail ..

如何强制Hadoop解压缩其扩展名的输入?

我正在运行map-reduce,我的输入是gzipped,但没有.gz(文件名)扩展名。 通常,当它们具有.gz扩展名时,Hadoop负责在将它们传递给映射器之前快速解压缩它们。但是,如果没有扩展,它不会这样做。我无法重命名我的文件,因此我需要一些“强制”Hadoop将其解压缩的方法,即使它们没有.gz扩展名。 我尝试将以下标志传递给Hadoop: $ b step_args = ..