amazon-emr相关内容
我有Airflow作业,这些作业在EMR群集上运行良好。我需要的是,假设我有4个气流作业,而这些作业需要一个EMR群集,例如20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群,一旦工作完成,它将终止创建的EMR集群。 解决方案 当然,那将是最有效地利用资源。让我警告您:这里有很多细节;我会尝试列出尽可能多的清单。我鼓励您添加自己的综合答案,列出遇到的任何问题以及解决方法(
..
如何在EMR主群集(由Terraform创建)和Airflow之间建立连接。我在具有相同SG,VPC和子网的AWS EC2服务器下设置了Airflow。 我需要解决方案,以便Airflow可以与EMR对话并执行Spark提交。 ”> https://aws.amazon.com/blogs/big-data/build-a-concurrent-data-orchestration-p
..
我拥有一台计算机"c3.8xlarge"的EMR群集,在读取了几种资源后,我了解到由于我使用pyspark,必须允许大量的内存堆外使用,因此我将群集配置如下: 一名执行人: spark.executor.memory 6克 spark.executor.cores 10 spark.yarn.executor.memoryOverhead 4096 驱动程序: spar
..
在大数据中,代码被推向数据以执行.这是有道理的,因为数据量很大并且执行的代码相对较小.来到AWS EMR时,数据可以在HDFS或S3中.在S3的情况下,必须将数据拉到核心/任务节点以从其他一些节点执行.与HDFS中的数据相比,这可能会有些开销. 最近,我注意到执行MR作业时,将日志文件放入S3的等待时间很长.有时,即使作业完成后,日志文件仍然需要花费几分钟的时间. 对此有何想法?是否有
..
根据 AWS雅典娜限制,您可以提交一次最多可查询20个相同类型的查询,但这是一个软限制,可以根据要求增加.我使用boto3与Athena进行交互,并且我的脚本提交了16个CTAS查询,每个查询大约需要2分钟才能完成.在一个AWS账户中,只有我在使用Athena服务.但是,当我通过控制台查看查询状态时,尽管所有查询都处于状态Running,但实际上只有少数查询(平均5个)正在执行.这是通常在“雅典娜
..
在将其转换为AWS EMR jupyterhub中的pandas数据框后,我试图使用matplotlib绘制火花数据集. 我可以使用matplotlib在单个单元格中进行绘制,如下所示: %matplotlib inline import matplotlib import matplotlib.pyplot as plt df = [1, 1.6, 3, 4.2, 5, 4, 2.
..
这与这个问题非常接近,但是我添加了一些针对我的问题的详细信息: 使用AWS-EMR jupyter笔记本进行Matplotlib绘图 我想找到一种在Jupyter笔记本中使用matplotlib的方法.这是错误的代码片段,非常简单: 笔记本 import matplotlib matplotlib.use("agg") import matplotlib.pyplot as
..
我们可以从运行在AWS EC2上的Jupyter/IPython笔记本向具有单词计数代码的AWS EMR发送命令吗? 我已按照以下网址进行安装 在EC2上使用Jupyter. 还有另一个链接可以在EMR上安装 Jupyter并执行字数统计 但是,我想分开Jupyter来执行EC2,将字数统计功能在EMR上执行.有什么办法可以做到这一点? 解决方案 有关在连接到EMR集群的外部EC2主机上
..
我试图将JDBC驱动程序添加到在顶级Amazon EMR上执行的Spark集群中,但我一直得到: java.sql.SQLException:未找到合适的异常驱动程序. 我尝试了以下操作: 使用addJar从代码中显式添加驱动程序Jar. 使用spark.executor.extraClassPath spark.driver.extraClassPath参数. 使用spar
..
我是Spark和MApReduce的新手,我在Elastic Map Reduce(EMR)AWS集群上运行Spark时遇到问题。 问题是在EMR上运行需要花费很多时间。 例如,我在.csv文件中有几百万条记录,我在JavaRDD中读取和转换。对于Spark,在这个数据集上计算简单的mapToDouble()和sum()函数需要104.99秒。 当我在没有Spark的情况下进行相同的
..
我正在尝试使用SDK for Java在EMR上运行Spark,但是我遇到了使用我在S3上存储的JAR获取spark-submit的问题。以下是相关代码: public String launchCluster()抛出异常{ StepFactory stepFactory = new StepFactory(); //为调试 创建一个集群流程步骤StepConfig enable
..
我在Eclipse中有WordCount MapReduce示例。 我将它导出到Jar,并将其复制到S3。然后我在AWS-EMR上运行它。成功。 然后,我读了这篇文章 - http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-common-programming-sample.html 显示如何使用AW
..
我已阅读其他几篇关于此的帖子,特别是问题 greg回答如何在Hive中做到这一点。我想知道如何考虑具有可变数量列的DynamoDB表? 也就是说,原始DynamoDB表具有使用不同列动态添加的行。我曾尝试查看Amazon在其DataPipeLine服务中使用的exportDynamoDBToS3脚本,但其代码如下所示,似乎没有映射列: - 映射DynamoDB表 CREATE E
..
我试图将Amazon EMR与Hive一起使用,以处理由广告跟踪服务器生成的大量日志文件。性能比我预期的要差得多,我希望有人能够给我提供改进的指针。 跟踪服务器每隔几分钟就会将日志文件上传到由S3分区的S3文件夹日(例如,“2014-05-20”)。每天上传大约3000个文件,每个文件大约20K。 使用Hive,我成功创建了引用S3中数据的外部表,并为30天的日志文件设置了分区。我已经
..
在HiveThriftServer2类中,调用 startWithContext 与调用 main ? 我有一个客户UDF jar,我想要注册,所以每次当thrift服务器启动时,所有这些都是自动配置。有没有办法做到这一点? 我可以使用Hive上下文来注册UDF jar和函数,并调用HiveThriftServer2.startWithContext来启动服务器吗? 谢谢
..
请参考以下已提出的问题: 写入1亿个文件到s3 和 打开的文件过多EMR 这里处理的数据量至少约为4-5TB。准确地说 - 300GB的gzip压缩。 输入的大小将随着时间的推移而逐渐增加。 例如,直到2012年12月的日志将包含: $ p $ UD $ 1,DateTime,Lat,Lng,位置 UDID-2,DateTime,Lat,Lng,位置 UDID-3
..
我使用AWS EMR实施了一个集群。我有一个拥有2个核心节点的hadoop bootstrap动作主ndoe。现在,我想使用自动缩放并根据cpu阈值和其他一些约束条件动态调整簇大小。 BUt,我不知道网络上没有太多关于如何在现有集群上使用AutoScaling的信息。任何帮助。 解决方案 目前,您无法在AutoScaling组中启动EMR CLuster。但是,通过将CloudWatch警
..
我在HDFS中有以下文件夹: hdfs:// xxxx:8020 / Air / BOOK / AE / DOM / 20171001/2017100101 hdfs:// xxxx:8020 / Air / BOOK / AE / INT / 20171001/2017100101 hdfs:// xxxx:8020 / Air / BOOK / BH / INT / 20171
..
我的主要目标是根据每条记录的ID将记录分成文件,现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。 输入文件采用csv格式,其中一个字段必须是输出中的文件名。 所以说有以下输入记录: awesomeId1,somedetail1,somedetail2 awesomeID1,somedetail
..
我正在运行map-reduce,我的输入是gzipped,但没有.gz(文件名)扩展名。 通常,当它们具有.gz扩展名时,Hadoop负责在将它们传递给映射器之前快速解压缩它们。但是,如果没有扩展,它不会这样做。我无法重命名我的文件,因此我需要一些“强制”Hadoop将其解压缩的方法,即使它们没有.gz扩展名。 我尝试将以下标志传递给Hadoop: $ b step_args =
..