amazon-emr 第11页 - IT屋-程序员软件开发技术分享社区

使用Airflow dag运行EMR集群，一旦完成任务，EMR将终止

我有Airflow作业，这些作业在EMR群集上运行良好。我需要的是，假设我有4个气流作业，而这些作业需要一个EMR群集，例如20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群，一旦工作完成，它将终止创建的EMR集群。解决方案当然，那将是最有效地利用资源。让我警告您：这里有很多细节；我会尝试列出尽可能多的清单。我鼓励您添加自己的综合答案，列出遇到的任何问题以及解决方法（ ..

发布时间：2020-06-02 21:22:29 apache-spark hadoop airflow amazon-emr 其他开发

如何通过Airflow将Spark作业提交给EMR集群？

如何在EMR主群集（由Terraform创建）和Airflow之间建立连接。我在具有相同SG，VPC和子网的AWS EC2服务器下设置了Airflow。我需要解决方案，以便Airflow可以与EMR对话并执行Spark提交。 ”> https://aws.amazon.com/blogs/big-data/build-a-concurrent-data-orchestration-p ..

发布时间：2020-06-02 21:20:09 amazon-web-services terraform airflow amazon-emr 其他开发

pyspark/EMR中的大型DataFrame上的collect()或toPandas()

我拥有一台计算机"c3.8xlarge"的EMR群集，在读取了几种资源后，我了解到由于我使用pyspark，必须允许大量的内存堆外使用，因此我将群集配置如下: 一名执行人: spark.executor.memory 6克 spark.executor.cores 10 spark.yarn.executor.memoryOverhead 4096 驱动程序: spar ..

发布时间：2020-05-23 21:36:12 pandas apache-spark pyspark emr amazon-emr Python

AWS EMR性能HDFS与S3

在大数据中，代码被推向数据以执行.这是有道理的，因为数据量很大并且执行的代码相对较小.来到AWS EMR时，数据可以在HDFS或S3中.在S3的情况下，必须将数据拉到核心/任务节点以从其他一些节点执行.与HDFS中的数据相比，这可能会有些开销. 最近，我注意到执行MR作业时，将日志文件放入S3的等待时间很长.有时，即使作业完成后，日志文件仍然需要花费几分钟的时间. 对此有何想法?是否有 ..

发布时间：2020-05-05 15:40:24 hadoop amazon-s3 mapreduce hdfs amazon-emr 其他开发

AWS Athena并发限制:提交的查询数与正在运行的查询数

根据 AWS雅典娜限制，您可以提交一次最多可查询20个相同类型的查询，但这是一个软限制，可以根据要求增加.我使用boto3与Athena进行交互，并且我的脚本提交了16个CTAS查询，每个查询大约需要2分钟才能完成.在一个AWS账户中，只有我在使用Athena服务.但是，当我通过控制台查看查询状态时，尽管所有查询都处于状态Running，但实际上只有少数查询(平均5个)正在执行.这是通常在“雅典娜 ..

发布时间：2020-04-30 11:32:54 concurrency limit amazon-emr amazon-athena aws-glue 其他开发

％matplotlib内联魔术命令无法从AWS-EMR Jupyterhub Notebook中的先前单元读取变量

在将其转换为AWS EMR jupyterhub中的pandas数据框后，我试图使用matplotlib绘制火花数据集. 我可以使用matplotlib在单个单元格中进行绘制，如下所示: %matplotlib inline import matplotlib import matplotlib.pyplot as plt df = [1, 1.6, 3, 4.2, 5, 4, 2. ..

发布时间：2020-04-25 06:53:56 amazon-web-services matplotlib jupyter-notebook amazon-emr 其他开发

如何使matplotlib在AWS EMR Jupyter笔记本中工作?

这与这个问题非常接近，但是我添加了一些针对我的问题的详细信息: 使用AWS-EMR jupyter笔记本进行Matplotlib绘图我想找到一种在Jupyter笔记本中使用matplotlib的方法.这是错误的代码片段，非常简单: 笔记本 import matplotlib matplotlib.use("agg") import matplotlib.pyplot as ..

发布时间：2020-04-25 06:36:08 python matplotlib pyspark jupyter-notebook amazon-emr Python

从EC2上运行的Jupyter/IPython向EMR集群发送命令

我们可以从运行在AWS EC2上的Jupyter/IPython笔记本向具有单词计数代码的AWS EMR发送命令吗? 我已按照以下网址进行安装在EC2上使用Jupyter. 还有另一个链接可以在EMR上安装 Jupyter并执行字数统计但是，我想分开Jupyter来执行EC2，将字数统计功能在EMR上执行.有什么办法可以做到这一点? 解决方案有关在连接到EMR集群的外部EC2主机上 ..

发布时间：2020-04-25 06:24:04 amazon-ec2 jupyter amazon-emr jupyter-notebook 其他开发

在EMR上的Spark中添加JDBC驱动程序

我试图将JDBC驱动程序添加到在顶级Amazon EMR上执行的Spark集群中，但我一直得到: java.sql.SQLException:未找到合适的异常驱动程序. 我尝试了以下操作: 使用addJar从代码中显式添加驱动程序Jar. 使用spark.executor.extraClassPath spark.driver.extraClassPath参数. 使用spar ..

发布时间：2019-09-02 12:59:34 jdbc apache-spark amazon-emr Java相关

在EMR上运行Spark应用程序很慢

我是Spark和MApReduce的新手，我在Elastic Map Reduce（EMR）AWS集群上运行Spark时遇到问题。问题是在EMR上运行需要花费很多时间。例如，我在.csv文件中有几百万条记录，我在JavaRDD中读取和转换。对于Spark，在这个数据集上计算简单的mapToDouble（）和sum（）函数需要104.99秒。当我在没有Spark的情况下进行相同的 ..

发布时间：2019-01-14 12:14:15 apache-spark java-8 mapreduce emr amazon-emr Java相关

尝试使用AWS SDK for Java在EMR上运行Spark，但它会跳过存储在S3上的远程JAR

我正在尝试使用SDK for Java在EMR上运行Spark，但是我遇到了使用我在S3上存储的JAR获取spark-submit的问题。以下是相关代码： public String launchCluster（）抛出异常{ StepFactory stepFactory = new StepFactory（）; //为调试创建一个集群流程步骤StepConfig enable ..

发布时间：2018-11-19 14:20:04 apache-spark amazon-s3 amazon-ec2 jar amazon-emr Java相关

从Eclipse在AWS-EMR上运行MapReduce作业

我在Eclipse中有WordCount MapReduce示例。我将它导出到Jar，并将其复制到S3。然后我在AWS-EMR上运行它。成功。然后，我读了这篇文章 - http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-common-programming-sample.html 显示如何使用AW ..

发布时间：2018-11-19 13:50:46 java jar mapreduce elastic-map-reduce amazon-emr Java开发

将包含动态列的DynamoDB表备份到S3

我已阅读其他几篇关于此的帖子，特别是问题 greg回答如何在Hive中做到这一点。我想知道如何考虑具有可变数量列的DynamoDB表？也就是说，原始DynamoDB表具有使用不同列动态添加的行。我曾尝试查看Amazon在其DataPipeLine服务中使用的exportDynamoDBToS3脚本，但其代码如下所示，似乎没有映射列： - 映射DynamoDB表 CREATE E ..

发布时间：2018-06-12 14:16:02 amazon-web-services hive boto amazon-dynamodb amazon-emr 其他开发

针对Amazon EMR / Hive处理S3中大量文件的性能调优

我试图将Amazon EMR与Hive一起使用，以处理由广告跟踪服务器生成的大量日志文件。性能比我预期的要差得多，我希望有人能够给我提供改进的指针。跟踪服务器每隔几分钟就会将日志文件上传到由S3分区的S3文件夹日（例如，“2014-05-20”）。每天上传大约3000个文件，每个文件大约20K。使用Hive，我成功创建了引用S3中数据的外部表，并为30天的日志文件设置了分区。我已经 ..

发布时间：2018-06-12 14:12:20 hive amazon-emr 其他开发

如何在HiveThriftServer2中注册自定义的UDF jar？

在HiveThriftServer2类中，调用 startWithContext 与调用 main ？我有一个客户UDF jar，我想要注册，所以每次当thrift服务器启动时，所有这些都是自动配置。有没有办法做到这一点？我可以使用Hive上下文来注册UDF jar和函数，并调用HiveThriftServer2.startWithContext来启动服务器吗？谢谢 ..

发布时间：2018-06-12 14:08:08 apache-spark hive amazon-emr spark-thriftserver 其他开发

亚马逊EMR上的s3fs：它会扩展大约1亿个小文件吗？

请参考以下已提出的问题：写入1亿个文件到s3 和打开的文件过多EMR 这里处理的数据量至少约为4-5TB。准确地说 - 300GB的gzip压缩。输入的大小将随着时间的推移而逐渐增加。例如，直到2012年12月的日志将包含： $ p $ UD $ 1，DateTime，Lat，Lng，位置 UDID-2，DateTime，Lat，Lng，位置 UDID-3 ..

发布时间：2018-06-06 11:15:23 amazon-web-services amazon-s3 hdfs amazon-emr s3fs 其他开发

如何使用AWS自动扩展功能扩展具有1个主节点和2个核心节点的AWS EMR群集？有没有办法？

我使用AWS EMR实施了一个集群。我有一个拥有2个核心节点的hadoop bootstrap动作主ndoe。现在，我想使用自动缩放并根据cpu阈值和其他一些约束条件动态调整簇大小。 BUt，我不知道网络上没有太多关于如何在现有集群上使用AutoScaling的信息。任何帮助。解决方案目前，您无法在AutoScaling组中启动EMR CLuster。但是，通过将CloudWatch警 ..

发布时间：2018-06-01 12:44:02 hadoop amazon-web-services amazon-emr hadoop2 分布式计算/Hadoop

从HDFS复制到S3时使用GroupBy合并文件夹内的文件

我在HDFS中有以下文件夹： hdfs：// xxxx：8020 / Air / BOOK / AE / DOM / 20171001/2017100101 hdfs：// xxxx：8020 / Air / BOOK / AE / INT / 20171001/2017100101 hdfs：// xxxx：8020 / Air / BOOK / BH / INT / 20171 ..

发布时间：2018-05-31 20:25:38 hadoop amazon-s3 amazon-emr distcp s3distcp 分布式计算/Hadoop

将1亿个文件写入s3

我的主要目标是根据每条记录的ID将记录分成文件，现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。输入文件采用csv格式，其中一个字段必须是输出中的文件名。所以说有以下输入记录： awesomeId1，somedetail1，somedetail2 awesomeID1，somedetail ..

发布时间：2018-05-31 20:04:09 hadoop amazon-s3 elastic-map-reduce amazon-emr emr 分布式计算/Hadoop

如何强制Hadoop解压缩其扩展名的输入？

我正在运行map-reduce，我的输入是gzipped，但没有.gz（文件名）扩展名。通常，当它们具有.gz扩展名时，Hadoop负责在将它们传递给映射器之前快速解压缩它们。但是，如果没有扩展，它不会这样做。我无法重命名我的文件，因此我需要一些“强制”Hadoop将其解压缩的方法，即使它们没有.gz扩展名。我尝试将以下标志传递给Hadoop： $ b step_args = ..

发布时间：2018-05-31 20:02:13 hadoop mapreduce emr elastic-map-reduce amazon-emr 分布式计算/Hadoop

amazon-emr相关内容