emr 第5页 - IT屋-程序员软件开发技术分享社区

通过在Amazon EMR上通过火花提交添加Postgresql jar

我已经尝试使用--drivers-class-path和--jars进行spark-submit，并且尝试了此方法 https://petz2000.wordpress.com/2015/08/18/get-blas-working-with-spark-on -amazon-emr / 在命令行中使用SPARK_CLASSPATH的方式如 SPARK_CLASSPATH = / h ..

发布时间：2020-06-03 22:54:09 apache-spark amazon pyspark apache-spark-sql emr 其他开发

在Amazon EMR集群中运行时，Spark广播的变量返回NullPointerException

我通过广播共享的变量在集群中为空。我的应用程序非常复杂，但是我编写了这个小示例，当我在本地运行它时，它可以完美运行，但是在集群中失败： package com.gonzalopezzi.bigdata.bicing import org.apache.spark.broadcast.Broadcast import org .apache.spark.rdd.RDD ..

发布时间：2020-06-03 22:52:32 apache-spark amazon broadcast emr 其他开发

pyspark/EMR中的大型DataFrame上的collect()或toPandas()

我拥有一台计算机"c3.8xlarge"的EMR群集，在读取了几种资源后，我了解到由于我使用pyspark，必须允许大量的内存堆外使用，因此我将群集配置如下: 一名执行人: spark.executor.memory 6克 spark.executor.cores 10 spark.yarn.executor.memoryOverhead 4096 驱动程序: spar ..

发布时间：2020-05-23 21:36:12 pandas apache-spark pyspark emr amazon-emr Python

无法在EMR 5.0 HUE上实例化SparkSession

我正在运行EMR 5.0集群，并且正在使用HUE创建OOZIE工作流程来提交SPARK 2.0作业.我已经在YARN上直接执行了火花提交工作，并在同一集群上执行了此步骤.没问题.但是当我使用HUE进行操作时，出现以下错误: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.i ..

发布时间：2020-05-20 18:31:25 apache-spark apache-spark-sql oozie emr hue 其他开发

包含org.apache.hadoop.hive.dynamodb的罐子

我试图以编程方式将dynamodb表加载到HDFS中(通过java和 not 配置单元)，我无法在网上找到有关如何执行此操作的示例，因此以为我会下载包含以下内容的jar org.apache.hadoop.hive.dynamodb进行反向工程. 不幸的是，我也找不到该文件:(. 有人可以为我回答以下问题(按优先顺序列出). 将动态表加载到HDFS中的Java示例(可以将其作为表 ..

发布时间：2020-05-05 15:49:06 mapreduce amazon-dynamodb elastic-map-reduce emr 其他开发

安排Amazon Elastic MapReduce作业的工具/方式

我使用EMR创建新实例并处理作业，然后关闭实例. 我的要求是定期安排工作.一种简单的实现方法是使用石英来触发EMR作业.但是，从更长远的角度来看，我对使用开箱即用的mapreduce调度解决方案感兴趣.我的问题是，我可以使用EMR或AWS-SDK提供的任何现成的计划功能吗?我可以看到在自动缩放中有计划，但是我想改为计划EMR工作流程. 解决方案有适用于Hadoop的Apache O ..

发布时间：2020-05-05 15:47:00 mapreduce hadoop-streaming elastic-map-reduce emr 其他开发

如何抑制在EMR上运行的spark-sql的INFO消息?

我正在EMR上运行Spark，如在Amazon Elastic MapReduce上运行Spark和Spark SQL 所述: 本教程将引导您快速安装和操作Spark 以及Amazon EMR上用于大规模数据处理的通用引擎簇.您还将使用以下方法在Amazon S3中创建和查询数据集: Spark SQL，并了解如何在Amazon EMR集群上监视Spark 使用Amazon CloudWa ..

发布时间：2020-05-03 06:35:43 log4j apache-spark emr 其他开发

在EMR上运行Spark应用程序很慢

我是Spark和MApReduce的新手，我在Elastic Map Reduce（EMR）AWS集群上运行Spark时遇到问题。问题是在EMR上运行需要花费很多时间。例如，我在.csv文件中有几百万条记录，我在JavaRDD中读取和转换。对于Spark，在这个数据集上计算简单的mapToDouble（）和sum（）函数需要104.99秒。当我在没有Spark的情况下进行相同的 ..

发布时间：2019-01-14 12:14:15 apache-spark java-8 mapreduce emr amazon-emr Java相关

使用引导程序替换EMR上的默认jar

我正在使用AMI 3.0.4的EMR群集上。 cd / home / hadoop / share / hadoop / common / lib / rm guava-11.0.2.jar wget http://central.maven.org/maven2/com/google/guava/guava/14.0.1/guava-14.0.1 .jar chmod 777 ..

发布时间：2018-06-01 12:47:12 hadoop amazon-web-services emr bootstrapping 分布式计算/Hadoop

将负载数据发布到HIVE中

我们在AWS中启动了两个EMR，并在一个EMR中安装了hadoop和hive-0.11.0，另外一个配置了hive-0.13.1。工作正常，但在尝试将数据加载到TABLE时，它给出了以下错误，并且它发生在两个Hive服务器中。错误信息：执行SQL命令时发生错误：load数据inpath 's3：// buckername / export / employee_1 /'到 ..

发布时间：2018-06-01 12:44:12 hadoop amazon-web-services hive emr 分布式计算/Hadoop

Nutch - 错误：未设置JAVA_HOME。当试图抓取

首先，我是Nutch / Hadoop的新手。我已经安装了Cassandra。我在我的EMR集群的主节点上安装了Nutch。当我尝试使用以下命令执行爬网时： sudo bin /抓取抓取网址-dir抓取-depth 3 -topN 5 我得到错误：未设置JAVA_HOME。如果我运行没有'sudo'的命令，我会得到：喷油器：从2014- ..

发布时间：2018-05-31 20:29:49 java hadoop cassandra nutch emr Java开发

将1亿个文件写入s3

我的主要目标是根据每条记录的ID将记录分成文件，现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。输入文件采用csv格式，其中一个字段必须是输出中的文件名。所以说有以下输入记录： awesomeId1，somedetail1，somedetail2 awesomeID1，somedetail ..

发布时间：2018-05-31 20:04:09 hadoop amazon-s3 elastic-map-reduce amazon-emr emr 分布式计算/Hadoop

如何强制Hadoop解压缩其扩展名的输入？

我正在运行map-reduce，我的输入是gzipped，但没有.gz（文件名）扩展名。通常，当它们具有.gz扩展名时，Hadoop负责在将它们传递给映射器之前快速解压缩它们。但是，如果没有扩展，它不会这样做。我无法重命名我的文件，因此我需要一些“强制”Hadoop将其解压缩的方法，即使它们没有.gz扩展名。我尝试将以下标志传递给Hadoop： $ b step_args = ..

发布时间：2018-05-31 20:02:13 hadoop mapreduce emr elastic-map-reduce amazon-emr 分布式计算/Hadoop

如何在Amazon EMR上重新启动HDFS

我在Amazon EMR群集上对HDFS的设置进行了一些更改。我想重新启动namenode和datanode以使更改生效。我无法在namenode（master）和datanode上找到任何启动和停止脚本。解决方案在EMR4上，在主控主机上运行 - sudo / sbin / start hadoop-hdfs-namenode ssh -i < ..

发布时间：2018-05-31 20:00:58 hadoop hdfs emr 分布式计算/Hadoop

Hive分区修剪计算列

我在Hive上有几张表，我的查询正在尝试检索过去x天的数据。选择Hive在使用直接日期时修剪分区，但在使用公式时进行全表扫描。 * from f_event where date_key> 20160101; 扫描分区.. s3：//...key=20160102 [f] s3：//...key=20160103 [f] s3：//...key=2016010 ..

发布时间：2018-05-31 19:58:03 hadoop amazon-s3 hive emr 分布式计算/Hadoop

在hadoop mapreduce作业上增加/减少交互节点数量是个好主意吗？

我有一个直觉，认为在运行作业中交互式增加/减少数量的节点可以加速地图繁重的工作，但无助于减少繁重的工作，大部分工作完成 by reduce。关于此问题有一个常见问题，但它不能很好地解释 http://aws.amazon.com/elasticmapreduce/faqs/#cluster-18 解决方案这个问题由Christopher Smith回答，他允许我在 ..

发布时间：2018-05-31 19:48:08 hadoop mapreduce emr 分布式计算/Hadoop

如何在emr上重新启动hadoop集群

我在Amazon Elastic MapReduce上安装了hadoop安装，每当我尝试重新启动集群时，都会收到以下错误消息： /stop-all.sh no jobtracker停止主机'localhost（:: 1）'的真实性无法建立。 RSA密钥指纹是您确定要继续连接（是/否）吗？是 localhost：警告：永久性地将'localhost'（RSA）添加到已知主机列表中。 ..

发布时间：2018-05-31 19:35:56 hadoop emr 分布式计算/Hadoop

hadoop streaming：在EMR上导入模块

上一个问题解决方法如何导入模块，例如nltk for hadoop streaming。列出的步骤包括： zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod code> 您现在可以导入nltk模块以用于您的P ..

发布时间：2018-05-31 19:32:23 python hadoop emr Python

EMR与AWS上的EC2 / Hadoop

我知道EC2比EMR更灵活但更多工作。然而，就成本而言，如果使用EC2，可能需要将EBS卷附加到EC2实例，而AWS只是从S3流入数据。因此，在AWS计算器上计算数字，即使对于EMR，也必须为EC2支付，EMR变得比EC2便宜？我错了吗？当然EC2与EBS的速度可能更快，但它是值得的成本？谢谢， Matt EMR为您做了很多事情，您在EC2上的标准Hadoop中找不到。一些特别重要 ..

发布时间：2018-05-31 19:31:02 hadoop amazon-web-services amazon-ec2 emr 分布式计算/Hadoop

MapReduce如何从多个输入文件读取？

我正在开发一个代码来读取数据，并使用 mapreduce 将它写入 HDFS 中。但是，当我有多个文件，我不明白它是如何处理的。字符串文件名= conf1.get（“输出路径”）的输出显示了目录的输入路径， map.input.file“）; 那么它如何处理目录中的文件呢？解决方案为了获得输入文件路径，您可以使用上下文对象，如下所示： FileSp ..

发布时间：2018-05-31 19:26:58 hadoop mapreduce amazon-emr emr 分布式计算/Hadoop

emr相关内容