emr相关内容
我已经尝试使用--drivers-class-path和--jars进行spark-submit,并且尝试了此方法 https://petz2000.wordpress.com/2015/08/18/get-blas-working-with-spark-on -amazon-emr / 在命令行中使用SPARK_CLASSPATH的方式如 SPARK_CLASSPATH = / h
..
我通过广播共享的变量在集群中为空。 我的应用程序非常复杂,但是我编写了这个小示例,当我在本地运行它时,它可以完美运行,但是在集群中失败: package com.gonzalopezzi.bigdata.bicing import org.apache.spark.broadcast.Broadcast import org .apache.spark.rdd.RDD
..
我拥有一台计算机"c3.8xlarge"的EMR群集,在读取了几种资源后,我了解到由于我使用pyspark,必须允许大量的内存堆外使用,因此我将群集配置如下: 一名执行人: spark.executor.memory 6克 spark.executor.cores 10 spark.yarn.executor.memoryOverhead 4096 驱动程序: spar
..
我正在运行EMR 5.0集群,并且正在使用HUE创建OOZIE工作流程来提交SPARK 2.0作业.我已经在YARN上直接执行了火花提交工作,并在同一集群上执行了此步骤.没问题.但是当我使用HUE进行操作时,出现以下错误: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.i
..
我试图以编程方式将dynamodb表加载到HDFS中(通过java和 not 配置单元),我无法在网上找到有关如何执行此操作的示例,因此以为我会下载包含以下内容的jar org.apache.hadoop.hive.dynamodb进行反向工程. 不幸的是,我也找不到该文件:(. 有人可以为我回答以下问题(按优先顺序列出). 将动态表加载到HDFS中的Java示例(可以将其作为表
..
我使用EMR创建新实例并处理作业,然后关闭实例. 我的要求是定期安排工作.一种简单的实现方法是使用石英来触发EMR作业.但是,从更长远的角度来看,我对使用开箱即用的mapreduce调度解决方案感兴趣.我的问题是,我可以使用EMR或AWS-SDK提供的任何现成的计划功能吗?我可以看到在自动缩放中有计划,但是我想改为计划EMR工作流程. 解决方案 有适用于Hadoop的Apache O
..
我正在EMR上运行Spark,如在Amazon Elastic MapReduce上运行Spark和Spark SQL 所述: 本教程将引导您快速安装和操作Spark 以及Amazon EMR上用于大规模数据处理的通用引擎 簇.您还将使用以下方法在Amazon S3中创建和查询数据集: Spark SQL,并了解如何在Amazon EMR集群上监视Spark 使用Amazon CloudWa
..
我是Spark和MApReduce的新手,我在Elastic Map Reduce(EMR)AWS集群上运行Spark时遇到问题。 问题是在EMR上运行需要花费很多时间。 例如,我在.csv文件中有几百万条记录,我在JavaRDD中读取和转换。对于Spark,在这个数据集上计算简单的mapToDouble()和sum()函数需要104.99秒。 当我在没有Spark的情况下进行相同的
..
我正在使用AMI 3.0.4的EMR群集上。 cd / home / hadoop / share / hadoop / common / lib / rm guava-11.0.2.jar wget http://central.maven.org/maven2/com/google/guava/guava/14.0.1/guava-14.0.1 .jar chmod 777
..
我们在AWS中启动了两个EMR,并在一个EMR中安装了hadoop和hive-0.11.0,另外一个配置了hive-0.13.1。 工作正常,但在尝试将数据加载到TABLE时,它给出了以下错误,并且它发生在两个Hive服务器中。 错误信息: 执行SQL命令时发生错误:load数据inpath 's3:// buckername / export / employee_1 /'到
..
首先,我是Nutch / Hadoop的新手。我已经安装了Cassandra。我在我的EMR集群的主节点上安装了Nutch。当我尝试使用以下命令执行爬网时: sudo bin /抓取抓取网址-dir抓取-depth 3 -topN 5 我得到 错误:未设置JAVA_HOME。 如果我运行没有'sudo'的命令,我会得到: 喷油器:从2014-
..
我的主要目标是根据每条记录的ID将记录分成文件,现在有超过150亿条记录可以增加。我需要一个使用Amazon EMR的可扩展解决方案。我已经完成了一个拥有大约9亿条记录的较小数据集。 输入文件采用csv格式,其中一个字段必须是输出中的文件名。 所以说有以下输入记录: awesomeId1,somedetail1,somedetail2 awesomeID1,somedetail
..
我正在运行map-reduce,我的输入是gzipped,但没有.gz(文件名)扩展名。 通常,当它们具有.gz扩展名时,Hadoop负责在将它们传递给映射器之前快速解压缩它们。但是,如果没有扩展,它不会这样做。我无法重命名我的文件,因此我需要一些“强制”Hadoop将其解压缩的方法,即使它们没有.gz扩展名。 我尝试将以下标志传递给Hadoop: $ b step_args =
..
我在Amazon EMR群集上对HDFS的设置进行了一些更改。我想重新启动namenode和datanode以使更改生效。我无法在namenode(master)和datanode上找到任何启动和停止脚本。 解决方案 在EMR4上,在主控主机上运行 - sudo / sbin / start hadoop-hdfs-namenode ssh -i <
..
我在Hive上有几张表,我的查询正在尝试检索过去x天的数据。 选择Hive在使用直接日期时修剪分区,但在使用公式时进行全表扫描。 * from f_event where date_key> 20160101; 扫描分区.. s3://...key=20160102 [f] s3://...key=20160103 [f] s3://...key=2016010
..
我有一个直觉,认为在运行作业中交互式增加/减少 数量的节点可以加速地图繁重的 工作,但无助于减少繁重的工作,大部分工作完成 by reduce。 关于此问题有一个常见问题,但它不能很好地解释 http://aws.amazon.com/elasticmapreduce/faqs/#cluster-18 解决方案 这个问题由Christopher Smith回答,他允许我在
..
我在Amazon Elastic MapReduce上安装了hadoop安装,每当我尝试重新启动集群时,都会收到以下错误消息: /stop-all.sh no jobtracker停止 主机'localhost(:: 1)'的真实性无法建立。 RSA密钥指纹是 您确定要继续连接(是/否)吗?是 localhost:警告:永久性地将'localhost'(RSA)添加到已知主机列表中。
..
上一个问题解决方法如何导入模块,例如nltk for hadoop streaming。 列出的步骤包括: zip -r nltkandyaml.zip nltk yaml mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod code> 您现在可以导入nltk模块以用于您的P
..
我知道EC2比EMR更灵活但更多工作。然而,就成本而言,如果使用EC2,可能需要将EBS卷附加到EC2实例,而AWS只是从S3流入数据。因此,在AWS计算器上计算数字,即使对于EMR,也必须为EC2支付,EMR变得比EC2便宜?我错了吗? 当然EC2与EBS的速度可能更快,但它是值得的成本? 谢谢, Matt EMR为您做了很多事情,您在EC2上的标准Hadoop中找不到。一些特别重要
..
我正在开发一个代码来读取数据,并使用 mapreduce 将它写入 HDFS 中。但是,当我有多个文件,我不明白它是如何处理的。 字符串文件名= conf1.get(“输出路径”)的输出显示了目录的输入路径, map.input.file“); 那么它如何处理目录中的文件呢? 解决方案 为了获得输入文件路径,您可以使用上下文对象,如下所示: FileSp
..