emr相关内容

无法在 EMR 5.0 HUE 上实例化 SparkSession

我正在运行一个 EMR 5.0 集群,我正在使用 HUE 创建一个 OOZIE 工作流来提交 SPARK 2.0 作业.我直接在 YARN 上使用 spark-submit 运行了该作业,并作为同一集群上的一个步骤.没问题.但是,当我使用 HUE 执行此操作时,出现以下错误: java.lang.IllegalArgumentException:实例化“org.apache.spark.sql. ..
发布时间:2021-11-14 22:44:50 其他开发

如何在 Amazon EMR 上引导安装 Python 模块?

我想做一些非常基本的事情,只需通过 EMR 控制台启动 Spark 集群并运行依赖于 Python 包的 Spark 脚本(例如,箭头).最直接的方法是什么? 解决方案 最直接的方法是创建一个包含安装命令的 bash 脚本,将其复制到 S3,然后从控制台设置引导操作以指向您的安装命令.脚本. 这是我在生产中使用的示例: s3://mybucket/bootstrap/insta ..
发布时间:2021-11-12 05:43:23 Python

EMR 上 S3 的外部检查点

我正在尝试为我的 Flink 程序部署一个生产集群.我正在使用安装了 Flink 1.3.2 的标准 hadoop-core EMR 集群,并使用 YARN 来运行它. 我正在尝试配置我的 RocksDB 以将我的检查点写入 S3 存储桶.我正在尝试阅读这些文档:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup ..
发布时间:2021-11-12 01:05:04 其他开发

无法在 EMR 中重新启动 Hue

我无法在 AWS EMR Hadoop 集群中重新启动 Hue.我已经修改了hue.ini 文件并想重新启动hue 以应用更改.当我运行“servicehue restart"时,它给出了“command not found"错误.我可以理解,这一定是因为没有将色调添加到环境路径中.但是,当我运行 bin/hue 时,它​​不会将重新启动作为输入.有没有办法重新启动hue? 我使用的是 Hu ..
发布时间:2021-10-27 18:51:22 其他开发

AWS EMR Spark Python日志记录

我正在AWS EMR上运行一个非常简单的Spark作业,并且似乎无法从脚本中获取任何日志输出. 我尝试过打印到stderr: 从pyspark 导入SparkContext导入系统如果__name__ =='__main__':sc = SparkContext(appName ="HelloWorld")打印('Hello,world!',file = sys.stderr)sc.st ..
发布时间:2021-05-04 19:11:03 Python

通过SDK启用AWS EMRFS一致视图

通常通过emrfs-site.xml启用emrfs一致性 http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emrfs-configure-consistent-view.html 有人知道是否可以通过SDK访问这些设置吗? 解决方案 是的,您在这里有完整的文档: http://docs.aws.ama ..
发布时间:2021-04-13 18:42:28 其他开发

Spark Shell停留在YARN接受状态

在纱线和EMR上运行Spark 1.3.1.当我运行spark-shell时,一切看起来都很正常,直到我开始看到诸如 INFO yarn.Client:application_1439330624449_1561的应用程序报告(状态:ACCEPTED)之类的消息.这些消息是每秒无休止地生成的.同时,我无法使用Spark外壳. 我不明白为什么会这样. 解决方案 意识到我在终端中杀死了一 ..
发布时间:2021-04-03 19:10:36 其他开发

纱线堆的使用量随时间增长

我们在AWS EMR上运行Spark Streaming作业。该作业将稳定运行10到14个小时,然后崩溃,并且stderr,stdout或Cloudwatch日志中没有明显的错误。在此崩溃之后,任何尝试重新启动作业的尝试都会立即失败,并显示“无法分配内存”(errno = 12)(完整的消息)。 对Cloudwatch指标和Ganglia的调查均显示 driver.jvm.heap.used ..
发布时间:2020-10-29 05:29:55 其他开发

执行者和核心人数

我是Spark的新手,如果我们有2个从属c4.8xlarge节点和1个c4.8x大型主节点,我想知道在Spark作业和AWS中必须使用多少个内核和执行程序.我尝试了不同的组合,但无法理解该概念. 谢谢. 解决方案 Cloudera的家伙对此给出了很好的解释 https://www.youtube.com/watch?v=vfiJQ7wg81Y 如果,假设您的节点上有16个 ..
发布时间:2020-08-23 02:40:56 其他开发