amazon-emr相关内容

将 EMR 日志发送到 CloudWatch

有没有办法将 EMR 日志发送到 CloudWatch 而不是 S3.我们希望将所有服务日志集中在一个位置.似乎您唯一能做的就是设置监控警报,但这不包括日志记录. https://docs.aws.amazon.com/emr/最新/ManagementGuide/UsingEMR_ViewingMetrics.html 我是否必须在集群中的节点上安装 CloudWatch 代理 ht ..

AWS Athena 并发限制:提交的查询数 VS 正在运行的查询数

根据 AWS Athena 限制,您可以提交一次最多 20 个相同类型的查询,但这是一个软限制,可以根据要求增加.我使用 boto3 与 Athena 交互,我的脚本提交了 16 个 CTAS 查询,每个查询大约需要 2 分钟才能完成.在 AWS 账户中,只有我在使用 Athena 服务.但是,当我通过控制台查看查询状态时,我发现只有少数查询(平均 5 个)实际上正在执行,尽管它们都处于 Runn ..
发布时间:2021-11-27 08:49:04 其他开发

如何在 EMR 上为 Spark/Zeppelin 设置 spark.driver.memory

使用 EMR(使用 Spark、Zeppelin)时,在 Zeppelin Spark 解释器设置中更改 spark.driver.memory 将不起作用. 我想知道在使用 EMR Web 界面(而不是 aws CLI)创建集群时设置 Spark 驱动程序内存的最佳和最快方法是什么? Bootstrap 操作是否可以成为解决方案?如果是,您能否提供一个示例,说明引导操作文件的外观? ..
发布时间:2021-11-14 23:52:02 其他开发

在调用集合操作的 DataFrame 中不能有映射类型列

:org.apache.spark.sql.AnalysisException:DataFrame 中不能有调用集合操作(​​相交、除外等)的映射类型列,但列 map_col 的类型是映射 我有一个带有类型列的配置单元表 - MAP.当我尝试在 spark 上下文中对该表进行插入时,出现上述错误.在没有“distinct"的情况下,插入工作正常. 创建表 test_insert2(`tes ..
发布时间:2021-11-14 23:08:39 其他开发

AWS EMR:Pyspark:Rdd:mappartitions:在搜索时找不到有效的 SPARK_HOME:Spark 闭包

我有一个 pyspark 作业,它在本地运行时没有任何问题,但是当它从 aws 集群运行时,它在到达以下代码时卡住了.该作业仅处理 100 条记录.“some_function"将数据发布到网站,并在最后返回响应.知道出了什么问题或如何调试?仅供参考:“Some_function"在课堂之外,我猜这个问题与[“关闭"][1]有关,但不知道如何解决 response = attributes.ma ..

所有执行者都死了 MinHash LSH PySpark approxSimilarityJoin 自加入 EMR 集群

在 (name_id, name) 组合的数据帧上调用 Spark 的 MinHashLSH 的 approxSimilarityJoin 时遇到问题. 我尝试解决的问题的总结: 我有一个包含大约 3000 万个唯一 (name_id, name) 组合的公司名称数据框.其中一些名称指的是同一家公司,但 (i) 拼写错误,和/或 (ii) 包含其他名称.对每个组合执行模糊字符串匹配是不 ..

广播加入火花不适用于左外

我有一个小表 (2k) 记录和大表 (500 万) 记录.我需要从小表中获取所有数据,并且只从大表中获取匹配的数据,因此为了实现这一点,我在查询下面执行了select/*+ broadcast(small)*/small.* from small left outer join large虽然查询返回正确的结果,但是当我检查查询计划时,它显示排序合并广播哈希连接.如果小桌是左桌不能广播有什么限制吗 ..
发布时间:2021-11-14 22:37:21 其他开发

为什么我的 Spark 应用程序只在 1 个执行程序中运行?

我对 Spark 还是比较陌生,但我已经能够创建 Spark 应用程序我需要能够使用 JDBC 驱动程序从我们的 SQL Server 重新处理数据(我们正在删除昂贵的 SP),该应用程序加载了几个表从 Sql Server 通过 JDBC 到数据帧,然后我做了一些连接、一个组和一个过滤器,最后通过 JDBC 将一些数据重新插入到不同的表中.所有这些在 Amazon Web Services 中的 ..
发布时间:2021-11-14 22:31:46 其他开发

如何在 EMR 上调整 Spark 作业以在 S3 上快速写入大量数据

我有一个火花作业,我在两个数据帧之间进行外连接.第一个数据框的大小为 260 GB,文件格式为文本文件,分为 2200 个文件,第二个数据框的大小为 2GB.然后将大约 260 GB 的数据帧输出写入 S3 需要很长时间,之后我取消了 2 个多小时,因为我在 EMR 上进行了大量更改. 这是我的集群信息. emr-5.9.0大师:m3.2xlarge核心:r4.16xlarge 10 台机 ..
发布时间:2021-11-14 21:51:29 其他开发

在 AWS EMR 上运行的 Pig UDF 带有 java.lang.NoClassDefFoundError: org/apache/pig/LoadFunc

我正在开发一个应用程序,尝试读取存储在 S3 bucks 中的日志文件并使用 Elastic MapReduce 对其进行解析.当前日志文件具有以下格式 -------------------------------颜色=黑色日期=1349719200PID=23898程序=JavaEOE-------------------------------颜色=白色日期=1349719234PID=2 ..
发布时间:2021-11-12 04:19:58 其他开发

EMR 上 S3 的外部检查点

我正在尝试为我的 Flink 程序部署一个生产集群.我正在使用安装了 Flink 1.3.2 的标准 hadoop-core EMR 集群,并使用 YARN 来运行它. 我正在尝试配置我的 RocksDB 以将我的检查点写入 S3 存储桶.我正在尝试阅读这些文档:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup ..
发布时间:2021-11-12 01:05:04 其他开发