amazon-emr 第3页 - IT屋-程序员软件开发技术分享社区

如何在一段时间后自动终止 AWS EMR 集群

我目前手头有一项任务，要在一段时间后终止长期运行的 EMR 集群(基于某些指标).Google Dataproc 在此处列出的称为“集群计划删除"中具有此功能:https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/scheduled-deletion 这在 EMR 上是可能的吗?也许使用 Cloudwatch ..

发布时间：2021-11-27 09:16:45 amazon-web-services amazon-emr amazon-cloudwatch 其他开发

将 EMR 日志发送到 CloudWatch

有没有办法将 EMR 日志发送到 CloudWatch 而不是 S3.我们希望将所有服务日志集中在一个位置.似乎您唯一能做的就是设置监控警报，但这不包括日志记录. https://docs.aws.amazon.com/emr/最新/ManagementGuide/UsingEMR_ViewingMetrics.html 我是否必须在集群中的节点上安装 CloudWatch 代理 ht ..

发布时间：2021-11-27 09:16:24 amazon-web-services amazon-emr amazon-cloudwatch amazon-cloudwatchlogs 其他开发

AWS Athena 并发限制:提交的查询数 VS 正在运行的查询数

根据 AWS Athena 限制，您可以提交一次最多 20 个相同类型的查询，但这是一个软限制，可以根据要求增加.我使用 boto3 与 Athena 交互，我的脚本提交了 16 个 CTAS 查询，每个查询大约需要 2 分钟才能完成.在 AWS 账户中，只有我在使用 Athena 服务.但是，当我通过控制台查看查询状态时，我发现只有少数查询(平均 5 个)实际上正在执行，尽管它们都处于 Runn ..

发布时间：2021-11-27 08:49:04 concurrency limit amazon-emr amazon-athena aws-glue 其他开发

如何在 EMR 上为 Spark/Zeppelin 设置 spark.driver.memory

使用 EMR(使用 Spark、Zeppelin)时，在 Zeppelin Spark 解释器设置中更改 spark.driver.memory 将不起作用. 我想知道在使用 EMR Web 界面(而不是 aws CLI)创建集群时设置 Spark 驱动程序内存的最佳和最快方法是什么? Bootstrap 操作是否可以成为解决方案?如果是，您能否提供一个示例，说明引导操作文件的外观? ..

发布时间：2021-11-14 23:52:02 apache-spark emr amazon-emr apache-zeppelin 其他开发

启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器

我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本.为此，我使用了一个如下所示的 json 对象: [{"分类": "zeppelin-env",“特性": {},“配置":[{"分类": "出口",“特性": {"ZEPPELIN_NOTEBOOK_STORAGE":"org.apache.zeppelin.notebook.repo.S3NotebookRepo"," ..

发布时间：2021-11-14 23:51:02 apache-spark emr amazon-emr apache-zeppelin 其他开发

如何配置 spark 以创建“_$folder$"?S3 中的条目?

当我使用将数据帧写入 S3 时 df.write.format("镶木地板").mode("覆盖").partitionBy("year", "month", "day", "hour", "gen", "client").option("压缩", "gzip").save("s3://xxxx/yyyy") 我在 S3 中得到以下内容 year=2018年=2019 但我想要这个: ..

发布时间：2021-11-14 23:16:29 scala apache-spark-sql amazon-emr 其他开发

在调用集合操作的 DataFrame 中不能有映射类型列

:org.apache.spark.sql.AnalysisException:DataFrame 中不能有调用集合操作(相交、除外等)的映射类型列，但列 map_col 的类型是映射我有一个带有类型列的配置单元表 - MAP.当我尝试在 spark 上下文中对该表进行插入时，出现上述错误.在没有“distinct"的情况下，插入工作正常. 创建表 test_insert2(`tes ..

发布时间：2021-11-14 23:08:39 hive pyspark apache-spark-sql amazon-emr 其他开发

AWS EMR:Pyspark:Rdd:mappartitions:在搜索时找不到有效的 SPARK_HOME:Spark 闭包

我有一个 pyspark 作业，它在本地运行时没有任何问题，但是当它从 aws 集群运行时，它在到达以下代码时卡住了.该作业仅处理 100 条记录.“some_function"将数据发布到网站，并在最后返回响应.知道出了什么问题或如何调试?仅供参考:“Some_function"在课堂之外，我猜这个问题与[“关闭"][1]有关，但不知道如何解决 response = attributes.ma ..

发布时间：2021-11-14 22:56:34 apache-spark pyspark apache-spark-sql python-requests amazon-emr 其他开发

所有执行者都死了 MinHash LSH PySpark approxSimilarityJoin 自加入 EMR 集群

在 (name_id, name) 组合的数据帧上调用 Spark 的 MinHashLSH 的 approxSimilarityJoin 时遇到问题. 我尝试解决的问题的总结: 我有一个包含大约 3000 万个唯一 (name_id, name) 组合的公司名称数据框.其中一些名称指的是同一家公司，但 (i) 拼写错误，和/或 (ii) 包含其他名称.对每个组合执行模糊字符串匹配是不 ..

发布时间：2021-11-14 22:52:18 pyspark apache-spark-sql garbage-collection amazon-emr minhash 其他开发

使用 MASTER=yarn-cluster 运行 HiveFromSpark 示例

我正在尝试运行 HiveFromSpark 在我的 EMR Spark/Hive 集群上的示例. 问题使用 yarn-client: ~/spark/bin/spark-submit --master yarn-client --num-executors=19 --class org.apache.spark.examples.sql.hive.HiveFromSpark ~/s ..

发布时间：2021-11-14 22:47:07 hadoop apache-spark amazon-emr apache-spark-sql 其他开发

使用 MASTER=yarn-cluster 运行 HiveFromSpark 示例

我正在尝试运行 HiveFromSpark 在我的 EMR Spark/Hive 集群上的示例. 问题使用 yarn-client: ~/spark/bin/spark-submit --master yarn-client --num-executors=19 --class org.apache.spark.examples.sql.hive.HiveFromSpark ~/s ..

发布时间：2021-11-14 22:46:10 hadoop apache-spark amazon-emr apache-spark-sql 其他开发

广播加入火花不适用于左外

我有一个小表 (2k) 记录和大表 (500 万) 记录.我需要从小表中获取所有数据，并且只从大表中获取匹配的数据，因此为了实现这一点，我在查询下面执行了select/*+ broadcast(small)*/small.* from small left outer join large虽然查询返回正确的结果，但是当我检查查询计划时，它显示排序合并广播哈希连接.如果小桌是左桌不能广播有什么限制吗 ..

发布时间：2021-11-14 22:37:21 apache-spark pyspark apache-spark-sql amazon-emr 其他开发

为什么我的 Spark 应用程序只在 1 个执行程序中运行?

我对 Spark 还是比较陌生，但我已经能够创建 Spark 应用程序我需要能够使用 JDBC 驱动程序从我们的 SQL Server 重新处理数据(我们正在删除昂贵的 SP)，该应用程序加载了几个表从 Sql Server 通过 JDBC 到数据帧，然后我做了一些连接、一个组和一个过滤器，最后通过 JDBC 将一些数据重新插入到不同的表中.所有这些在 Amazon Web Services 中的 ..

发布时间：2021-11-14 22:31:46 apache-spark spark-dataframe amazon-emr 其他开发

Pyspark - 加载文件:路径不存在

我是 Spark 的新手.我正在尝试读取 EMR 集群中的本地 csv 文件.该文件位于:/home/hadoop/.我正在使用的脚本是这样的: spark = SparkSession \.builder \.appName("Protob 转换为 Parquet") \.config("spark.some.config.option", "some-value") \.getOrCreat ..

发布时间：2021-11-14 21:52:33 apache-spark pyspark emr amazon-emr pyspark-sql 其他开发

如何在 EMR 上调整 Spark 作业以在 S3 上快速写入大量数据

我有一个火花作业，我在两个数据帧之间进行外连接.第一个数据框的大小为 260 GB，文件格式为文本文件，分为 2200 个文件，第二个数据框的大小为 2GB.然后将大约 260 GB 的数据帧输出写入 S3 需要很长时间，之后我取消了 2 个多小时，因为我在 EMR 上进行了大量更改. 这是我的集群信息. emr-5.9.0大师:m3.2xlarge核心:r4.16xlarge 10 台机 ..

发布时间：2021-11-14 21:51:29 apache-spark-sql spark-dataframe hadoop2 amazon-emr 其他开发

将数据帧保存到本地文件系统会导致结果为空

我们在 AWS EMR 上运行 spark 2.3.0.以下 DataFrame "df" 非空且大小适中: scala>df.countres0:长 = 4067 以下代码适用于将 df 写入 hdfs: Scala>val hdf = spark.read.parquet("/tmp/topVendors")hdf: org.apache.spark.sql.DataFrame = [ ..

发布时间：2021-11-12 05:47:03 apache-spark amazon-emr 其他开发

AWS EMR - ModuleNotFoundError:没有名为“pyarrow"的模块

我在使用 Apache Arrow Spark 集成时遇到了这个问题. 使用带有 Spark 2.4.3 的 AWS EMR 在本地 spark 单机实例和 Cloudera 集群上测试了这个问题，一切正常. 在 spark-env.sh 中设置这些 export PYSPARK_PYTHON=python3导出 PYSPARK_PYTHON_DRIVER=python3 在 ..

发布时间：2021-11-12 05:46:27 apache-spark pyspark amazon-emr pyarrow apache-arrow 其他开发

collect() 或 toPandas() 在 pyspark/EMR 中的大型 DataFrame 上

我有一台机器“c3.8xlarge"的 EMR 集群，在阅读了一些资源后，我明白我必须允许大量的堆外内存，因为我使用的是 pyspark，所以我配置了集群如下: 一个执行者: spark.executor.memory 6g spark.executor.cores 10 spark.yarn.executor.memoryOverhead 4096 司机: spark ..

发布时间：2021-11-12 05:38:01 pandas apache-spark pyspark emr amazon-emr Python

在 AWS EMR 上运行的 Pig UDF 带有 java.lang.NoClassDefFoundError: org/apache/pig/LoadFunc

我正在开发一个应用程序，尝试读取存储在 S3 bucks 中的日志文件并使用 Elastic MapReduce 对其进行解析.当前日志文件具有以下格式 -------------------------------颜色=黑色日期=1349719200PID=23898程序=JavaEOE-------------------------------颜色=白色日期=1349719234PID=2 ..

发布时间：2021-11-12 04:19:58 hadoop amazon-web-services apache-pig amazon-emr 其他开发

EMR 上 S3 的外部检查点

我正在尝试为我的 Flink 程序部署一个生产集群.我正在使用安装了 Flink 1.3.2 的标准 hadoop-core EMR 集群，并使用 YARN 来运行它. 我正在尝试配置我的 RocksDB 以将我的检查点写入 S3 存储桶.我正在尝试阅读这些文档:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup ..

发布时间：2021-11-12 01:05:04 amazon-s3 apache-flink emr amazon-emr rocksdb 其他开发

amazon-emr相关内容