amazon-emr相关内容
我目前手头有一项任务,要在一段时间后终止长期运行的 EMR 集群(基于某些指标).Google Dataproc 在此处列出的称为“集群计划删除"中具有此功能:https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/scheduled-deletion 这在 EMR 上是可能的吗?也许使用 Cloudwatch
..
有没有办法将 EMR 日志发送到 CloudWatch 而不是 S3.我们希望将所有服务日志集中在一个位置.似乎您唯一能做的就是设置监控警报,但这不包括日志记录. https://docs.aws.amazon.com/emr/最新/ManagementGuide/UsingEMR_ViewingMetrics.html 我是否必须在集群中的节点上安装 CloudWatch 代理 ht
..
根据 AWS Athena 限制,您可以提交一次最多 20 个相同类型的查询,但这是一个软限制,可以根据要求增加.我使用 boto3 与 Athena 交互,我的脚本提交了 16 个 CTAS 查询,每个查询大约需要 2 分钟才能完成.在 AWS 账户中,只有我在使用 Athena 服务.但是,当我通过控制台查看查询状态时,我发现只有少数查询(平均 5 个)实际上正在执行,尽管它们都处于 Runn
..
使用 EMR(使用 Spark、Zeppelin)时,在 Zeppelin Spark 解释器设置中更改 spark.driver.memory 将不起作用. 我想知道在使用 EMR Web 界面(而不是 aws CLI)创建集群时设置 Spark 驱动程序内存的最佳和最快方法是什么? Bootstrap 操作是否可以成为解决方案?如果是,您能否提供一个示例,说明引导操作文件的外观?
..
我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本.为此,我使用了一个如下所示的 json 对象: [{"分类": "zeppelin-env",“特性": {},“配置":[{"分类": "出口",“特性": {"ZEPPELIN_NOTEBOOK_STORAGE":"org.apache.zeppelin.notebook.repo.S3NotebookRepo","
..
当我使用 将数据帧写入 S3 时 df.write.format("镶木地板").mode("覆盖").partitionBy("year", "month", "day", "hour", "gen", "client").option("压缩", "gzip").save("s3://xxxx/yyyy") 我在 S3 中得到以下内容 year=2018年=2019 但我想要这个:
..
:org.apache.spark.sql.AnalysisException:DataFrame 中不能有调用集合操作(相交、除外等)的映射类型列,但列 map_col 的类型是映射 我有一个带有类型列的配置单元表 - MAP.当我尝试在 spark 上下文中对该表进行插入时,出现上述错误.在没有“distinct"的情况下,插入工作正常. 创建表 test_insert2(`tes
..
我有一个 pyspark 作业,它在本地运行时没有任何问题,但是当它从 aws 集群运行时,它在到达以下代码时卡住了.该作业仅处理 100 条记录.“some_function"将数据发布到网站,并在最后返回响应.知道出了什么问题或如何调试?仅供参考:“Some_function"在课堂之外,我猜这个问题与[“关闭"][1]有关,但不知道如何解决 response = attributes.ma
..
在 (name_id, name) 组合的数据帧上调用 Spark 的 MinHashLSH 的 approxSimilarityJoin 时遇到问题. 我尝试解决的问题的总结: 我有一个包含大约 3000 万个唯一 (name_id, name) 组合的公司名称数据框.其中一些名称指的是同一家公司,但 (i) 拼写错误,和/或 (ii) 包含其他名称.对每个组合执行模糊字符串匹配是不
..
我正在尝试运行 HiveFromSpark 在我的 EMR Spark/Hive 集群上的示例. 问题 使用 yarn-client: ~/spark/bin/spark-submit --master yarn-client --num-executors=19 --class org.apache.spark.examples.sql.hive.HiveFromSpark ~/s
..
我正在尝试运行 HiveFromSpark 在我的 EMR Spark/Hive 集群上的示例. 问题 使用 yarn-client: ~/spark/bin/spark-submit --master yarn-client --num-executors=19 --class org.apache.spark.examples.sql.hive.HiveFromSpark ~/s
..
我有一个小表 (2k) 记录和大表 (500 万) 记录.我需要从小表中获取所有数据,并且只从大表中获取匹配的数据,因此为了实现这一点,我在查询下面执行了select/*+ broadcast(small)*/small.* from small left outer join large虽然查询返回正确的结果,但是当我检查查询计划时,它显示排序合并广播哈希连接.如果小桌是左桌不能广播有什么限制吗
..
我对 Spark 还是比较陌生,但我已经能够创建 Spark 应用程序我需要能够使用 JDBC 驱动程序从我们的 SQL Server 重新处理数据(我们正在删除昂贵的 SP),该应用程序加载了几个表从 Sql Server 通过 JDBC 到数据帧,然后我做了一些连接、一个组和一个过滤器,最后通过 JDBC 将一些数据重新插入到不同的表中.所有这些在 Amazon Web Services 中的
..
我是 Spark 的新手.我正在尝试读取 EMR 集群中的本地 csv 文件.该文件位于:/home/hadoop/.我正在使用的脚本是这样的: spark = SparkSession \.builder \.appName("Protob 转换为 Parquet") \.config("spark.some.config.option", "some-value") \.getOrCreat
..
我有一个火花作业,我在两个数据帧之间进行外连接.第一个数据框的大小为 260 GB,文件格式为文本文件,分为 2200 个文件,第二个数据框的大小为 2GB.然后将大约 260 GB 的数据帧输出写入 S3 需要很长时间,之后我取消了 2 个多小时,因为我在 EMR 上进行了大量更改. 这是我的集群信息. emr-5.9.0大师:m3.2xlarge核心:r4.16xlarge 10 台机
..
我们在 AWS EMR 上运行 spark 2.3.0.以下 DataFrame "df" 非空且大小适中: scala>df.countres0:长 = 4067 以下代码适用于将 df 写入 hdfs: Scala>val hdf = spark.read.parquet("/tmp/topVendors")hdf: org.apache.spark.sql.DataFrame = [
..
我在使用 Apache Arrow Spark 集成时遇到了这个问题. 使用带有 Spark 2.4.3 的 AWS EMR 在本地 spark 单机实例和 Cloudera 集群上测试了这个问题,一切正常. 在 spark-env.sh 中设置这些 export PYSPARK_PYTHON=python3导出 PYSPARK_PYTHON_DRIVER=python3 在
..
我有一台机器“c3.8xlarge"的 EMR 集群,在阅读了一些资源后,我明白我必须允许大量的堆外内存,因为我使用的是 pyspark,所以我配置了集群如下: 一个执行者: spark.executor.memory 6g spark.executor.cores 10 spark.yarn.executor.memoryOverhead 4096 司机: spark
..
我正在开发一个应用程序,尝试读取存储在 S3 bucks 中的日志文件并使用 Elastic MapReduce 对其进行解析.当前日志文件具有以下格式 -------------------------------颜色=黑色日期=1349719200PID=23898程序=JavaEOE-------------------------------颜色=白色日期=1349719234PID=2
..
我正在尝试为我的 Flink 程序部署一个生产集群.我正在使用安装了 Flink 1.3.2 的标准 hadoop-core EMR 集群,并使用 YARN 来运行它. 我正在尝试配置我的 RocksDB 以将我的检查点写入 S3 存储桶.我正在尝试阅读这些文档:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup
..