amazon-emr相关内容

Spark Have SQL返回空数据帧

我正在使用胶水作为我的母公司元存储。我有一个每小时向注册分区写入文件的每小时作业。 表定义: CREATE EXTERNAL TABLE table_name ( column_1 STRING, column_2 STRING ) PARTITIONED BY (process_date DATE) STORED AS PARQUET LOCATION "s3://bucket/ta ..
发布时间:2022-08-16 19:22:46 其他开发

如何将气流调度器部署到AWS EC2?

我正在尝试使用Airflow在AWS上建立一条简单的数据管道。 我已经创建了一个DAG,它每天将数据抓取到S3,然后使用在EMR上运行的Spark作业进行处理。 我当前在本地笔记本电脑上运行气流计划程序,但我当然知道这不是一个好的长期解决方案。 所以我想了解一些关于将调度程序部署到EC2的提示(实例大小、部署进程或任何其他有用的信息) 推荐答案 在本地运行通常不是可行的后期 ..

如何在使用cron进行调度时将命令输出grep到一个外壳脚本中

我有一个简单的外壳脚本,我需要在其中检查我的EMR作业是否正在运行,我只是打印了一个日志,但在使用cron调度脚本时,它似乎不能正常工作,因为它总是打印IF块语句,因为";STATUS_LIVE";var;的值始终为空,所以如果有人可以在此处提出错误的建议,否则在手动运行该脚本时,它会正常工作。 #!/bin/sh status_live=$(yarn applicatio ..
发布时间:2022-05-25 18:24:11 其他开发

如何在多个子网上运行AWS EMR集群?

目前,我们正在使用EMR中的config.json文件创建实例来配置集群。此文件指定了一个子网(“Ec2SubnetID”)。 我的所有EMR实例最终都使用此子网...我如何让它使用多个子网? 这是我推送到S3的Terraform模板。 { "Applications": [ {"Name": "Spark"}, {"Name": "Hadoop" ..
发布时间:2022-05-25 18:05:26 其他开发

为什么在EMR 5.x版本中取消了对Amazon S3的直接写入?

阅读本页后: http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-differences.html “运营差异和注意事项”->“消除了对Amazon S3的直接写入”部分。 我想知道-这是否意味着在EMR 4.x版本中从配置单元写入S3将比5.x版本更快? 如果是这样的话,这不是一种倒退吗?为什么AWS要取消此优化 ..
发布时间:2022-05-25 17:49:14 其他开发

EMR-5.32.0上的Spark未生成请求的执行器

我在EMR(版本5.32.0)上的(Py)Spark中遇到了一些问题。大约一年前,我在EMR集群上运行了相同的程序(我认为发行版一定是5.29.0)。然后,我能够使用spark-submit参数正确配置我的PySpark程序。但是,现在我正在运行相同/相似的代码,但是spark-submit参数似乎没有任何效果。 我的集群配置: 主节点:8个VCORE,32 GiB内存,仅EBS存储E ..

Spark 2.2.0 - 如何将 DataFrame 写入/读取到 DynamoDB

我希望我的 Spark 应用程序从 DynamoDB 读取表,执行操作,然后将结果写入 DynamoDB. 将表格读入 DataFrame 现在,我可以将 DynamoDB 中的表作为 hadoopRDD 读取到 Spark 中,并将其转换为 DataFrame.但是,我必须使用正则表达式从 AttributeValue 中提取值.有没有更好/更优雅的方式?在 AWS API 中找不到 ..
发布时间:2022-01-15 17:25:01 其他开发

hdfs中的文件路径

我想从 Hadoop 文件系统中读取文件. 为了实现文件的正确路径,我需要hdfs的主机名和端口地址. 所以最后我的文件路径看起来像 Path path = new Path("hdfs://123.23.12.4344:9000/user/filename.txt") 现在我想知道提取 HostName = "123.23.12.4344" &端口:9000? 基本上,我想 ..
发布时间:2022-01-14 08:12:07 Java开发

如何将 Hadoop Streaming 与 LZO 压缩的序列文件一起使用?

我正在尝试使用 Amazon 的 Elastic Map Reduce 来处理 Google ngrams 数据集.http://aws.amazon.com/datasets/8172056142375670 有一个公共数据集,我想使用 Hadoop 流. 对于输入文件,它说“我们将数据集存储在 Amazon S3 中的单个对象中.该文件是具有块级 LZO 压缩的序列文件格式.序列文件键是 ..
发布时间:2022-01-13 23:48:01 其他开发

AWS Glue 定价与 AWS EMR

我正在 AWS Glue 与 AWS EMR 之间进行一些定价比较,以便在 EMR 和胶水. 我考虑过 6 个 DPU(4 个 vCPU + 16 GB 内存),其中 ETL 作业运行 10 分钟,持续 30 天.假设抓取工具的预期请求比免费层级高 100 万个,对于 100 万个额外请求,按 1 美元计算. 在 EMR 上,我已考虑将 m3.xlarge 用于 EC2 和EMR(价格 ..

使用多个 S3 帐户运行 EMR Spark

我有一个 EMR Spark 作业,需要从一个帐户的 S3 读取数据并写入另一个帐户. 我把我的工作分成两步. 从 S3 读取数据(不需要凭据,因为我的 EMR 集群在同一个帐户中). 读取第 1 步创建的本地 HDFS 中的数据并将其写入另一个帐户中的 S3 存储桶. 我已尝试设置 hadoopConfiguration: sc.hadoopConfiguration.se ..
发布时间:2021-11-27 10:10:28 其他开发