amazon-emr相关内容

在 YARN 集群中提交作业之前,Flink TaskManager 不会启动

我正在使用 Amazon EMR 在 YARN 上运行 Flink 集群.我的设置包括用于 1 个主节点和 2 个核心节点的 m4.large 实例.我已经使用以下命令在 YARN 上启动了 Flink CLuster:flink-yarn-session -n 2 -d -tm 4096 -s 4. Flink 作业管理器和应用程序管理器启动,但没有运行任务管理器.Flink Web 界面 ..
发布时间:2021-11-12 01:02:28 其他开发

AWS EMR - 如何将文件复制到所有节点?

有没有办法通过 EMR 命令行将文件复制到 EMR 集群中的所有节点?我正在使用 presto 并创建了我的自定义插件.问题是我必须在所有节点上安装这个插件.我不想登录所有节点并复制它. 解决方案 如果您可以控制启动新 EMR,那么您应该考虑使用 EMR 的 bootstrap script.> 但如果您想在现有 EMR 上执行此操作(引导程序仅在启动期间可用)您可以在 AWS Syst ..
发布时间:2021-10-27 18:51:29 其他开发

通过 add_job_flow_steps 将嵌套字典传递给 EMR

我用一些元数据创建了一个名为 my_dict 的 Python 字典.我通过 json.dumps() 将 my_dict 转换为字符串.my_dict 然后通过 add_job_flow_steps 作为 HadoopJarStep 中的参数传递给 EMR. 提交步骤后,用户界面中 EMR 步骤的参数部分中的参数如下所示: --my_dict "{\"level_one_key\": { ..
发布时间:2021-10-27 18:51:26 Python

如何从提交的 spark 应用程序步骤中获取 AWS EMR 集群 ID 和步骤 ID

场景: 我正在 AWS EMR 中运行 Spark Scala 作业.现在,我的工作转储了该应用程序独有的一些元数据.现在为了倾销,我正在写位置“s3://bucket/key/"其中 ApplicationId 是 val APPLICATION_ID: String = getSparkSession.sparkContext.getConf.getAppId 现在基本上有一种方法可以 ..
发布时间:2021-10-27 18:51:19 其他开发

在 AWS Step Functions 中传递变量

我对 AWS Step Functions 和 AWS Lambda Functions 非常陌生,真的可以使用一些帮助.我有一个状态机,我试图在其中检查某个文件是否存在于我的 S3 存储桶中,然后如果文件存在则让状态机遵循一个路径,如果文件不存在则使用不同的路径. 以下显示了我的状态机代码的开头,涵盖了这个问题 {"comment": "这是一个运行 CustomCreate 作业结构的 ..

广播加入火花不适用于左外

我有一个小表 (2k) 记录和大表 (500 万) 记录.我需要从小表中获取所有数据,并且只从大表中获取匹配的数据,因此为了实现这一点,我在查询下面执行了select/*+ broadcast(small)*/small.* from small left outer join large虽然查询返回正确的结果,但是当我检查查询计划时,它显示排序合并广播哈希连接.如果小桌是左桌不能广播有什么限制吗 ..
发布时间:2021-10-27 18:50:55 其他开发

在发送到 S3 之前,YARN 应用程序日志在哪里存储在 EMR 中

我需要将 Yarn 应用程序日志从 EMR 写入 S3 以外的其他来源.. 你能告诉我应用程序日志在 EMR 主实例中的保存位置吗 解决方案 如果应用程序作为一个步骤提交给 emr,那么日志将驻留在: /var/log/hadoop/steps/>/> emr 的大部分日志都可以在主节点的 /var/logs 目录下找到 您还可以使用 yarn cli 获取应用程序日志并将返回的 ..
发布时间:2021-10-27 18:50:43 其他开发

非分区镶木地板数据的谓词下推

我在 S3 中有一个包含 Parquet 数据的文件夹: bucket_name/folder_name/YEAR/MONTH/DAY 例如:s3://bucket_name/folder_name/2020/12/10 我在 AWS EMR 上使用 Apache spark 来读取镶木地板文件. 由于数据没有分区,有没有办法在不分区数据的情况下实现谓词下推过滤器? 可以使用 ..
发布时间:2021-10-27 18:50:37 其他开发

启动集群时如何指定主节点的磁盘空间(卷大小)?

本文档显示了基于实例大小的默认卷大小:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-storage.html 我的问题是如何在启动集群时指定更大的卷大小. 目前,我在集群启动并运行后从 EMR 页面手动更改它: 解决方案 您可以指定 VolumeSpecification JSON 来完成此操作. ..
发布时间:2021-10-27 18:44:25 其他开发

获取 VS Code Python 扩展以连接到在远程 AWS EMR 主节点上运行的 Jupyter

我有一个运行在 EMR 主节点上的 Jupyter 服务器,我可以在其中运行 python 和 pyspark 代码,没有任何问题.当尝试让 VS Code Python 扩展连接到同一个 Jupyter 服务器时,我收到以下错误: 无法连接到远程 Jupyter 笔记本.检查 Jupyter 服务器 URI 设置是否指定了有效的运行服务器.http://***.***.***.***:8888 ..
发布时间:2021-09-19 20:17:55 其他开发

不能在 pyspark 中应用 pandas_udf

我正在连接到 AWS EMR 实例的 jupyter notebook 上尝试一些与 pyspark 相关的实验.我有一个 spark 数据框,它从 s3 读取数据,然后过滤掉一些东西.使用 df1.printSchema() 输出模式打印如下: root|-- idvalue: string (nullable = true)|-- locationaccuracyhorizo​​ntal: ..
发布时间:2021-06-24 20:42:25 Python

在调用集合操作的 DataFrame 中不能有映射类型列

: org.apache.spark.sql.AnalysisException: 在 DataFrame 中不能有调用集合操作(​​相交、除外等)的映射类型列,但列 map_col 的类型是映射 我有一个带有类型列的配置单元表 - MAP.当我尝试在 spark 上下文中对该表进行插入时,出现上述错误.在没有“distinct"的情况下,插入工作正常. 创建表 test_insert2( ..
发布时间:2021-06-24 20:42:15 其他开发

如何从运行PySpark内核的EMR jupyter笔记本中的另一个ipynb文件导入?

我在AWS EMR上使用jupyter笔记本来运行PySpark,但无法从另一个文件导入模块.我尝试了几种我在stackoverflow上搜索过的方法,但没有一个起作用.更具体地说,我尝试了以下操作(在这里,与运行import语句的笔记本位于同一目录中,有一个名为"include.ipynb"的笔记本): 这两种方法都可以在我的本地计算机上的jupyter笔记本中使用.他们为什么不在AWS上 ..
发布时间:2021-05-04 19:11:15 Python