amazon-emr 第4页 - IT屋-程序员软件开发技术分享社区

无法在亚马逊 emr 中使用 apache flink

我无法在 Amazons EMR 中启动 Apache Flink 的纱线会话.我得到的错误信息是 $ tar xvfj flink-0.9.0-bin-hadoop26.tgz$ cd flink-0.9.0$ ./bin/yarn-session.sh -n 4 -jm 1024 -tm 4096...诊断:文件 file:/home/hadoop/.flink/application_14 ..

发布时间：2021-11-12 01:03:13 hadoop-yarn emr amazon-emr apache-flink 其他开发

在 YARN 集群中提交作业之前，Flink TaskManager 不会启动

我正在使用 Amazon EMR 在 YARN 上运行 Flink 集群.我的设置包括用于 1 个主节点和 2 个核心节点的 m4.large 实例.我已经使用以下命令在 YARN 上启动了 Flink CLuster:flink-yarn-session -n 2 -d -tm 4096 -s 4. Flink 作业管理器和应用程序管理器启动，但没有运行任务管理器.Flink Web 界面 ..

发布时间：2021-11-12 01:02:28 hadoop-yarn apache-flink amazon-emr 其他开发

AWS EMR - 如何将文件复制到所有节点?

有没有办法通过 EMR 命令行将文件复制到 EMR 集群中的所有节点?我正在使用 presto 并创建了我的自定义插件.问题是我必须在所有节点上安装这个插件.我不想登录所有节点并复制它. 解决方案如果您可以控制启动新 EMR，那么您应该考虑使用 EMR 的 bootstrap script.> 但如果您想在现有 EMR 上执行此操作(引导程序仅在启动期间可用)您可以在 AWS Syst ..

发布时间：2021-10-27 18:51:29 amazon-emr 其他开发

通过 add_job_flow_steps 将嵌套字典传递给 EMR

我用一些元数据创建了一个名为 my_dict 的 Python 字典.我通过 json.dumps() 将 my_dict 转换为字符串.my_dict 然后通过 add_job_flow_steps 作为 HadoopJarStep 中的参数传递给 EMR. 提交步骤后，用户界面中 EMR 步骤的参数部分中的参数如下所示: --my_dict "{\"level_one_key\": { ..

发布时间：2021-10-27 18:51:26 python dictionary nested amazon-emr Python

如何从提交的 spark 应用程序步骤中获取 AWS EMR 集群 ID 和步骤 ID

场景: 我正在 AWS EMR 中运行 Spark Scala 作业.现在，我的工作转储了该应用程序独有的一些元数据.现在为了倾销，我正在写位置“s3://bucket/key/"其中 ApplicationId 是 val APPLICATION_ID: String = getSparkSession.sparkContext.getConf.getAppId 现在基本上有一种方法可以 ..

发布时间：2021-10-27 18:51:19 amazon-web-services scala apache-spark amazon-emr 其他开发

在 AWS Step Functions 中传递变量

我对 AWS Step Functions 和 AWS Lambda Functions 非常陌生，真的可以使用一些帮助.我有一个状态机，我试图在其中检查某个文件是否存在于我的 S3 存储桶中，然后如果文件存在则让状态机遵循一个路径，如果文件不存在则使用不同的路径. 以下显示了我的状态机代码的开头，涵盖了这个问题 {"comment": "这是一个运行 CustomCreate 作业结构的 ..

发布时间：2021-10-27 18:51:16 amazon-web-services aws-lambda amazon-emr aws-step-functions 其他开发

Spark AttributeError: 无法在 <module 'pandas.core.internals.blocks' 上获取属性 'new_block'

我在 AWS EMR 上使用 pyspark(4 个 r5.xlarge 作为 4 个工作器，每个有一个执行器和 4 个内核)，我得到 AttributeError: Can't get attribute 'new_block' on ..

发布时间：2021-10-27 18:51:14 python apache-spark pyspark amazon-emr attributeerror Python

在 AWS EMR 上“搜索时找不到有效的 SPARK_HOME"

当使用 spark submit 命令在 EMR 集群上运行 python 脚本时，进程卡在 10%(可以通过 yarn application --list 看到)和当我检查日志时，所有内核执行者都显示了以下类型的消息，因为最近出现错误: 搜索时找不到有效的 SPARK_HOME ['/mnt1/yarn/usercache/hadoop/appcache/application_x_0001 ..

发布时间：2021-10-27 18:51:10 python apache-spark hadoop pyspark amazon-emr Python

在通过 apache livy 提交 hudi delta streamer 作业时需要帮助

我对如何将参数作为 REST API JSON 传递有点困惑. 考虑下面的 spark 提交命令. spark-submit --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.5.3,org.apache.spark:spark-avro_2.11:2.4.4 \--master 纱线 \--deploy-mode 集群\--n ..

发布时间：2021-10-27 18:51:08 apache-spark amazon-emr livy apache-hudi 其他开发

无法让 pip install 在 EMR 集群上工作

我有一个 EMR (emr-5.30.0) 集群，我正在尝试从 S3 中的引导文件开始.引导文件的内容是: #!/bin/bash须藤 pip3 安装 --user \matplotlib \熊猫\pyarrow \火花我的标准错误文件中的错误是: 警告:使用 root 权限运行 pip install 通常不是一个好主意.试试`pip3 install --user`.命令“python ..

发布时间：2021-10-27 18:50:58 amazon-web-services apache-spark pyspark amazon-emr 其他开发

广播加入火花不适用于左外

我有一个小表 (2k) 记录和大表 (500 万) 记录.我需要从小表中获取所有数据，并且只从大表中获取匹配的数据，因此为了实现这一点，我在查询下面执行了select/*+ broadcast(small)*/small.* from small left outer join large虽然查询返回正确的结果，但是当我检查查询计划时，它显示排序合并广播哈希连接.如果小桌是左桌不能广播有什么限制吗 ..

发布时间：2021-10-27 18:50:55 apache-spark pyspark apache-spark-sql amazon-emr 其他开发

运行 bash 脚本作为 EMR 中的一个步骤的正确语法是什么?

作为 EMR 完成引导后的一个步骤，我正在尝试运行 bash 脚本.以下是我的地形代码: step { action_on_failure = "CONTINUE"name = "设置 Hadoop 配置"hadoop_jar_step {jar = "command-runner.jar"args = ["bash,-c,'cd/mnt; chmod +x ./userdata.sh; ./u ..

发布时间：2021-10-27 18:50:48 bash amazon-emr 其他开发

在发送到 S3 之前，YARN 应用程序日志在哪里存储在 EMR 中

我需要将 Yarn 应用程序日志从 EMR 写入 S3 以外的其他来源.. 你能告诉我应用程序日志在 EMR 主实例中的保存位置吗解决方案如果应用程序作为一个步骤提交给 emr，那么日志将驻留在: /var/log/hadoop/steps/>/> emr 的大部分日志都可以在主节点的 /var/logs 目录下找到您还可以使用 yarn cli 获取应用程序日志并将返回的 ..

发布时间：2021-10-27 18:50:43 hadoop logging hadoop-yarn amazon-emr 其他开发

非分区镶木地板数据的谓词下推

我在 S3 中有一个包含 Parquet 数据的文件夹: bucket_name/folder_name/YEAR/MONTH/DAY 例如:s3://bucket_name/folder_name/2020/12/10 我在 AWS EMR 上使用 Apache spark 来读取镶木地板文件. 由于数据没有分区，有没有办法在不分区数据的情况下实现谓词下推过滤器? 可以使用 ..

发布时间：2021-10-27 18:50:37 apache-spark amazon-s3 pyspark amazon-emr 其他开发

启动集群时如何指定主节点的磁盘空间(卷大小)?

本文档显示了基于实例大小的默认卷大小:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-storage.html 我的问题是如何在启动集群时指定更大的卷大小. 目前，我在集群启动并运行后从 EMR 页面手动更改它: 解决方案您可以指定 VolumeSpecification JSON 来完成此操作. ..

发布时间：2021-10-27 18:44:25 amazon-ec2 amazon-emr 其他开发

获取 VS Code Python 扩展以连接到在远程 AWS EMR 主节点上运行的 Jupyter

我有一个运行在 EMR 主节点上的 Jupyter 服务器，我可以在其中运行 python 和 pyspark 代码，没有任何问题.当尝试让 VS Code Python 扩展连接到同一个 Jupyter 服务器时，我收到以下错误: 无法连接到远程 Jupyter 笔记本.检查 Jupyter 服务器 URI 设置是否指定了有效的运行服务器.http://***.***.***.***:8888 ..

发布时间：2021-09-19 20:17:55 visual-studio-code amazon-emr vscode-python 其他开发

不能在 pyspark 中应用 pandas_udf

我正在连接到 AWS EMR 实例的 jupyter notebook 上尝试一些与 pyspark 相关的实验.我有一个 spark 数据框，它从 s3 读取数据，然后过滤掉一些东西.使用 df1.printSchema() 输出模式打印如下: root|-- idvalue: string (nullable = true)|-- locationaccuracyhorizontal: ..

发布时间：2021-06-24 20:42:25 python apache-spark pyspark amazon-emr Python

在调用集合操作的 DataFrame 中不能有映射类型列

: org.apache.spark.sql.AnalysisException: 在 DataFrame 中不能有调用集合操作(相交、除外等)的映射类型列，但列 map_col 的类型是映射我有一个带有类型列的配置单元表 - MAP.当我尝试在 spark 上下文中对该表进行插入时，出现上述错误.在没有“distinct"的情况下，插入工作正常. 创建表 test_insert2( ..

发布时间：2021-06-24 20:42:15 hive pyspark apache-spark-sql amazon-emr 其他开发

在 AWS EMR 集群上使用 SparkLauncher 时缺少 SPARK_HOME

我将 EMR 5.0 与 Spark 2.0.0 一起使用.我正在尝试使用 org.apache.spark.launcher.SparkLauncher 从 Scala 火花应用程序运行子火花应用程序我需要使用 setSparkHome 设置 SPARK_HOME: var handle = new SparkLauncher().setAppResource("s3://my-buc ..

发布时间：2021-06-24 20:40:48 amazon-web-services apache-spark pyspark emr amazon-emr 其他开发

如何从运行PySpark内核的EMR jupyter笔记本中的另一个ipynb文件导入?

我在AWS EMR上使用jupyter笔记本来运行PySpark，但无法从另一个文件导入模块.我尝试了几种我在stackoverflow上搜索过的方法，但没有一个起作用.更具体地说，我尝试了以下操作(在这里，与运行import语句的笔记本位于同一目录中，有一个名为"include.ipynb"的笔记本): 这两种方法都可以在我的本地计算机上的jupyter笔记本中使用.他们为什么不在AWS上 ..

发布时间：2021-05-04 19:11:15 python amazon-web-services jupyter-notebook amazon-emr Python

amazon-emr相关内容