SLURM阵列作业的速度很慢 [英] SLURM slow for array job

查看：312 发布时间：2021/2/12 19:29:07 arrays performance jobs slurm

本文介绍了SLURM阵列作业的速度很慢的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一个带有节点A，B，C和D的小型集群.每个节点都有80GB RAM和32个CPU.我正在使用Slurm 17.11.7.

I have a small cluster with nodes A, B, C and D. Each node has 80GB RAM and 32 CPUs. I am using Slurm 17.11.7.

我执行了以下基准测试:

I performed the following benchmark tests:

如果直接在节点A的终端上运行特定的Java命令，则会在2分钟内得到结果.
如果我对单个"阵列作业(#SBATCH --array = 1-1)运行相同的命令，则我会在2分钟内再次得到结果.
如果仅在节点A上对带有slurm的数组作业使用相同的参数运行相同的命令，则输出的输出为8mininutes，也就是说，它的速度慢了四倍.当然，我在这里同时运行其他31条带有不同参数的Java命令.

我已经尝试使用SelectTypeParameters = CR_CPU_Memory和SelectTypeParameters = CR_Core来获得相同的结果.

I already tried SelectTypeParameters=CR_CPU_Memory and SelectTypeParameters=CR_Core with the same result.

为什么我的阵列作业速度慢4倍?感谢您的帮助！

Why is my array job 4 times slower? Thanks for your help!

我提交的数组作业的标题如下:

The header of my array job, which I submit, looks like this:

#!/bin/bash -l
#SBATCH --array=1-42
#SBATCH --job-name exp
#SBATCH --output logs/output_%A_%a.txt
#SBATCH --error logs/error_%A_%a.txt
#SBATCH --time=20:00
#SBATCH --mem=2048
#SBATCH --cpus-per-task=1
#SBATCH -w <NodeA>

slurm.conf文件如下:

The slurm.conf file looks like:

ControlMachine=<NodeA>
ControlAddr=<IPNodeA>
MpiDefault=none
ProctrackType=proctrack/cgroup
ReturnToService=1
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=<test_user_123>
StateSaveLocation=/var/spool/slurmctld
SwitchType=switch/none
TaskPlugin=task/affinity

MaxJobCount=100000
MaxArraySize=15000

MinJobAge=300
# SCHEDULING
FastSchedule=1
SchedulerType=sched/backfill
SelectType=select/cons_res
SelectTypeParameters=CR_CPU_Memory

# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
ClusterName=Cluster
JobAcctGatherType=jobacct_gather/none
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdLogFile=/var/log/slurmd.log

# COMPUTE NODES
#NodeName=NameA-D> State=UNKNOWN
NodeName=<NameA> NodeAddr=<IPNodeA> State=UNKNOWN CPUs=32 RealMemory=70363
NodeName=<NameB> NodeAddr=<IPNodeB> State=UNKNOWN CPUs=32 RealMemory=70363
NodeName=<NameC> NodeAddr=<IPNodeC> State=UNKNOWN CPUs=32 RealMemory=70363
NodeName=<NameD> NodeAddr=<IPNodeD> State=UNKNOWN CPUs=32 RealMemory=70363

PartitionName=debug Nodes=<NodeA-D> Default=YES MaxTime=INFINITE State=UP

SLURM阵列作业的速度很慢 [英] SLURM slow for array job

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

SLURM阵列作业的速度很慢 [英] SLURM slow for array job

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭