马塞诸斯州大学波士顿

吉布斯调度器

Slurm

吉布斯现在正在使用Slurm调度程序。

Slurm是世界上许多超级计算机和计算机集群使用的Linux内核的免费开源作业调度器。手册页提供了重要的文档。尝试‘man sbatch’来提交相关命令,‘man sstat’来进行状态查询。

分区

(可以使用sinfo查看分区。提交的作业将按照计费权重顺序选择节点,除非另有说明)

分区名称 #节点 计费重量
cpu mem gpu
GTX670 吉布斯(01-08) 0.125 0.031克 0.25
泰坦 吉布斯(11 - 12) 0.207 0.052克 0.415
GTX780 吉布斯(13 - 15) 0.261 0.065克 0.521
甘蓝型 吉布斯(09-10) 0.386 0.096克 0.772
GTX980 吉布斯(18-36) 0.207 0.026克 0.828
K80 吉布斯(16 - 17) 0.588 0.037克 1.176

所有分区都有4个GPU,除了K80有8个GPU。

可以使用‘sbatch’命令提交作业,通常后面跟着提交脚本的名称。示例脚本中包含了常见的命令行选项。完整的清单可以在手册页('man sbatch')中找到。可以通过‘sstat’命令获取排队或正在运行的作业的状态。

一个通用的示例脚本是可用的,以及特定应用程序的选择提交脚本,可以在他们的应用程序页面中找到。

扭矩vs声命令

描述 转矩 Slurm
提交作业 qsub[文件] sbatch[文件]
工作持有 qhold jobid 控制住工作
取消作业 qdel scancel
释放工作 qrls [job_id] scontrol释放
作业状态 qstat [job_id] sstat或scontrol显示作业
队列列表 qstat squeue
节点列表 pbsnodes - l sinfo——节点或scontrol显示节点
集群状态 qstat sinfo

工作规范

脚本指令 # PBS # SBATCH
队列 q(队列) none -参见QoS
QoS 没有一个 ——qos =
节点数 - 1个节点=[count] - n [min[-麦克斯]]
CPU数 -l ppn=[count] OR -l
mppwidth = [PE_count]
- n(计数)
挂钟限制 - l walltime = (hh: mm: ss) -t [min] OR -t [days-hh:mm:ss]
标准输出文件 - o (file_name) - o (file_name)
标准错误文件 - e (file_name) - e (file_name)
事件通知 - m安 ——邮件类型=(事件)
电子邮件地址 - m(地址) ——邮件用户=(地址)
作业名 - n[名称] ——作业名=[名称]
内存大小 - l mem = [m] ——mem=[mem][M|G|T] OR——mem-per-cpu=
(mem) [M G | | T]
账户 没有一个 ——帐户=(账户)
资讯科技研究及计算
希利图书馆,低层
马塞诸斯州大学波士顿
莫里西大道100号
波士顿,马萨诸塞州02125
预约咨询
 617.287.5399
 It-rc@umb.edu