吉布斯调度器
Slurm
吉布斯现在正在使用Slurm调度程序。
Slurm是世界上许多超级计算机和计算机集群使用的Linux内核的免费开源作业调度器。手册页提供了重要的文档。尝试‘man sbatch’来提交相关命令,‘man sstat’来进行状态查询。
分区
(可以使用sinfo查看分区。提交的作业将按照计费权重顺序选择节点,除非另有说明)
分区名称 | #节点 | 计费重量 | ||
cpu | mem | gpu | ||
GTX670 | 吉布斯(01-08) | 0.125 | 0.031克 | 0.25 |
泰坦 | 吉布斯(11 - 12) | 0.207 | 0.052克 | 0.415 |
GTX780 | 吉布斯(13 - 15) | 0.261 | 0.065克 | 0.521 |
甘蓝型 | 吉布斯(09-10) | 0.386 | 0.096克 | 0.772 |
GTX980 | 吉布斯(18-36) | 0.207 | 0.026克 | 0.828 |
K80 | 吉布斯(16 - 17) | 0.588 | 0.037克 | 1.176 |
所有分区都有4个GPU,除了K80有8个GPU。
可以使用‘sbatch’命令提交作业,通常后面跟着提交脚本的名称。示例脚本中包含了常见的命令行选项。完整的清单可以在手册页('man sbatch')中找到。可以通过‘sstat’命令获取排队或正在运行的作业的状态。
一个通用的示例脚本是可用的,以及特定应用程序的选择提交脚本,可以在他们的应用程序页面中找到。
扭矩vs声命令
描述 | 转矩 | Slurm |
---|---|---|
提交作业 | qsub[文件] | sbatch[文件] |
工作持有 | qhold jobid | 控制住工作 |
取消作业 | qdel | scancel |
释放工作 | qrls [job_id] | scontrol释放 |
作业状态 | qstat [job_id] | sstat或scontrol显示作业 |
队列列表 | qstat | squeue |
节点列表 | pbsnodes - l | sinfo——节点或scontrol显示节点 |
集群状态 | qstat | sinfo |
工作规范
脚本指令 | # PBS | # SBATCH |
---|---|---|
队列 | q(队列) | none -参见QoS |
QoS | 没有一个 | ——qos = |
节点数 | - 1个节点=[count] | - n [min[-麦克斯]] |
CPU数 | -l ppn=[count] OR -l mppwidth = [PE_count] |
- n(计数) |
挂钟限制 | - l walltime = (hh: mm: ss) | -t [min] OR -t [days-hh:mm:ss] |
标准输出文件 | - o (file_name) | - o (file_name) |
标准错误文件 | - e (file_name) | - e (file_name) |
事件通知 | - m安 | ——邮件类型=(事件) |
电子邮件地址 | - m(地址) | ——邮件用户=(地址) |
作业名 | - n[名称] | ——作业名=[名称] |
内存大小 | - l mem = [m] | ——mem=[mem][M|G|T] OR——mem-per-cpu= (mem) [M G | | T] |
账户 | 没有一个 | ——帐户=(账户) |