编辑
2025-07-16
技术杂谈
00
  • 计算集群通常分为登录节点和计算节点. 为了数据安全,通常只有登录节点有网,而计算节点没网。
  • 可以使用module load xxx来加载一些软件的环境包.
  • 使用sinfo查看可用的计算节点
  • ssh连接上的一般是登录节点,可以使用sbatch或者srun提交作业. srun是交互性的命令, sbatch是批处理命令
  • 一个sbatch脚本案例:
bash
#!/bin/bash #SBATCH -o job.%j.out #SBATCH -p gpu #SBATCH -J train_test #SBATCH --nodes=1 #SBATCH --ntasks-per-node=1 #SBATCH -G 1 #module load miniconda #module load cuda/12.2 nvidia-smi

解释:

bash
-p 即计算节点的分区 -o 计算作业的输出重定向到哪个文件 --nodes 一共需要几个节点 --ntasks-per-node 一个节点几个人物 --G 需要几张显卡
  • 也可以使用srun:
bash
srun --gres=gpu:1 --pty xxx