+ 计算集群通常分为登录节点和计算节点. 为了数据安全，通常只有登录节点有网，而计算节点没网。
+ 可以使用```module load xxx```来加载一些软件的环境包.
+ 使用sinfo查看可用的计算节点
![](https://ys.al/static/img/59cdf6b28f87354b4eed24112215dbf6.image.webp)
+ ssh连接上的一般是登录节点，可以使用sbatch或者srun提交作业. srun是交互性的命令, sbatch是批处理命令
+ 一个sbatch脚本案例:
```bash
#!/bin/bash
#SBATCH -o job.%j.out 
#SBATCH -p gpu
#SBATCH -J train_test
#SBATCH --nodes=1 
#SBATCH --ntasks-per-node=1
#SBATCH -G 1
#module load miniconda
#module load cuda/12.2
nvidia-smi
```
解释:
```bash
-p 即计算节点的分区
-o 计算作业的输出重定向到哪个文件
--nodes 一共需要几个节点
--ntasks-per-node 一个节点几个人物
--G 需要几张显卡
```
+ 也可以使用srun:
```bash
srun --gres=gpu:1 --pty xxx
```

高性能计算集群使用指北

首页

分类