atriber / run_MnodesAndMgpus.sh
XzJosh's picture
Upload 180 files
1cf1e13
raw
history blame
1.08 kB
#多机多卡训练
#--nnodes=1:3 表示 使用一到三台机器 弹性分配资源
#--nnodes=<最小节点数>:<最大节点数>
#--nproc_per_node=每台机器上可用的GPU数
#--rdzv_endpoint=主节点(最先启动的)ip:端口号
#其他不需要变
#注意: 此版本的分布式训练是基于数据并行的,多机多卡相当于开更大的batchsize,此时epoch迭代速度会增加,
#但由于 该版本的代码中 保存模型是按照global step来计算的,所以会出现的效果就是 : 保存模型的时间不会有明显加速,
#但每次保存模型时epoch都比之前迭代了更多次,也就是 “更少的步数,实现更好的效果”
#*************************
# torchrun \
# --nnodes=1:3\
# --nproc_per_node=2\
# --rdzv_id=1\
# --rdzv_backend=c10d\
# --rdzv_endpoint="inspur1:8880"\
# train_ms.py
#****************************
#多卡训练
#nproc_per_node = 机器上可用的GPU数
#*************************
torchrun \
--nnodes=1\
--nproc_per_node=2\
train_ms.py
#*************************