python3 -m torch.distributed.launch --nproc_per_node=2 --master_port 19998 train.py
分布式计算程序报错,
subprocess.CalledProcessError: Command '['/opt/anaconda3/bin/python3', '-u', 'train.py', '--local_rank=1']' returned non-zero exit status 1.
我这台机器有两个GPU,报错说明有一个GPU内存被占用
查看GPU使用情况
执行命令 nvidia-smi
发现其中有一个GPU内存被占用
我们结束这个程序 kill 83772
再次查看GPU 使用情况
如果还是报错,说明最底层还有程序运行,重复上面步骤,直到程序清理完成
再次运行你需要分布式计算的程序即可