728x90 반응형 SMALL maskdino2 Multi-Node Multi-GPU Train with Mask DINO Node : machine을 의미, 위의 그림의 경우 machine이 2대이다. Global Rank : 전체 프로세스 기준으로 부여되는 번호 Local Rank : 각 node 기준으로 부여되는 번호 tcp 통신 방식으로 multi-node 학습을 하기 위해서 서로의 ethernet 이름을 동일하게 만든다. 네트워크 이름변경은 아래 링크 참고 https://sim-deeplearning.tistory.com/62 sudo vim ~/.bashrc export GLOO_SOCKET_IFNAME = eth0 export NCCL_SOCKET_IFNAME = eth0 source ~/.bashrc [Node 0] python train_net.py --machine-rank 0 --num-gpus 2 --n.. 2023. 7. 27. nvrtc: error: invalid value for --gpu-architecture (-arch) [error] nvrtc: error: invalid value for --gpu-architecture (-arch) [solution] 1. detectron2/detectron2/engine/train_loop.py line 491 : 주석처리 #with autocast(dtype=self.precision): 2. detectron2/detectron2/engine/train_loop.py line 435~ : False를 True로 변경 class AMPTrainer(SimpleTrainer): def __init__( ... ... zero_grad_before_foward = True ): 2023. 6. 27. 이전 1 다음 728x90 반응형 LIST