본문 바로가기
DL

Multi-Node Multi-GPU Train with Mask DINO

by 띰쥬 2023. 7. 27.
728x90
반응형
SMALL

Node : machine을 의미, 위의 그림의 경우 machine이 2대이다.

Global Rank : 전체 프로세스 기준으로 부여되는 번호 

Local Rank : 각 node 기준으로 부여되는 번호

 

 

tcp 통신 방식으로 multi-node 학습을 하기 위해서 서로의 ethernet 이름을 동일하게 만든다.

네트워크 이름변경은 아래 링크 참고

https://sim-deeplearning.tistory.com/62

sudo vim ~/.bashrc

export GLOO_SOCKET_IFNAME = eth0
export NCCL_SOCKET_IFNAME = eth0

source ~/.bashrc

 

 

 

[Node 0]

python train_net.py --machine-rank 0 --num-gpus 2 --num-machines 2 --config-file configs/coco/instance-segmentation/maskdino_R50_bs16_50ep_4s_dowsample1_2048.yaml  --dist-url tcp://(IP of master node):(Port) MODEL.WEIGHTS maskdino_swinl_50ep_300q_hid2048_3sd1_instance_maskenhanced_mask52.3ap_box59.0ap.pth 

 

[Node 1]

python train_net.py --machine-rank 1 --num-gpus 2 --num-machines 2 --config-file configs/coco/instance-segmentation/maskdino_R50_bs16_50ep_4s_dowsample1_2048.yaml  --dist-url tcp://(IP of master node):(Port) MODEL.WEIGHTS maskdino_swinl_50ep_300q_hid2048_3sd1_instance_maskenhanced_mask52.3ap_box59.0ap.pth 

728x90
반응형
LIST

'DL' 카테고리의 다른 글

신경망  (0) 2022.03.18
Perceptron  (0) 2022.03.17

댓글