Node : machine을 의미, 위의 그림의 경우 machine이 2대이다.
Global Rank : 전체 프로세스 기준으로 부여되는 번호
Local Rank : 각 node 기준으로 부여되는 번호
tcp 통신 방식으로 multi-node 학습을 하기 위해서 서로의 ethernet 이름을 동일하게 만든다.
네트워크 이름변경은 아래 링크 참고
https://sim-deeplearning.tistory.com/62
sudo vim ~/.bashrc
export GLOO_SOCKET_IFNAME = eth0
export NCCL_SOCKET_IFNAME = eth0
source ~/.bashrc
[Node 0]
python train_net.py --machine-rank 0 --num-gpus 2 --num-machines 2 --config-file configs/coco/instance-segmentation/maskdino_R50_bs16_50ep_4s_dowsample1_2048.yaml --dist-url tcp://(IP of master node):(Port) MODEL.WEIGHTS maskdino_swinl_50ep_300q_hid2048_3sd1_instance_maskenhanced_mask52.3ap_box59.0ap.pth
[Node 1]
python train_net.py --machine-rank 1 --num-gpus 2 --num-machines 2 --config-file configs/coco/instance-segmentation/maskdino_R50_bs16_50ep_4s_dowsample1_2048.yaml --dist-url tcp://(IP of master node):(Port) MODEL.WEIGHTS maskdino_swinl_50ep_300q_hid2048_3sd1_instance_maskenhanced_mask52.3ap_box59.0ap.pth
'DL' 카테고리의 다른 글
신경망 (0) | 2022.03.18 |
---|---|
Perceptron (0) | 2022.03.17 |
댓글