我一点一点进行debug。

首先,在数据加载部分,由于没有将
local_rank
world_size传入
get_cifar_iter函数,导致后续使用DALI创建pipeline时使用了默认的
local_rank=0,因此会在GPU0上多出该GPU下的进程