[torch 参数更多]torch.nn.parallel.DistributedDataParallel¶
torch.nn.parallel.DistributedDataParallel¶
torch.nn.parallel.DistributedDataParallel(module, device_ids=None, output_device=None, dim=0, broadcast_buffers=True, process_group=None, bucket_cap_mb=25, find_unused_parameters=False, check_reduction=False, gradient_as_bucket_view=False, static_graph=False)
paddle.DataParallel¶
paddle.DataParallel(layers, strategy=None, comm_buffer_size=25, last_comm_buffer_size=1, find_unused_parameters=False)
PyTorch 相比 Paddle 支持更多其他参数,具体如下:
参数映射¶
PyTorch | PaddlePaddle | 备注 |
---|---|---|
module | layers | 需要通过数据并行方式执行的模型,仅参数名不一致。 |
device_ids | - | 设置输入设备,Paddle 无此参数,暂无转写方式。 |
output_device | - | 设置输出设备,Paddle 无此参数,暂无转写方式。 |
dim | - | 进行运算的轴,Paddle 无此参数,暂无转写方式。 |
broadcast_buffers | - | forward 开始时是否同步缓存,Paddle 无此参数,暂无转写方式。 |
process_group | - | 进程组,Paddle 无此参数,暂无转写方式。 |
bucket_cap_mb | comm_buffer_size | 它是通信调用(如 NCCLAllReduce)时,参数梯度聚合为一组的内存大小(MB),仅参数名不一致。 |
find_unused_parameters | find_unused_parameters | 是否在模型 forward 函数的返回值的所有张量中,遍历整个向后图。 |
check_reduction | - | 已废弃,Paddle 无此参数,暂无转写方式。 |
gradient_as_bucket_view | - | 是否在 allreduce 通讯中配置梯度,Paddle 无此参数,暂无转写方式。 |
static_graph | - | 是否训练静态图,Paddle 无此参数,暂无转写方式。 |
- | strategy | 已废弃,数据并行的策略,PyTorch 无此参数,Paddle 保持默认即可。 |
- | last_comm_buffer_size | 它限制通信调用中最后一个缓冲区的内存大小,PyTorch 无此参数,Paddle 保持默认即可。 |