[仅参数默认值不一致]torch.cuda.amp.GradScaler¶

torch.cuda.amp.GradScaler ¶

          torch.cuda.amp.GradScaler(init_scale=65536.0, growth_factor=2.0, backoff_factor=0.5, growth_interval=2000, enabled=True)

         

paddle.amp.GradScaler ¶

          paddle.amp.GradScaler(enable=True, init_loss_scaling=65536.0, incr_ratio=2.0, decr_ratio=0.5, incr_every_n_steps=2000, decr_every_n_nan_or_inf=2, use_dynamic_loss_scaling=True)

         

其中 Paddle 相比 PyTorch 支持更多其他参数且参数默认值不一致，具体如下：

参数映射¶

PyTorch	PaddlePaddle	备注
init_scale	init_loss_scaling	初始 loss scaling 因子。与 PyTorch 默认值不同, Paddle 需设为 65536.0。
growth_factor	incr_ratio	增大 loss scaling 时使用的乘数。
backoff_factor	decr_ratio	减小 loss scaling 时使用的小于 1 的乘数。
growth_interval	incr_every_n_steps	连续 n 个 steps 的梯度都是有限值时，增加 loss scaling。与 PyTorch 默认值不同, Paddle 需设为 2000。
enabled	enable	是否使用 loss scaling。
-	decr_every_n_nan_or_inf	累计出现 n 个 steps 的梯度为 nan 或者 inf 时，减小 loss scaling，PyTorch 无此参数，Paddle 保持默认即可。
-	use_dynamic_loss_scaling	是否使用动态的 loss scaling，PyTorch 无此参数，Paddle 保持默认即可。

[仅参数默认值不一致]torch.cuda.amp.GradScaler¶

torch.cuda.amp.GradScaler¶

paddle.amp.GradScaler¶

参数映射¶

torch.cuda.amp.GradScaler ¶

paddle.amp.GradScaler ¶