[ torch 参数更多 ]flash_attn.flash_attn_interface.flash_attn_func
flash_attn.flash_attn_interface.flash_attn_func
flash_attn.flash_attn_interface.flash_attn_func(q, k, v,dropout_p=0.0, softmax_scale=None, causal=False, window_size=(-1, -1), softcap=0.0, alibi_slopes=None, deterministic=False, return_attn_probs=False)
paddle.nn.functional.flash_attention.flash_attention
paddle.nn.functional.flash_attention.flash_attention(query, key, value, dropout=0.0, causal=False,return_softmax=False, *, fixed_seed_offset=None, rng_name="", training=True)
其中 PyTorch 相比 Paddle 支持更多其他参数,具体如下:
参数映射
| flash_attn | PaddlePaddle | 备注 |
|---|---|---|
| q | query | 注意力模块的 query Tensor。 |
| k | key | 注意力模块的 key Tensor。 |
| v | value | 注意力模块的 value Tensor。 |
| dropout_p | dropout | 丢弃概率。 |
| softmax_scale | - | QK^T 的缩放因子,Paddle 无此参数,暂无转写方式。 |
| causal | causal | 是否应用因果注意力 mask。 |
| window_size | - | 滑动窗口局部注意力,Paddle 无此参数,暂无转写方式。 |
| softcap | - | 软封顶注意力,Paddle 无此参数,暂无转写方式。 |
| deterministic | - | 是否应用确定性实现,Paddle 无此参数,暂无转写方式。 |
| alibi_slopes | - | 用于注意力得分间的 bias,Paddle 无此参数,暂无转写方式。 |
| return_attn_probs | return_softmax | 是否返回注意力概率。 |
| - | fixed_seed_offset | 为 dropout mask 固定 sedd, offset,PyTorch 无此参数,Paddle 保持默认即可。 |
| - | rng_name | 选定 rng Generator,PyTorch 无此参数,Paddle 保持默认即可。 |
| - | training | 是否在训练阶段,PyTorch 无此参数,Paddle 保持默认即可。 |
