Softmax

class paddle.sparse.nn. Softmax ( axis=- 1, name=None ) [源代码]

稀疏 Softmax 激活层,输入 xSparseCooTensorSparseCsrTensor ,创建一个可调用对象以计算输入 xSoftmax

当输入 xSparseCsrTensor 时,仅支持 axis=-1,是由于 Csr 稀疏存储格式,更适合按行读取数据。

如果将 x 从稀疏矩阵转换为稠密矩阵, \(i\) 代表行数, \(j\) 代表列数,且 axis=-1 时有如下公式:

\[softmax_ij = \frac{\exp(x_ij - max_j(x_ij))}{\sum_j(exp(x_ij - max_j(x_ij))}\]

参数

  • axis (int, 可选) - 指定对输入 SparseTensor 计算 softmax 的轴。对于 SparseCsrTensor,仅支持 axis=-1。默认值:-1。

  • name (str,可选) - 具体用法请参见 Name,一般无需设置,默认值为 None。

形状

  • input:任意形状的 SparseCooTensor 或 SparseCsrTensor,数据类型为 float32、float64。

  • output:和 input 具有相同形状和数据类型的 SparseTensor。

代码示例

import paddle
paddle.seed(2022)

mask = paddle.rand((3, 4)) < 0.7
x = paddle.rand((3, 4)) * mask
print(x)
# Tensor(shape=[3, 4], dtype=float32, place=Place(gpu:0), stop_gradient=True,
#        [[0.08325022, 0.27030438, 0.        , 0.83883715],
#         [0.        , 0.95856029, 0.24004589, 0.        ],
#         [0.14500992, 0.17088132, 0.        , 0.        ]])

csr = x.to_sparse_csr()
print(csr)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
#        crows=[0, 3, 5, 7],
#        cols=[0, 1, 3, 1, 2, 0, 1],
#        values=[0.08325022, 0.27030438, 0.83883715, 0.95856029, 0.24004589,
#                0.14500992, 0.17088132])

softmax = paddle.sparse.nn.Softmax()
out = softmax(csr)
print(out)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
#        crows=[0, 3, 5, 7],
#        cols=[0, 1, 3, 1, 2, 0, 1],
#        values=[0.23070428, 0.27815846, 0.49113727, 0.67227983, 0.32772022,
#                0.49353254, 0.50646752])

coo = x.to_sparse_coo(sparse_dim=2)
print(coo)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
#        indices=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 2],
#                 [0, 1, 3, 0, 2, 3, 0, 1, 2, 3]],
#        values=[0.83438963, 0.70008713, 0.88831252, 0.02200012, 0.75432241,
#                0.65136462, 0.96088767, 0.82938021, 0.35367414, 0.86653489])

out = softmax(coo)
print(out)
# Tensor(shape=[3, 4], dtype=paddle.float32, place=Place(gpu:0), stop_gradient=True,
#        indices=[[0, 0, 0, 1, 1, 1, 2, 2, 2, 2],
#                 [0, 1, 3, 0, 2, 3, 0, 1, 2, 3]],
#        values=[0.34132853, 0.29843226, 0.36023924, 0.20176250, 0.41964683,
#                0.37859073, 0.30015597, 0.26316857, 0.16354507, 0.27313042])