在打印的网络中并没有看到动态生成的weight和bias,这样是可以训练的嘛?(ps:此前在训练层注意力中,也用到了beta=nn.parameter,但是定义的参数beta值一直都没有改动!!!)。能问下您的pytorch版本嘛?