如果我使用reward manager把attention mask对应的最后一个位置放上计算的score,然后在compute_grpo_outcome_advantage乘的是action mask不就没了么