PMPP 证明了自己作为训练目标,良好的内核信号奖励是有回报的