PMPP bewijst zichzelf als trainingsdoel, goede kernel signaalbeloningen zijn belonend