期待已久的 @PrimeIntellect 主辦的 RL 訓練已經推出,過去一個月我在 beta 版本中訓練了 50 多個模型,涵蓋了社區環境和我的 pmpp,所有模型都可以在環境中心找到。 從信號到模型的端到端過程,所有操作都在 Lab 內進行,這是我有過的最順暢的訓練體驗。