开放权重并不等于开放训练。 @AddieF38654 在我们的团队中写下了她尝试使用现有开源基础设施对一个1T参数的MoE模型进行后训练的经验。 让我们来看看需要多少个猴子补丁才能对开放权重模型进行后训练。一个线程🧵