2026 04-30 本文是LLM后训练的第五篇,介绍了两种基于LLM强化学习的后训练方法:GRPO(Generalized Reward Policy Optimization)和DPO(Direct Preference Optimization)。 Prev LLM后训练(四)--RLHF-PPO Next RIME输入法安装与定制
Leave a comment