This article does not have a corresponding language version

English

简体中文
English

Tag

Reinforcement Learning

MIMI

Posts

13

Tag Cloud

Blog Diffusion Models Docker Graphics Input Linux LLM Machine Learning Reinforcement Learning Web Tech

Recent Posts

RIME输入法安装与定制
LLM后训练(五)--GRPO和DPO
LLM后训练(四)--RLHF-PPO
LLM后训练(三)--PPO算法
LLM后训练(二)--价值函数

Blog

Diffusion Models

Docker

Graphics

Input

Linux

LLM

Machine Learning

Reinforcement Learning

Web Tech

Blog

Linux

LLM Post Training

Machine Learning

Software

2026

2026-04
LLM后训练(五)--GRPO和DPO
2026-04
LLM后训练(四)--RLHF-PPO
2026-04
LLM后训练(三)--PPO算法
2026-04
LLM后训练(二)--价值函数
2026-04
LLM后训练(一)--强化学习

1

2024-2026MIMI

MIMI

Posts

13



Home



Archives



About



Friend