【实习】MiniMax General Agent RL 框架与算法研究
General Agent RL 框架与算法研究
职位描述
1. 参与面向真实环境(如 Claude Code、Codex等)的多智能体多轮强化学习。
2. 参与优化 General Agent RL 框架训练效率与算法上限。
3. 探索 LLM 持续学习(Continual Learning)等前沿算法。
职位要求
1. 熟悉 RL 算法的基本原理
2. 了解训推框架,如 Megatron、SGLang 等
3. 具有出色的分析、解决问题的能力,能深入解决大模型训练、应用存在的问题
投递方式
yuelan@minimaxi.com