首页版面好友提醒登录
返回实习版 同主题展开

【通义】实习生招聘 - RL/Agent/Reasoning方向

cyrdococyrdoco 最后修改于2025-01-31 16:34:45
#59322

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model)

2. Search/Retrieval场景下的reasoning技术研究

3. 长文创作相关研究


【能够提供的资源】

1. 充足的计算资源

2. 专注的研究环境

3. 校招转正机会

4. 参与大规模模型的全流程训练


【岗位要求】

1. 熟练使用PyTorch框架,具备LLM分布式训练调优经验,扎实的算法基础

2. 已在顶级会议发表过文章(包括但不限于NeurIPS, ICML, ICLR, ACL, NAACL, EMNLP, TPAMI...)

3. 熟悉常见强化学习算法,有PPO/GRPO等实战经历优先


Base地:北京/杭州(可选)

实习期:≥6个月

实习生待遇: 实习工资参考阿里巴巴实习生标准、提供入职交通补贴+异地实习租房补贴



期待你的加入!简历投递: cyrdoco_qiao@pku.edu.cn