【实习】大模型RLHF强化学习研究型实习生 - 实习(Intern)版 - 北大未名BBS
返回本版
1
/ 1
跳转

【实习】大模型RLHF强化学习研究型实习生

[复制链接]
楼主

yuyuyuhhh [离线]

dazhangyu1111

0.1新手上路

发帖数:3 原创分:0
<只看ta> <ASCIIArt>
1楼

【实习】大模型RLHF强化学习研究型实习生


工作职责

-负责大模型Post-training(文本、视觉理解、视觉生成、omini-model)的算法研发工作

-创新大模型后训练算法(包括SFT/RLHF/RM等方向),研究大模型对齐人类偏好前瞻技术和趋势

-构建高质量RLHF训练集和评估方式,深入大模型能力分析,制定系统性高效优化方案;

-负责大规模分布式RL 训练框架开发优化,提升训练和推理效率;


任职资格

-硕士以上学历,具备自然语言处理/计算机视觉视觉的理论背景和实践经验,在AI顶会发表LLM相关论文者优先;

-深入理解大模型后训练相关技术并有一定实践经验,包括SFT/RLHF/RM等,有强化学习相关工作经验者优先;

-熟练掌握Python编程语言以及Pytorch、Tensorflow、PaddlePaddle等其中一项深度学习开发框架,有OpenRL、Verl等开源RL框架使用经验者优先

-有较强的学术比赛经验或者在知名数据集的 Leaderboard 上排名靠前优先;-有较强的代码能力,有高质量的中大型项目或个人开源项目的经验优先;

-可长期实习者(一年及其以上)可放宽条件;


意向者可发简历至 dingsiyu@baidu.com

发表于2026-01-13 14:56:28
返回本版
1
/ 1
跳转

请您先 登录 再进行发帖

快速回复楼主
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入