【实习】微信自研大模型后训练(base 北京) - 实习(Intern)版 - 北大未名BBS

【实习】微信自研大模型后训练(base 北京)

[复制链接] 浏览该主题帖

zengxianfeng [离线]

曾显丑

2.5一般站友

发帖数:48 原创分:0
关注
<ASCIIArt> #62015

【日常实习】 微信自研大模型后训练


【工作内容】

1. 优化基座模型的后训练流程(mid-train、SFT、RL)。

2. 调研前沿 RL 方案,优化+落地。

3. 优化现有 RL 框架的问题。(训推 mismatch / 异步 rollout 等)

4. 优化 CODE、STEM、通用等场景的 RL 效果。


【要求】

1. 一周 4 天以上,实习六个月以上

2. 熟悉verl,openrlhf,llamafactory,vllm,deepspeed,fsdp,megtron等常用框架

3. 熟悉 RL 相关算法,有 RL 调优经验。


【加分项】

1. 具有优秀的基础算法、扎实的机器学习基础,在后训练方向发表过一作顶会论文。

2. 具有优秀的代码能力,在ACM/ICPC、NOI/IOl、Top Coder、Kaggle等比赛获奖。

3. 在 pretrain / sft / RL,参与过大影响力项目(包括开源项目)。


【联系方式】

简历发送至邮箱:xianfzeng@tencent.com

发表于2025-10-25 22:52:54

请您先 登录 再进行发帖

快捷回帖
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入