【实习】微信自研大模型后训练（base 北京）

返回本版

/ 1

跳转

[复制链接]

楼主

zengxianfeng [离线]

曾显丑

2.5一般站友

发帖数：48 原创分：0

关注

<只看ta> <ASCIIArt>

1楼

【日常实习】微信自研大模型后训练

【工作内容】

1. 优化基座模型的后训练流程（mid-train、SFT、RL）。

2. 调研前沿 RL 方案，优化+落地。

3. 优化现有 RL 框架的问题。（训推 mismatch / 异步 rollout 等）

4. 优化 CODE、STEM、通用等场景的 RL 效果。

【要求】

1. 一周 4 天以上，实习六个月以上

2. 熟悉verl，openrlhf，llamafactory，vllm，deepspeed，fsdp，megtron等常用框架

3. 熟悉 RL 相关算法，有 RL 调优经验。

【加分项】

1. 具有优秀的基础算法、扎实的机器学习基础，在后训练方向发表过一作顶会论文。

2. 具有优秀的代码能力，在ACM/ICPC、NOI/IOl、Top Coder、Kaggle等比赛获奖。

3. 在 pretrain / sft / RL，参与过大影响力项目（包括开源项目）。

【联系方式】

简历发送至邮箱：xianfzeng@tencent.com

回帖
回信
转载
转寄
收入文集

发表于2025-10-25 22:52:54

楼主

zengxianfeng [离线]

曾显丑

2.5一般站友

发帖数：48 原创分：0

关注

<只看ta> <ASCIIArt>

2楼

过程中有价值的 idea 可以发论文，场景也包括 agent 方向。

zengxianfeng (曾显丑) 在 ta 的帖子中提到：

【日常实习】微信自研大模型后训练

【工作内容】

1. 优化基座模型的后训练流程（mid-train、SFT、RL）。

……

回帖
回信
转载
转寄
收入文集

发表于2025-11-26 11:54:52

返回本版

/ 1

跳转