【字节】Seed大模型训练Infra实习生 - 实习(Intern)版 - 北大未名BBS
返回本版
1
/ 1
跳转

【字节】Seed大模型训练Infra实习生

[复制链接]
楼主

donnyyou [离线]

donnyyou

0.0没等级

发帖数:2 原创分:0
<只看ta> <ASCIIArt>
1楼

大模型训练系统开发工程师

职位描述:

- 依据各类主流异构硬件卡(如NV GPU、昇腾910B/C等),设计和开发高效的大模型训练系统,推动语言/多模态大模型的预训练、微调、强化学习等各类技术在异构硬件的落地。

- 针对模型性能展开分析与优化,针对不同异构硬件特性能够识别并解决瓶颈问题,显著提升模型训练速度。

- 定位并处理各类模型训练中产生的精度或大规模集群稳定性问题,增强模型训练系统的可用性与鲁棒性。

- 追踪研究业界最新的训练技术,不限于模型参数优化和性能加速,提出并验证改进与优化的思路。

职位要求:

1. 本科及以上学历,计算机科学、人工智能相关专业者优先。

2. 具备扎实的编程功底,熟练掌握 PyTorch等深度学习框架和大模型的底层原理、精通主流训练框架(如 Megatron-LM/DeepSpeed),拥有出色的工程能力和问题解决能力。有对PyTorch、Megatron-LM开发经验者优先。

3. 熟悉至少一款计算卡上的性能优化方案,包括不限于Profiling方法、不同分布式并行方案的优劣势和对硬件能力(如通信带宽、显存带宽等)的要求、通算并行原理、设备内存占用优化等。

4. 具有语言/多模态大模型训练经验(Pretrain、SFT、PEFT、RLHF 等)经验者优先。

5. 熟悉常见的模型优化和精度问题定位策略,对常见的Loss/Grad Spike、NAN、确定性计算等有具体定位经验者优先。

6. 熟悉常见的训练稳定性问题排查流程以及自动化运维方案,有集合通信hang、算子异常crash、SDC等问题排查和处理经验者优先。



联系方式:youansheng@bytedance.com

发表于2026-01-06 16:24:10
楼主

donnyyou [离线]

donnyyou

0.0没等级

发帖数:2 原创分:0
<只看ta> <ASCIIArt>
2楼

中关村鼎好大厦

donnyyou (donnyyou) 在 ta 的帖子中提到:

大模型训练系统开发工程师

职位描述:

- 依据各类主流异构硬件卡(如NV GPU、昇腾910B/C等),设计和开发高效的大模型训练系统,推动语言/多模态大模型的预训练、微调、强化学习等各类技术在异构硬件的落地。

……

发表于2026-01-06 21:20:11
返回本版
1
/ 1
跳转

请您先 登录 再进行发帖

快速回复楼主
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入