/ 1
【字节】Seed大模型训练Infra实习生
[复制链接] 分享:
1楼
大模型训练系统开发工程师
职位描述:
- 依据各类主流异构硬件卡(如NV GPU、昇腾910B/C等),设计和开发高效的大模型训练系统,推动语言/多模态大模型的预训练、微调、强化学习等各类技术在异构硬件的落地。
- 针对模型性能展开分析与优化,针对不同异构硬件特性能够识别并解决瓶颈问题,显著提升模型训练速度。
- 定位并处理各类模型训练中产生的精度或大规模集群稳定性问题,增强模型训练系统的可用性与鲁棒性。
- 追踪研究业界最新的训练技术,不限于模型参数优化和性能加速,提出并验证改进与优化的思路。
职位要求:
1. 本科及以上学历,计算机科学、人工智能相关专业者优先。
2. 具备扎实的编程功底,熟练掌握 PyTorch等深度学习框架和大模型的底层原理、精通主流训练框架(如 Megatron-LM/DeepSpeed),拥有出色的工程能力和问题解决能力。有对PyTorch、Megatron-LM开发经验者优先。
3. 熟悉至少一款计算卡上的性能优化方案,包括不限于Profiling方法、不同分布式并行方案的优劣势和对硬件能力(如通信带宽、显存带宽等)的要求、通算并行原理、设备内存占用优化等。
4. 具有语言/多模态大模型训练经验(Pretrain、SFT、PEFT、RLHF 等)经验者优先。
5. 熟悉常见的模型优化和精度问题定位策略,对常见的Loss/Grad Spike、NAN、确定性计算等有具体定位经验者优先。
6. 熟悉常见的训练稳定性问题排查流程以及自动化运维方案,有集合通信hang、算子异常crash、SDC等问题排查和处理经验者优先。
联系方式:youansheng@bytedance.com
/ 1
