/ 1
【实习】英伟达-大语言模型及多模态RL方向实习生
[复制链接] 分享:
1楼
工作地点:北京/上海
工作职责:
团队工作方向为大语言模型(LLM)及多模态RL,重点围绕面向coding和SWE-bench等场景的agentic RL基础设施开发与适配、算法预研与训练验证,以及多模态RL方向的前沿探索和相关infra建设。
实习生项目工作方向:
(以下为大致方向,具体工作内容将在入职后根据个人技术背景及项目需求适配调整)
- 面向代码智能体与SWE-bench等任务的agentic RL训练与评测基础设施搭建和优化。
- 针对大模型agent的强化学习算法预研与训练验证,包括策略改进、奖励设计和评估指标等方向。
- 多模态RL相关方法与系统的预研工作,包括多模态环境设计、训练流水线与实验平台建设。
- 参与RL infra的开发,适配与优化。
- 协助完善实验数据与结果管理流程,沉淀可复用的工具链和技术文档。
每周至少可以保证3天on-site工作时间。
职位要求:
- 计算机科学、人工智能等相关专业硕士/博士在校生,具备扎实的算法和编程基础。
- 在强化学习、大语言模型或多模态学习等方向具有相关课程、科研或项目经验。
- 熟练使用PyTorch等深度学习框架,熟悉常见RL训练流程或有相关基础设施开发经验者优先。
- 具备良好的工程实现和代码调试能力,熟悉分布式训练、任务编排或评测管线者优先。
- 具备独立思考和快速学习能力,乐于在前沿方向进行探索性实验并系统化总结经验。
感兴趣的同学可将简历发送至 alexq@nvidia.com
/ 1
