阿里巴巴-夸克基础大模型 | 强化学习方向研究实习 - 实习(Intern)版

阿里巴巴-夸克基础大模型 | 强化学习方向研究实习

上一帖顶部下一帖
显示图片底部

阿里巴巴-夸克基础大模型团队 | 强化学习方向算法工程师 / 研究型实习生 Research Intern

岗位职责

1. 研发新一代大模型强化学习算法，提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力；

2. 改进大规模分布式强化学习框架，优化万卡集群下的高效分布式训练效率，支持大模型与复杂环境/工具的高效交互；

3. 将强化学习研究成果融入夸克产品生态，打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。

岗位要求

1. 硕士及以上学历，数学、强化学习、自然语言处理等相关专业；

2. 在强化学习方面具有丰富的专业知识，熟练掌握深度强化学习算法在大语言模型中的应用及前沿知识；

3. 熟悉大模型相关深度学习框架，如Transformers、PyTorch、Megatron-LM等，有扎实的编程基础和代码实现能力；

4. 具备良好的沟通、协作和解决问题的能力，能够与团队成员密切合作，共同解决问题。

加分项

1. 有大语言模型RLHF、RL reasoning、Agentic RL等方向有实际项目参与经验；

2. 在强化学习、大模型训练、多智能体等研究方向在顶级学术会议上发表过论文；

3. 有大规模分布式强化学习训练经验或RL框架优化经验。

投递方式 📪 weixuyuan.wxy@alibaba-inc.com

——————

以上为JD, 个人强力推荐，说下我了解的情况。

mentor实习很强，是夸克RL的ld，目前在杭州。北京夸克这边有另一位微软刚加入的大佬，50%以上之间做research，指导充足。个人觉得比较适合发文章

资源充足，据称万卡资源，和Qwen对半分，日常有不少H100来用。基建不错，应该大于腾讯。

环境不错，薪资不错，阿里打卡是给ld汇报上班时间，相对自由。

夸克Research刚刚起步，期望做一些有影响力的工作，所以相对重视。重视的同时又很Open，因为要做的方向很多，所以接受的方向也比较广。