阿里巴巴-夸克基础大模型 | 强化学习方向 研究实习
阿里巴巴-夸克基础大模型团队 | 强化学习方向 算法工程师 / 研究型实习生 Research Intern
岗位职责
1. 研发新一代大模型强化学习算法,提升大模型在多模态、工具调用、复杂环境交互、多智能体交互等方向的基础能力;
2. 改进大规模分布式强化学习框架,优化万卡集群下的高效分布式训练效率,支持大模型与复杂环境/工具的高效交互;
3. 将强化学习研究成果融入夸克产品生态,打造更懂用户的智能服务产品, 让前沿技术惠及亿万用户。
岗位要求
1. 硕士及以上学历,数学、强化学习、自然语言处理等相关专业;
2. 在强化学习方面具有丰富的专业知识,熟练掌握深度强化学习算法在大语言模型中的应用及前沿知识;
3. 熟悉大模型相关深度学习框架,如Transformers、PyTorch、Megatron-LM等,有扎实的编程基础和代码实现能力;
4. 具备良好的沟通、协作和解决问题的能力,能够与团队成员密切合作,共同解决问题。
加分项
1. 有大语言模型RLHF、RL reasoning、Agentic RL等方向有实际项目参与经验;
2. 在强化学习、大模型训练、多智能体等研究方向在顶级学术会议上发表过论文;
3. 有大规模分布式强化学习训练经验或RL框架优化经验。
投递方式 📪 weixuyuan.wxy@alibaba-inc.com
——————
以上为JD, 个人强力推荐,说下我了解的情况。
mentor实习很强,是夸克RL的ld,目前在杭州。北京夸克这边有另一位微软刚加入的大佬,50%以上之间做research,指导充足。 个人觉得比较适合发文章
资源充足,据称万卡资源,和Qwen对半分,日常有不少H100来用。基建不错,应该大于腾讯。
环境不错,薪资不错,阿里打卡是给ld汇报上班时间,相对自由。
夸克Research刚刚起步,期望做一些有影响力的工作,所以相对重视。重视的同时又很Open,因为要做的方向很多,所以接受的方向也比较广。