虾皮LLM基座团队招聘全职/实习生 - 求职信息发布(Job_Post)版 - 北大未名BBS
返回本版
1
/ 1
跳转

虾皮LLM基座团队招聘全职/实习生

[复制链接]
楼主

xlands [离线]

xlands

3.1中级站友

发帖数:225 原创分:0
<只看ta> <ASCIIArt>
1楼

关于团队

Shopee 大模型团队专注于打造面向全球竞争的多语言大模型。我们以真实业务驱动的创新为核心,致力于构建融合推理、记忆与自主执行能力的下一代自主智能体(Agentic LLM)体系。依托全球新兴市场尤其是东南亚的多语言、多文化数据优势,我们已自主建设大模型全栈基础设施,覆盖训练体系、评测系统、安全机制与高效推理部署。

我们的模型能力已在 电商、广告、客服、物流、数据分析、企业知识系统 等全链路业务场景中规模化落地,为集团与生态伙伴带来显著效率提升与成本优化。同时,我们的技术成果已在 ACL、EMNLP 等国际人工智能顶级会议发表,核心能力获得全球学术与产业的认可。

职位描述 (Job Description)1.RL算法研发与优化: 负责大语言模型后训练阶段RL的核心算法研发。深入研究并落地GRPO、DAPO、GSPO等主流强化学习及偏好对齐算法,提升模型在指令遵循、逻辑推理、多轮对话及安全性方面的表现。

2.Reward Model 构建: 负责高质量奖励模型(Reward Model)的设计与训练,优化奖励模型的准确性(Accuracy)和鲁棒性,探索多目标奖励建模(Helpfulness, Safety, Verbosity等)及 Critic 模型的优化策略,解决 Reward Hacking 问题。

3.偏好数据体系建设: 负责构建和优化人类偏好数据(Preference Data)构建流程,设计高效的数据采样、标注及质量控制策略;探索 RLAIF(AI Feedback)技术,利用强模型辅助生成高质量偏好数据,降低对人工标注的依赖。

4.特定场景优化: 利用强化学习技术解决大模型在电商场景下的具体问题,如减少幻觉(Hallucination)、提升长文本处理能力、优化多语言对齐效果以及特定格式输出的稳定性。

5.前沿技术跟踪: 持续跟踪 NLP 与强化学习交叉领域的最新研究进展(如 Self-Play, Iterative Training, Process Reward Models 等),保持技术敏感度并推动新技术在业务中的快速落地。

职位要求 (Job Requirements)1.基础功底: 计算机、数学、人工智能等相关专业硕士及以上学历;具备扎实的数学基础(概率论、优化理论)和优秀的编码能力,熟练掌握 Python/PyTorch,具备优秀的 Hands-on 能力。

2.RL领域经验: 深入理解强化学习基本原理(Policy Gradient, Actor-Critic, Q-Learning等),精通 PPO、GRPO 等大模型主流对齐算法;有 RLHF 完整流程(SFT -> RM -> RL)实战经验者极具优势。

3.大模型技术: 熟悉业界领先 LLM(如 LLaMA, Mistral, Qwen 等)的训练架构;熟悉 VERL 等主流大模型训练框架,具备分布式训练和显存优化经验者优先。

4.数据敏感度: 对数据极其敏感,深刻理解数据质量(特别是偏好数据)对 RL 效果的影响,有构建大规模偏好数据集或设计数据清洗 Pipeline 经验者优先。

5.科研与解决问题: 具备出色的问题分析与解决能力,能够独立定位 RL 训练中的不稳定性(Instability)和收敛问题;在 ICML, NeurIPS, ICLR, ACL 等顶会发表过强化学习或大模型对齐相关论文者优先。

6.沟通协作: 良好的沟通协作能力,具备 Owner 意识,能与数据团队、工程团队紧密配合,推动模型从算法验证到业务上线。

发表于2026-03-11 16:35:42
返回本版
1
/ 1
跳转

请您先 登录 再进行发帖

快速回复楼主
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入