虾皮LLM基座团队招聘全职/实习生

返回本版

/ 1

跳转

[复制链接]

楼主

xlands [离线]

xlands

3.1中级站友

发帖数：225 原创分：0

关注

<只看ta> <ASCIIArt>

1楼

关于团队

Shopee 大模型团队专注于打造面向全球竞争的多语言大模型。我们以真实业务驱动的创新为核心，致力于构建融合推理、记忆与自主执行能力的下一代自主智能体（Agentic LLM）体系。依托全球新兴市场尤其是东南亚的多语言、多文化数据优势，我们已自主建设大模型全栈基础设施，覆盖训练体系、评测系统、安全机制与高效推理部署。

我们的模型能力已在电商、广告、客服、物流、数据分析、企业知识系统等全链路业务场景中规模化落地，为集团与生态伙伴带来显著效率提升与成本优化。同时，我们的技术成果已在 ACL、EMNLP 等国际人工智能顶级会议发表，核心能力获得全球学术与产业的认可。

职位描述 (Job Description)1.RL算法研发与优化：负责大语言模型后训练阶段RL的核心算法研发。深入研究并落地GRPO、DAPO、GSPO等主流强化学习及偏好对齐算法，提升模型在指令遵循、逻辑推理、多轮对话及安全性方面的表现。

2.Reward Model 构建：负责高质量奖励模型（Reward Model）的设计与训练，优化奖励模型的准确性（Accuracy）和鲁棒性，探索多目标奖励建模（Helpfulness, Safety, Verbosity等）及 Critic 模型的优化策略，解决 Reward Hacking 问题。

3.偏好数据体系建设：负责构建和优化人类偏好数据（Preference Data）构建流程，设计高效的数据采样、标注及质量控制策略；探索 RLAIF（AI Feedback）技术，利用强模型辅助生成高质量偏好数据，降低对人工标注的依赖。

4.特定场景优化：利用强化学习技术解决大模型在电商场景下的具体问题，如减少幻觉（Hallucination）、提升长文本处理能力、优化多语言对齐效果以及特定格式输出的稳定性。

5.前沿技术跟踪：持续跟踪 NLP 与强化学习交叉领域的最新研究进展（如 Self-Play, Iterative Training, Process Reward Models 等），保持技术敏感度并推动新技术在业务中的快速落地。

职位要求 (Job Requirements)1.基础功底：计算机、数学、人工智能等相关专业硕士及以上学历；具备扎实的数学基础（概率论、优化理论）和优秀的编码能力，熟练掌握 Python/PyTorch，具备优秀的 Hands-on 能力。

2.RL领域经验：深入理解强化学习基本原理（Policy Gradient, Actor-Critic, Q-Learning等），精通 PPO、GRPO 等大模型主流对齐算法；有 RLHF 完整流程（SFT -> RM -> RL）实战经验者极具优势。

3.大模型技术：熟悉业界领先 LLM（如 LLaMA, Mistral, Qwen 等）的训练架构；熟悉 VERL 等主流大模型训练框架，具备分布式训练和显存优化经验者优先。

4.数据敏感度：对数据极其敏感，深刻理解数据质量（特别是偏好数据）对 RL 效果的影响，有构建大规模偏好数据集或设计数据清洗 Pipeline 经验者优先。

5.科研与解决问题：具备出色的问题分析与解决能力，能够独立定位 RL 训练中的不稳定性（Instability）和收敛问题；在 ICML, NeurIPS, ICLR, ACL 等顶会发表过强化学习或大模型对齐相关论文者优先。

6.沟通协作：良好的沟通协作能力，具备 Owner 意识，能与数据团队、工程团队紧密配合，推动模型从算法验证到业务上线。

回帖
回信
转载
转寄
收入文集

发表于2026-03-11 16:35:42

返回本版

/ 1

跳转