【实习】 腾讯WXG大模型RL环境构建实习生(北京)
[复制链接] 分享:🚀 招聘:微信 AI 团队 - 大模型 RL 环境构建实习生
🌟 我们是谁
我们是 微信 AI 工程团队。在这里,我们致力于探索大语言模型(LLM)的极致潜力,构建支持复杂任务自动化的智能体系统。我们不仅关注模型“怎么想”,更关注模型在真实/模拟物理世界中“怎么做”。
🛠️ 你将参与的工作
RL训练 的核心挑战之一是缺乏稳定、高保真的执行环境。你将深度参与以下工作:
环境沙箱构建:设计并实现支持 RL环境 执行代码、操作 API 或进行多步推理的隔离沙箱环境(基于 Docker, WebAssembly 或 VM)。
交互协议定义:优化 RL 训练与环境之间的 Observation/Action 循环,提升工具调用的准确率。
自动化评价体系:构建针对特定场景(如数据分析、自动化办公、软件工程)的评测基座(Benchmark),客观衡量执行成功率。
前沿技术探索:研究如何通过环境反馈(Environment Feedback)进行强化学习(RLHF/RLAIF),加速模型的迭代进化。
📋 我们希望你具备
扎实的计算机基础:优秀的编程能力(Python/Go/C++ 至少精通一门),熟悉 Linux 系统和容器化技术。
熟悉 ReAct、AutoGPT、LangChain 或 AutoGen 等开源框架,对 LLM 调用工具有实战经验或深度思考。
解决问题的韧性:RL 执行环境往往涉及复杂的依赖管理和安全隔离,需要你有较强的 Debug 能力和工程直觉。
加分项:有顶会论文(ACL, EMNLP, NeurIPS 等)、知名开源项目贡献经历,或在复杂系统设计方面有经验者优先。
🎁 你将获得
顶尖的技术氛围:与微信内部大牛直接交流,接触最真实、最海量的业务场景。
充足的算力支持:不愁资源,只愁你的 Idea 不够快。
转正机会:表现优秀的同学将获得校招转正绿色通道。
📍 工作地点:北京 📧 简历投递: chengcshi@tencent.com 邮件标题格式: [实习投递] 姓名-学校-RL环境方向-最快入职日期
