【通义】研究实习生招聘 - Agent/RL/Reasoning方向
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
3. Search/Retrieval场景下的reasoning技术研究
【能够提供的资源】
1. 充足的计算资源
2. 专注的研究环境
3. 校招转正机会
4. 参与大规模模型的全流程训练
【岗位要求】
1. 熟练使用PyTorch、transformers等常见框架,具备LLM分布式训练调优经验,扎实的算法基础
2. 已在顶级会议发表过文章(包括但不限于NeurIPS, ICML, ICLR, ACL, NAACL, EMNLP, TPAMI...)
3. 熟悉常见强化学习算法,有PPO/GRPO等实战经历优先
Base地:北京/杭州(可选)
实习期:≥6个月
实习生待遇: 实习工资参考通义实验室25实习生标准、提供入职交通补贴+异地实习租房补贴
期待你的加入!简历投递: cyrdoco_qiao@pku.edu.cn
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……
持续招聘中~~~~
cyrdoco (cyrdoco) 在 ta 的帖子中提到:
【研究方向】
1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)
2. LLM Agent相关技术研究
……