【通义】实习生招聘 - RL/Agent/Reasoning方向 - 实习(Intern)版

cyrdococyrdoco 最后修改于2025-01-31 16:34:45

[楼主]1楼

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

3. 长文创作相关研究

【能够提供的资源】

1. 充足的计算资源

2. 专注的研究环境

3. 校招转正机会

4. 参与大规模模型的全流程训练

【岗位要求】

1. 熟练使用PyTorch框架，具备LLM分布式训练调优经验，扎实的算法基础

2. 已在顶级会议发表过文章（包括但不限于NeurIPS, ICML, ICLR, ACL, NAACL, EMNLP, TPAMI...）

3. 熟悉常见强化学习算法，有PPO/GRPO等实战经历优先

Base地：北京/杭州（可选）

实习期：≥6个月

实习生待遇: 实习工资参考阿里巴巴实习生标准、提供入职交通补贴+异地实习租房补贴

期待你的加入！简历投递: cyrdoco_qiao@pku.edu.cn

回复转载 

cyrdococyrdoco 2025-02-01 01:31:38

[楼主]2楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-02-05 10:09:22

[楼主]3楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-02-18 19:18:18

[楼主]4楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-02-27 15:59:42

[楼主]5楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-01 16:08:22

[楼主]6楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-04 17:26:47

[楼主]7楼

如有顶会发表也可以的

zsqzz (zsqzz) 在 ta 的帖子中提到：

本科生能申请吗

回复转载 

cyrdococyrdoco 2025-03-04 17:26:57

[楼主]8楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-05 15:59:37

[楼主]9楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-07 00:22:13

[楼主]10楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-08 22:55:11

[楼主]11楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-09 22:18:40

[楼主]12楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-10 16:55:29

[楼主]13楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-10 23:37:17

[楼主]14楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

zsqzzlele 2025-03-11 15:54:09

15楼

招几个人呀

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-16 00:06:39

[楼主]16楼

持续招聘中~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到：

【研究方向】

1. 强化学习关键技术研究（包括但不限于self evolution/critic, Outcome/process/preference reward model）

2. Search/Retrieval场景下的reasoning技术研究

……

回复转载 

cyrdococyrdoco 2025-03-16 00:07:21

[楼主]17楼

hc还很充足，暂无固定数字

zsqzz (lele) 在 ta 的帖子中提到：

招几个人呀

回复转载 