【通义】研究实习生招聘 - Agent/RL/Reasoning方向 - 实习(Intern)版 - 北大未名BBS
返回本版
1
2
下一页 >
/ 2
跳转

【通义】研究实习生招聘 - Agent/RL/Reasoning方向

[复制链接]
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
1楼

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

3. Search/Retrieval场景下的reasoning技术研究


【能够提供的资源】

1. 充足的计算资源

2. 专注的研究环境

3. 校招转正机会

4. 参与大规模模型的全流程训练


【岗位要求】

1. 熟练使用PyTorch、transformers等常见框架,具备LLM分布式训练调优经验,扎实的算法基础

2. 已在顶级会议发表过文章(包括但不限于NeurIPS, ICML, ICLR, ACL, NAACL, EMNLP, TPAMI...)

3. 熟悉常见强化学习算法,有PPO/GRPO等实战经历优先


Base地:北京/杭州(可选)

实习期:≥6个月

实习生待遇: 实习工资参考通义实验室25实习生标准、提供入职交通补贴+异地实习租房补贴




期待你的加入!简历投递: cyrdoco_qiao@pku.edu.cn

 最后修改于2025-05-26 17:41:23
  • 发表于2025-05-19 00:51:43
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
2楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-19 10:20:08
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
3楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-19 20:39:06
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
4楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-20 11:14:26
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
5楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-20 23:13:21
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
6楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-21 13:09:37
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
7楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-21 23:16:58
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
8楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-22 21:44:37
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
9楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-23 15:21:44
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
10楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-23 21:12:04
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
11楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-24 22:59:35
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
12楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-25 14:48:17
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
13楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-26 17:40:52
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
14楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-27 22:58:35
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
15楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-28 14:27:40
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
16楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-28 23:31:14
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
17楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-05-30 10:00:22
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
18楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-06-01 01:41:54
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
19楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-06-03 11:17:31
楼主

cyrdoco [离线]

cyrdoco

2.6一般站友

发帖数:55 原创分:0
<只看ta> <ASCIIArt>
20楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

发表于2025-06-03 22:21:33
返回本版
1
2
下一页 >
/ 2
跳转

请您先 登录 再进行发帖

快速回复楼主
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入