首页版面好友提醒登录
返回实习版

【通义】研究实习生招聘 - Agent/RL/Reasoning方向

cyrdococyrdoco 2025-06-05 16:52:44
[楼主]21楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-06 13:36:02
[楼主]22楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-06 19:58:44
[楼主]23楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-08 00:24:42
[楼主]24楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-11 01:51:23
[楼主]25楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-12 12:29:56
[楼主]26楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-16 01:19:50
[楼主]27楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-20 17:47:41
[楼主]28楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-25 22:39:32
[楼主]29楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-28 01:44:58
[楼主]30楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-06-29 23:43:34
[楼主]31楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-07-01 01:52:51
[楼主]32楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-07-10 00:24:19
[楼主]33楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-07-14 00:02:08
[楼主]34楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……

cyrdococyrdoco 2025-07-16 01:35:45
[楼主]35楼

持续招聘中~~~~

cyrdoco (cyrdoco) 在 ta 的帖子中提到:

【研究方向】

1. 强化学习关键技术研究(包括但不限于self evolution/critic, Outcome/process/preference reward model, Agentic RL)

2. LLM Agent相关技术研究

……