【实习】阿里千问-大模型数据实习生-算法方向

返回本版

/ 1

跳转

[复制链接]

楼主

Joye [离线]

Joye

0.0没等级

发帖数：1 原创分：0

关注

<只看ta> <ASCIIArt>

1楼

**职位名称：数据实习生**

---

### 我们是谁

我们是阿里智能信息事业群，专注 C 端 AI 业务，为超 2 亿用户提供千问等大模型服务。本岗位聚焦 **「千问小讲堂」教育场景**，围绕课程内容生成与讲解效果优化，做扎实的算法与数据工作，一起打磨面向真实学生的教学能力。

---

### 你会参与到的工作

#### 一、业务侧：千问小讲堂「课程生成 & 讲解」效果优化

1. 围绕千问小讲堂的核心任务

- 课程大纲生成：根据知识点/教材内容，让模型生成结构化、分层次的课程大纲

- 讲解内容生成：面向不同年级/基础学生生成循序渐进、可理解的讲解内容

- 练习与讲评生成：设计配套练习题、答案与讲评说明，形成闭环教学单元

2. 将业务需求抽象为可优化的算法问题

- 设计数据与任务 schema（输入：知识点+学生画像+目标；输出：大纲/讲解/练习等）

- 定义并落地教学质量指标：覆盖度、正确性、逻辑性、难度匹配、表达清晰度等

- 支持构建和维护小讲堂场景下的评测集，用于对比不同模型版本与策略

3. 教育场景下的 Prompt 设计与调试（prompt engineering）

- 针对「大纲生成 / 分步讲解 / 举例 / 课堂小结 / 练习讲评」等任务设计 prompt

- 进行提示词对比实验（有无思维链、不同结构约束、不同学生画像等），量化效果差异

- 沉淀可复用的 prompt 模板和调参策略，为后训练与在线策略提供基础配置

#### 二、能力侧

（1）大模型后训练（SFT → RL）（2）Agent Skill 自我进化

4. 大模型后训练线：构建 SFT 训练数据

- 设计 instruction/response 对：围绕大纲生成、讲解拆解、例题解析、错因分析等

- 控制数据在学科、年级、难度上的分布，保证覆盖度与多样性

- 参与数据标注与质检，识别并修正「讲错、讲不清、讲不全」等问题案例

5. 大模型后训练线：支持 RL / RLHF 相关数据与偏好标注

- 设计「两段讲解好坏对比」的偏好数据形式，用于训练偏好模型/RLHF

- 从教学视角（是否讲对、是否讲清、是否适配学生水平等）进行打分或选优

- 协助构建适用于小讲堂场景的 reward / 打分信号，支撑后续 RL 训练与效果分析

6. Agent Skill 自我进化线：教学技能的自动迭代

- 参与拆解并定义「小讲堂 Agent」的核心技能：如知识点规划、分步讲解、举例迁移、阶段性测评等

- 分析真实交互日志，归纳哪些技能/策略有效、在哪些题型或学生群体上失效

- 参与设计和实现基于数据反馈的 skill 升级机制：

- skill 调参与策略改写（例如不同学生画像下采用不同讲解路径）

- skill 组合与调用策略的自动优化（如先诊断再讲解、先举例再总结）

- 与算法同学一起评估 skill 变更对教学效果的影响，形成可迭

### 职位要求

**我们希望你：**

1. 计算机、数学、电子信息等相关专业在读（本科/硕士均可），对 **NLP / 大模型 / 教育智能 / Agent** 有强烈兴趣。

2. 熟悉 **Python**，能独立完成常见数据处理与脚本开发（pandas/numpy/简单可视化等），有 Git 使用经验更佳。

3. 有一定 **prompt 使用或调试经验**：做过提示词优化、模型对比实验或简单效果分析中的任一部分。

4. 认同并愿意实践 **“用数据驱动模型与 Agent 能力演进”** 的工作方式：细致严谨、善于总结、能从案例中抽象通用模式。

5. 每周可到岗 **4 天及以上**，可在北京实习，能稳定实习一学期及以上者优先。

---

### 加分项

- 理解 LLM 后训练与 Agent 相关概念：

- SFT、RL/RLHF、偏好数据、reward/打分信号、教学场景评测指标

- Agent/Tool-Calling/技能图（skill graph）等基础概念

- 有以下任一实践经验：

- NLP 任务（文本生成、问答、对话、信息抽取等）

- 教育相关内容：题目/解析整理、教学内容创作、在线教育产品体验或优化

- 数据标注/质检、自动化评测脚本开发、简单推荐/策略类项目

- 熟悉任一大模型/Agent 工具链：

- transformers、vLLM、LangChain、LLaMA 生态等

---

### 来这里你可以收获

- 深度参与千问小讲堂真实教学场景，从算法和 Agent 视角理解「好课程、好讲解」与「好老师技能」的标准

- 实战体验两条能力线：一条是 **大模型后训练（SFT / RL）**，一条是 **Agent Skill 自我进化**，系统理解二者如何协同提升效果

备注：此岗位为日常实习生，没有转正名额，研一实习最佳。

邮箱：zhengnong.zzl@alibaba-inc.com

回帖
回信
转载
转寄
收入文集

发表于2026-04-01 22:41:10

返回本版

/ 1

跳转