首页版面好友提醒登录
返回实习版 同主题展开

【实习-北京商汤】多模态大模型实习生

ewqr 最后修改于2025-06-19 21:50:05
#60892

## 职位描述


职责内容主要参与多模态大模型(涵盖文本、图像、语音等多种模态)的研发与优化工作,负责从数据准备、模型设计到训练、调优的全流程工作,涉及多模态预训练、跨模态对齐、指令微调及强化学习(RLHF)等前沿技术。


## 实习内容


### 模型训练与优化

- 参与多模态大模型的预训练、跨模态对齐、指令微调及RLHF流程。

- 根据不同业务场景需求,设计并实现高效的训练和优化方案。

- 探索新型训练方法,提升模型在多模态任务中的性能。


### 数据处理与分析

- 负责多模态数据(包括文本、图像、语音等)的收集、清洗、标注和预处理。

- 分析多模态数据的质量与分布,确保数据的多样性、准确性和一致性。

- 针对特定任务需求,构建高质量的多模态数据集。


### 技术研究与创新

- 跟踪多模态学习、跨模态融合及大模型领域的最新技术进展。

- 参与团队技术讨论,提出创新性研究方向或解决方案。

- 撰写技术文档、实验报告,记录研究过程与成果。


### 跨团队协作

- 与算法工程师、数据科学家、产品经理等团队成员紧密合作,将业务需求转化为技术实现。

- 定期汇报研究进展,参与项目评审与技术方案讨论。

- 协助优化多模态模型在实际产品中的部署与应用。


## 教育背景

- 计算机科学、人工智能、数据科学、多模态学习或相关专业的硕士或博士在读学生。

- 具备扎实的机器学习、深度学习及多模态学习理论基础。


## 技能要求

- 熟练掌握深度学习框架(如PyTorch、TensorFlow、JAX)。

- 熟悉多模态模型的训练与优化技术,包括但不限于多模态预训练、跨模态对齐、指令微调及RLHF。

- 具备优秀的编程能力,熟练使用Python,熟悉Linux环境。

- 了解图像处理(OpenCV、PIL等)、语音处理(Librosa、SpeechBrain等)或自然语言处理(Hugging Face、NLTK等)相关工具者优先。

- 具备良好的数据分析能力,熟悉数据可视化工具(如Matplotlib、Seaborn)。


## 经验要求

- 具备多模态学习、计算机视觉、自然语言处理或语音处理相关项目经验者优先。

- 有实际参与多模态大模型研发、训练或优化项目经验者优先。

- 在相关领域(如CVPR、NeurIPS、ICML、ACL等)发表过论文或参与过开源项目者加分。

- 熟悉分布式训练、模型压缩或高效推理技术者加分。


## 其他要求

- 实习期至少6个月,每周保证4天及以上的工作时间。

- 具备良好的沟通能力和团队协作精神,能够快速适应快节奏的研发环境。

- 对多模态大模型领域有浓厚兴趣,愿意持续学习和探索前沿技术。


## 联系邮箱:weilivision@gmail.com