【实习-北京商汤】多模态大模型实习生 - 实习(Intern)版

【实习-北京商汤】多模态大模型实习生

上一帖顶部下一帖
显示图片底部

## 职位描述

职责内容主要参与多模态大模型（涵盖文本、图像、语音等多种模态）的研发与优化工作，负责从数据准备、模型设计到训练、调优的全流程工作，涉及多模态预训练、跨模态对齐、指令微调及强化学习（RLHF）等前沿技术。

## 实习内容

### 模型训练与优化

- 参与多模态大模型的预训练、跨模态对齐、指令微调及RLHF流程。

- 根据不同业务场景需求，设计并实现高效的训练和优化方案。

- 探索新型训练方法，提升模型在多模态任务中的性能。

### 数据处理与分析

- 负责多模态数据（包括文本、图像、语音等）的收集、清洗、标注和预处理。

- 分析多模态数据的质量与分布，确保数据的多样性、准确性和一致性。

- 针对特定任务需求，构建高质量的多模态数据集。

### 技术研究与创新

- 跟踪多模态学习、跨模态融合及大模型领域的最新技术进展。

- 参与团队技术讨论，提出创新性研究方向或解决方案。

- 撰写技术文档、实验报告，记录研究过程与成果。

### 跨团队协作

- 与算法工程师、数据科学家、产品经理等团队成员紧密合作，将业务需求转化为技术实现。

- 定期汇报研究进展，参与项目评审与技术方案讨论。

- 协助优化多模态模型在实际产品中的部署与应用。

## 教育背景

- 计算机科学、人工智能、数据科学、多模态学习或相关专业的硕士或博士在读学生。

- 具备扎实的机器学习、深度学习及多模态学习理论基础。

## 技能要求

- 熟练掌握深度学习框架（如PyTorch、TensorFlow、JAX）。

- 熟悉多模态模型的训练与优化技术，包括但不限于多模态预训练、跨模态对齐、指令微调及RLHF。

- 具备优秀的编程能力，熟练使用Python，熟悉Linux环境。

- 了解图像处理（OpenCV、PIL等）、语音处理（Librosa、SpeechBrain等）或自然语言处理（Hugging Face、NLTK等）相关工具者优先。

- 具备良好的数据分析能力，熟悉数据可视化工具（如Matplotlib、Seaborn）。

## 经验要求

- 具备多模态学习、计算机视觉、自然语言处理或语音处理相关项目经验者优先。

- 有实际参与多模态大模型研发、训练或优化项目经验者优先。

- 在相关领域（如CVPR、NeurIPS、ICML、ACL等）发表过论文或参与过开源项目者加分。

- 熟悉分布式训练、模型压缩或高效推理技术者加分。

## 其他要求

- 实习期至少6个月，每周保证4天及以上的工作时间。

- 具备良好的沟通能力和团队协作精神，能够快速适应快节奏的研发环境。

- 对多模态大模型领域有浓厚兴趣，愿意持续学习和探索前沿技术。

## 联系邮箱：weilivision@gmail.com