【实习-北京商汤】多模态大模型实习生
[复制链接] 浏览该主题帖## 职位描述
职责内容主要参与多模态大模型(涵盖文本、图像、语音等多种模态)的研发与优化工作,负责从数据准备、模型设计到训练、调优的全流程工作,涉及多模态预训练、跨模态对齐、指令微调及强化学习(RLHF)等前沿技术。
## 实习内容
### 模型训练与优化
- 参与多模态大模型的预训练、跨模态对齐、指令微调及RLHF流程。
- 根据不同业务场景需求,设计并实现高效的训练和优化方案。
- 探索新型训练方法,提升模型在多模态任务中的性能。
### 数据处理与分析
- 负责多模态数据(包括文本、图像、语音等)的收集、清洗、标注和预处理。
- 分析多模态数据的质量与分布,确保数据的多样性、准确性和一致性。
- 针对特定任务需求,构建高质量的多模态数据集。
### 技术研究与创新
- 跟踪多模态学习、跨模态融合及大模型领域的最新技术进展。
- 参与团队技术讨论,提出创新性研究方向或解决方案。
- 撰写技术文档、实验报告,记录研究过程与成果。
### 跨团队协作
- 与算法工程师、数据科学家、产品经理等团队成员紧密合作,将业务需求转化为技术实现。
- 定期汇报研究进展,参与项目评审与技术方案讨论。
- 协助优化多模态模型在实际产品中的部署与应用。
## 教育背景
- 计算机科学、人工智能、数据科学、多模态学习或相关专业的硕士或博士在读学生。
- 具备扎实的机器学习、深度学习及多模态学习理论基础。
## 技能要求
- 熟练掌握深度学习框架(如PyTorch、TensorFlow、JAX)。
- 熟悉多模态模型的训练与优化技术,包括但不限于多模态预训练、跨模态对齐、指令微调及RLHF。
- 具备优秀的编程能力,熟练使用Python,熟悉Linux环境。
- 了解图像处理(OpenCV、PIL等)、语音处理(Librosa、SpeechBrain等)或自然语言处理(Hugging Face、NLTK等)相关工具者优先。
- 具备良好的数据分析能力,熟悉数据可视化工具(如Matplotlib、Seaborn)。
## 经验要求
- 具备多模态学习、计算机视觉、自然语言处理或语音处理相关项目经验者优先。
- 有实际参与多模态大模型研发、训练或优化项目经验者优先。
- 在相关领域(如CVPR、NeurIPS、ICML、ACL等)发表过论文或参与过开源项目者加分。
- 熟悉分布式训练、模型压缩或高效推理技术者加分。
## 其他要求
- 实习期至少6个月,每周保证4天及以上的工作时间。
- 具备良好的沟通能力和团队协作精神,能够快速适应快节奏的研发环境。
- 对多模态大模型领域有浓厚兴趣,愿意持续学习和探索前沿技术。
## 联系邮箱:weilivision@gmail.com
