[实习] 商汤科技 音频视频多模态实习生
商汤科技 多模态基模型组 招聘音频视频实习生, base北京
工作职责
- 负责音频图像多模态大模型的研究,探索类gpt4o音频图像视频文本多模态大模型的训练策略
- 负责音频方向的ASR和TTS等研究,负责流式交互多模态模型的迭代
- 负责音频理解和音频生成等高质量数据集的构建和生成
任职要求
- 计算机科学、人工智能、机器学习或相关领域,硕士及以上学历。
- 熟悉音频,视频多模态领域基础知识。
- 逻辑清晰,有团队协作精神,有责任心,乐于接受挑战。
- 有计算机相关背景,熟悉深度学习、计算机视觉、多模态模型等基本知识。
- 熟悉C++ 或者Python,或精通其他语言,有较好代码理解能力。
- 熟悉Linux,具备一定的开发经验,熟悉常见问题的解决方案。
投递邮箱:tongwenwen1@sensetime.com
邮箱主题:北大BBS+ 音频视频多模态实习生 + 北京 + 姓名