首页版面好友提醒登录
返回实习版

[实习] 商汤科技 音频视频多模态实习生

tongwwxiaoqier 最后修改于2024-09-01 00:01:36
[楼主]1楼

商汤科技 多模态基模型组 招聘音频视频实习生, base北京


工作职责

- 负责音频图像多模态大模型的研究,探索类gpt4o音频图像视频文本多模态大模型的训练策略

- 负责音频方向的ASR和TTS等研究,负责流式交互多模态模型的迭代

- 负责音频理解和音频生成等高质量数据集的构建和生成


任职要求

- 计算机科学、人工智能、机器学习或相关领域,硕士及以上学历。

- 熟悉音频,视频多模态领域基础知识。

- 逻辑清晰,有团队协作精神,有责任心,乐于接受挑战。

- 有计算机相关背景,熟悉深度学习、计算机视觉、多模态模型等基本知识。  

- 熟悉C++ 或者Python,或精通其他语言,有较好代码理解能力。

- 熟悉Linux,具备一定的开发经验,熟悉常见问题的解决方案。



投递邮箱:tongwenwen1@sensetime.com

邮箱主题:北大BBS+ 音频视频多模态实习生 + 北京 + 姓名