[实习] 商汤科技 音频视频多模态实习生 - 实习(Intern)版 - 北大未名BBS
返回本版
1
/ 1
跳转

[实习] 商汤科技 音频视频多模态实习生

[复制链接]
楼主

tongww [离线]

xiaoqier

2.2一般站友

发帖数:10 原创分:0
<ASCIIArt> 1楼

商汤科技 多模态基模型组 招聘音频视频实习生, base北京


工作职责

- 负责音频图像多模态大模型的研究,探索类gpt4o音频图像视频文本多模态大模型的训练策略

- 负责音频方向的ASR和TTS等研究,负责流式交互多模态模型的迭代

- 负责音频理解和音频生成等高质量数据集的构建和生成


任职要求

- 计算机科学、人工智能、机器学习或相关领域,硕士及以上学历。

- 熟悉音频,视频多模态领域基础知识。

- 逻辑清晰,有团队协作精神,有责任心,乐于接受挑战。

- 有计算机相关背景,熟悉深度学习、计算机视觉、多模态模型等基本知识。  

- 熟悉C++ 或者Python,或精通其他语言,有较好代码理解能力。

- 熟悉Linux,具备一定的开发经验,熟悉常见问题的解决方案。



投递邮箱:tongwenwen1@sensetime.com

邮箱主题:北大BBS+ 音频视频多模态实习生 + 北京 + 姓名

 最后修改于2024-09-01 00:01:36
  • 发表于2024-09-01 00:00:43
返回本版
1
/ 1
跳转

请您先 登录 再进行发帖

快速回复楼主
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入