【实习】Anuttacon招聘audio理解/生成日常实习 - 实习(Intern)版 - 北大未名BBS

【实习】Anuttacon招聘audio理解/生成日常实习

[复制链接] 浏览该主题帖

Freee [离线]

Freee

0.2新手上路

发帖数:3 原创分:0
关注
<ASCIIArt> #61830

【公司】AI大模型初创公司Anuttacon

【办公形式】线下/远程

【投递方式】添加hr微信发送简历:18825481171,加好友请备注“实习+姓名+学校+岗位名称”



【岗位】语音理解算法实习生

【工作职责】

1、负责语音识别,声纹,情绪及副语言理解等相关模型的开发和调优

2、协助large-scale 的语音数据处理pipeline开发和优化

3、协助评估和分析语音理解模型的效果

4、与算法团队、数据infra团队紧密协作,共同推动语音算法和语音数据链路优化

【任职要求】

1、硕士及以上学历,计算机相关专业;具备良好的学习能力、逻辑思维能力、自驱力,沟通协作能力

2、较强的动手能力,熟悉Python/C++/C/Java一种或多种,熟练使用pytorch/tensorflow等深度学习框架

3、有语音方向顶会(如 ICASSP, INTERSPEECH,NeurIPS, ICLR, ICML等)文章者优先

4、具备语音理解算法相关实践经验,包括但不限于语音识别/声纹/情绪/副语言理解方向的一种或多种,能够根据实际问题建模和优化算法


【岗位】语音/歌声生成实习研究员

【工作职责】

1、Voice生成算法研究、应用,包括标准TTS / instruct TTS / multi-turn TTS / singing voice synthesis等;

2、Omni模型算法研究、应用,包括Voice生成能力到omni模型的迁移,understanding-based voice generation等;

3、参与数据建设的讨论, 包括标准规范制定&优化, 协助数据验收交付。

【任职要求】

1、硕士及以上学历,计算机、数学、通信等相关专业;具备良好的学习能力、逻辑思维能力、沟通协作能力;

2、熟练使用Python和Pytorch/Tensorflow深度学习框架;

3、熟悉以下至少一种,且有相应研发经验优先:

- 语音生成模型(如DITAR、VibeVoice、CosyVoice等);

- 语音omni模型(如StepAduio、KimiAudio等);

- 各类声码器(如Hifi-GAN,MelGAN,BigvGAN等);

4、有顶会论文(各类CCF-A会、ICASSP/INTERSPEECH等)优先。



发表于2025-09-26 21:40:36

请您先 登录 再进行发帖

快捷回帖
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入