【实习】Anuttacon招聘audio理解/生成日常实习

[复制链接] 浏览该主题帖

Freee [离线]

Freee

发帖数：3 原创分：0

关注

<ASCIIArt> #61814

【公司】AI大模型初创公司Anuttacon

【办公形式】线下/远程

【投递方式】添加hr微信发送简历：18825481171，加好友请备注“实习+姓名+学校+岗位名称”

【岗位】语音理解算法实习生

【工作职责】

1、负责语音识别，声纹，情绪及副语言理解等相关模型的开发和调优

2、协助large-scale 的语音数据处理pipeline开发和优化

3、协助评估和分析语音理解模型的效果

4、与算法团队、数据infra团队紧密协作，共同推动语音算法和语音数据链路优化

【任职要求】

1、硕士及以上学历，计算机相关专业；具备良好的学习能力、逻辑思维能力、自驱力，沟通协作能力

2、较强的动手能力，熟悉Python/C++/C/Java一种或多种，熟练使用pytorch/tensorflow等深度学习框架

3、有语音方向顶会（如 ICASSP, INTERSPEECH,NeurIPS, ICLR, ICML等）文章者优先

4、具备语音理解算法相关实践经验，包括但不限于语音识别/声纹/情绪/副语言理解方向的一种或多种，能够根据实际问题建模和优化算法

【岗位】语音/歌声生成实习研究员

【工作职责】

1、Voice生成算法研究、应用，包括标准TTS / instruct TTS / multi-turn TTS / singing voice synthesis等；

2、Omni模型算法研究、应用，包括Voice生成能力到omni模型的迁移，understanding-based voice generation等；

3、参与数据建设的讨论, 包括标准规范制定&优化, 协助数据验收交付。

【任职要求】

1、硕士及以上学历，计算机、数学、通信等相关专业；具备良好的学习能力、逻辑思维能力、沟通协作能力；

2、熟练使用Python和Pytorch/Tensorflow深度学习框架；

3、熟悉以下至少一种，且有相应研发经验优先：

- 语音生成模型（如DITAR、VibeVoice、CosyVoice等）；

- 语音omni模型（如StepAduio、KimiAudio等）；

- 各类声码器（如Hifi-GAN，MelGAN，BigvGAN等）；

4、有顶会论文（各类CCF-A会、ICASSP/INTERSPEECH等）优先。

发表于2025-09-26 21:40:36