[实习] 腾讯·微信算法实习生(NLP, 强化学习方向)
+ 工作地点:腾讯·北京总部
+ 实习时长:5个月以上(全职优先,接受毕业年级实习生,可提供转正HC)
### 工作内容
+ 参与通用领域 Reward Model 的训练与优化,包括数据构建、模型调优及自动化评估等;
+ 跟踪强化学习(RL)、对齐技术(Alignment)等领域前沿研究,推进算法创新。
### 职位要求
+ 教育背景:硕士/博士在读,计算机、数学、电子工程等相关专业;
+ 研究能力:在 NLP 或深度学习领域有顶会论文发表(如 ACL/EMNLP/ICML/NeurIPS等);
+ 技术基础:熟悉 PyTorch/TensorFlow,RL 相关经验者优先;
+ 实习时间:每周至少4天全勤,持续5个月以上。
+ 加分项:有大厂算法实习经历;熟悉 RLHF/PBT 等技术细节。
简历投递请扫描下方二维码