【请置顶】北京大学王选所VDIG研究组招收本科实习生
[复制链接] 分享:我们是北京大学王选计算机研究所VDIG (Visual Data Interpreting and Generation) 研究组。导师是王勇涛老师,北京大学王选所教研序列副研究员、博士生导师。
【兼具应用价值与学术价值的前沿研究方向】
针对包括自动驾驶在内的计算机视觉感知与具身智能问题,我们有着下列系统的研究方向,它们既是前沿的学术研究焦点,也具有极高的落地应用价值:
1. 基础机器感知问题,让智能体感知世界。针对多种传感器模态的二维和三维感知任务,通过迁移学习、持续学习、自监督学习等手段,构建开放世界感知基础模型。
2. 端到端具身智能问题,让智能体行于世界。以自动驾驶场景为主,研究自动驾驶具身智能系统架构与训练方法。研究成果同时可落地至无人机、智能机器人等领域。
3. 高性能架构设计与模型优化,让智能体快速响应世界。研究高效神经网络架构,以上述机器感知和具身智能任务为基础,结合神经网络结构搜索、知识蒸馏等模型优化算法,设计创新性的高性能算法,保障端侧算法的实时性和安全性。
4. 三维重建与三维编辑,为智能体采撷世界。研究自动驾驶场景的三维表征,重建开放街景,利用扩散模型、视觉-语言基础模型等工具对场景进行灵活编辑。
5. 开放场景的多模态生成与编辑,为智能体创造世界。研究开放场景的视频、点云等多模态开放场景生成,在现有图像潜在扩散模型的基础上,通过训练新模块将其应用到其他模态生成领域。
6. 对抗攻击与AI安全,让智能体安全地面对世界。针对上述感知、具身智能、场景生成等模型,研究针对深度神经网络的对抗攻击,保护主流AI模型安全。
【丰富的研究成果】
我们在自动驾驶感知、目标检测、场景文字检测等研究方向上达到国际一流水平。近年在CVPR、ICCV、ECCV、NeurIPS、AAAI、MM、IJCV等顶会顶刊有许多受到关注的工作,如通用目标检测当前最强算法之一“组合主干网络”(CBNet)、当前最流行的“多模态融合3D感知框架”(BEVFusion与RCBEVDet)、第一个面向自动驾驶场景的“多视角重建方法”(DrivingGaussian)等,对我们工作的详细介绍,可见 https://github.com/VDIGPKU .
实验室学生曾获包含无人机和自动驾驶目标检测在内的3项国际顶级AI竞赛冠军、2项亚军,在nuScenes Camera-Radar多模态和纯视觉3D目标检测榜单等4项知名竞赛/榜单上取得榜首。
实验室与国内外知名高校、科研机构有广泛合作,和国内外AI头部公司(如阿里巴巴、蚂蚁金服、智源等)有着合作,现阶段与多家自动驾驶公司(如长安汽车、蘑菇车联等)有着紧密合作,研究成果在多家企业得到了落地应用。实验室师生关系融洽,学生、实习生就业与留学去向普遍较好。
【我们愿意倾尽所能为你提供】
1. 系统的入门培训与详细的领域专题讲解,师兄师姐的一对一讨论和指导;
2. 较为充足的GPU资源,多卡P40、V100、RTX8000,甚至A40、A800;
3. 论文写作和投稿的指导和培养;
4. 优先为参与实习的优秀本科生提供保研/直博名额;
5. 出具具体且详实的留学推荐信,或提供大厂工作机会推荐。
我们希望能与你一同探究前沿问题、讨论思考、编程实验、撰写论文,为你提供一对一的悉心指导。目前实验室的几乎所有在读学生以及绝大多数曾经参与实习的本科生,均参与了投稿或发表了顶会文章。我们希望通过实习,能够让你掌握学术研究的方法、培养学术能力,为后续的保研直博或出国申请提供足够有分量的学术背景。
【只需要满足这些要求】
1. 对深度学习有基本的了解,学习过计算机视觉或深度学习的相关课程,有一定的动手实践能力;
2. 具备基本的英语阅读写作能力和数学基础;
3. 有意愿在实习期间参与发表顶级会议或期刊论文,明确了解这将为你带来相当于一门ICS或2~3门专业选修课程的学习和工作量(当然,在期末考试周等繁忙时间点,会动态地根据你的情况安排科研任务),愿意投入一定的时间和精力到科研工作。
【现在联系我们,无需犹豫,你只需要准备一份简历和一份真心】
请将个人简历发送至xiazhongyu@pku.edu.cn,我们希望这份简历能够稍稍体现你对计算机视觉和深度学习的了解程度、你的学习能力、你的英语能力和你的团队合作能力。你无需做太多的犹豫和准备,我们愿意为你量身培养科研基础、补充领域基础知识,我们欢迎每一个有决心和努力的同学。