首页版面好友提醒登录
返回信息科学技术学院版

【请置顶】北大叉院机器学习中心张文涛老师招实习生

zwtzwt 2024-10-12 11:32:22
[楼主]1楼

一. 导师简介

张文涛,北京大学国际机器学习研究中心助理教授、研究员、博士生导师,曾任职于腾讯机器学习平台部、Apple AIML和加拿大 Mila 人工智能实验室。研究兴趣为以数据为中心的机器学习(Data-centric ML, DCML) 、图机器学习、机器学习系统和交叉学科应用(如 Diffusion、多模态和 AI4Science)。 他近 5 年在机器学习(ICML/NeurIPS/ ICLR)、数据挖掘(SIGKDD/WWW)和数据管理(SIGMOD/VLDB/ICDE)等领域发表 CCF-A 类论文 50 余篇,也担任多个国际顶会(VLDB/NeurIPS/WWW 等)的 PC Member/Area Chair。他获得多个最佳论文奖(如第一作者获 WWW’22 Best Student Paper Award 和 通讯作者获 APWeb-WAIM’23 Best Paper Runner Up Award),领导或参与开源了多个机器学习系统,如大规模图学习系统 SGL、分布式机器学习系统 Angel (GitHub 6.7k star)、和黑盒优化系统 OpenBox。他曾获 2021 年度亚太地区唯一的 Apple Scholar、世界人工智能大会云帆奖、北京大学/北京市/中国人工智能学会优秀博士学位论文奖、2023 中国电子学会科技进步一等奖等等多项荣誉。

导师学术主页: https://zwt233.github.io/https://cmlr.pku.edu.cn/People/Faculty/5ce37bd8e3244030ae3f34e01d23e761.htm 


二. 招生简介

北大国际机器学习研究中心张文涛教授团队招收 研究助理(RA) / 实习生若干。对于推免/申请考核制的博士生/硕士生 ,建议提前进组联系实习。


三. 研究方向

1. General DCML

近些年来 AI 模型发展遇到了瓶颈,大部分 SOTA 模型(如ChatGPT 和SAM)都是沿用2017年提出的Transformer 结构,性能收益来源由模型 --> 数据。课题组主要考虑优 Data quality, quantity 和 efficiency,以较低成本和较短时间来获得大量高质量数据。以大模型(如ChatGPT)为例,在考虑数据获取成本和效率的前提下,设计高效的数据处理方法(如过滤、去重和降噪),研究科学和系统的数据质量评估体系和策略,探索更有效的数据合成(如合成和增强)方式,构建有效的数据抽取(如RAG、分布匹配和数据配比)方式。


2. DCML Applications:

1) For Science: AI4Science 是人工智能和 Science 交叉领域,也是目前学术界和工业界前沿的热点方向。课题组主要以数据为中心,研究和设计高效的 Science 数据(如蛋白质和分子)构建和预处理方式,以及分子建模与生物制药等交叉应用。

2) For AIGC&Diffusion Model: 扩散模型是当前最热门的生成模型,其应用领域包含了 CV、NLP 以及交叉学科等,课题组主要探究以数据为中心,将扩散模型如何更好地应用于各种复杂数据生成场景,如文生图、文生视频、可控 3D 生成、多模态学习等。


3. DCML Systems:

ML System 是人工智能和计算机系统的交叉领域,也是目前计算机系统研究前沿的热点方向。我们课题组主要考虑从系统层面来支持DCML任务,如支持多种类型(如Graph和Text)的数据格式,支持大规模数据的处理(如Distributed ML),以及降低系统的使用门槛(如AutoML)等。针对大模型数据侧,课题组也在开发能支持多种数据类型、大规模数据的 DCML 系统,涵盖大模型数据处理、合成、质量评估、以及数据抽取等多个方面。


四. 加入我们课题组有何优势?

1. 研究方向:

-  课题组的研究方向(如大模型数据侧、生成式AI 和 AI4Science)都是学术界/工业界热点

-  作为一线青椒,我善于发现和提炼好的研究问题和方向 (在学术内卷的时代,找到Practical 有Impact但Under-explored 新问题比在老问题上卷新方法可能更有意义, 也更容易出成果)

2. 学生指导:

-  每周按小方向组会分享(线下:静园六院208,线上:腾讯会议)和讨论

-  安排经验丰富的师兄/师姐带入门,遇到技术细节问题,随时讨论 (也可微信随时找我)

-  有完善的科研入门文档,根据每位学生的基础、兴趣和未来规划针对性选择方向,一对一指导(至少meeting 1 次/周,合作超过1 年以上的学生,一般都有一作顶会投稿/发表)

-  作为同龄人:)会换位思考,讨论学习、生活、工作和职业规划,尊重学生想法成为朋友😊

3. 资源优势:

-  充足算力:丰富的计算资源(如 80GB Tesla A100/H100 集群)

-  业界合作:工业界合作伙伴 (如Apple、腾讯、华为、上海AI Lab、百川智能、字节、快手和蚂蚁等) Research实习和工作推荐。可以使用工业界算力、数据和好的研究问题,积累实习经历。

-  学术合作:学术界合作伙伴(如 Mila、Stanford、ETH、HKUST、NUS 和UQ 等)交流机会

-  助研津贴

4. 其他:

有愉快的氛围,定期组织团建 (羽毛球、徒步和聚餐等),自愿参加


五. 招生要求

需要至少满足以下一个要求,满足多个要求者优先考虑:

- 作为主要作者在顶级会议(如ICML/NeurIPS/ICLR/CVPR/ICCV/WWW/KDD/SIGMOD/VLDB等)发表过论文;

- 有机器学习基础,有相关研究和开源项目经验,并熟练掌握PyTorch等工具使用;

- 在科技公司或研究机构有过实习经历,对机器学习的应用有系统深刻理解,并在实习阶段取得过突出成果;

- 在Kaggle、天池和OGB 等比赛中取得过良好成绩;

- 有ACM/NOI/NOIP等信息学竞赛训练经历,有扎实的编程基础;

- 对机器学习基础研究和应用有浓厚兴趣,愿意独立思考,足够Self-motivated并渴望做出有影响力的科研成果。


六. 申请方式

请发送简历、代表性论文或项目(如有)到:wentao_zhang@pku.edu.cn

邮件标题:姓名+专业+申请博士/硕士/研究助理/实习生

也可以加微信ID:z1299799152


签名档

a weak cs guy