【请置顶】北京大学计算机学院吴垠鋆老师招收实习生
导师简介
吴垠鋆老师现为北京大学计算机学院数据科学与工程研究所的助理教授、博士生导师,2021年从美国宾夕法尼亚大学计算机系获得博士学位,2024年3月入职北京大学,研究方向包括数据管理,数据库系统、数据科学、机器学习、人工智能等,主要的研究兴趣包括数据科学中的数据准备和清理问题(data preparation and data wrangling),数据库智能化问题(AI for database),新型向量数据库系统(vector database),机器学习模型的可解释性问题(interpretability),以及医疗健康中的数据科学问题等等。他在计算机顶级会议发表论文十余篇,包括数据库顶级会议SIGMOD,VLDB,以及机器学习顶级会议ICML,AAAI等,并且在多个计算机顶级会议和期刊上担任程序委员和评审工作。2022年他获得宾夕法尼亚大学计算机系的最佳博士论文奖,并且于2023年入选国家级青年人才项目。更多信息可参考个人主页(https://wuyinjun-1993.github.io/)。
招生简介
招收研究助理(RA) / 实习生若干。对于希望获得推免/申请考核制的博士生/硕士生资格的同学 ,建议提前进组联系实习。对于希望申请海外高校数据库和数据科学方向研究生的同学,也请建议通过进组实习的方式获得推荐信。
研究课题(包括但不限于):
1. 下一代数据库智能化解决方案(AI for database)
查询优化是数据库中一项具有挑战性的任务。其中一些关键步骤,如查询成本估算(cost estimation),查询基数估算(cardinality estimation),索引推荐(index recommendations)以及查询重写(query rewriting)仍然是数据库领域中的研究重点。近年来,尽管有很多利用传统机器学习的方法来实现这些步骤的准确估计和预测,但是如何构建低计算开销,预测性能好,泛化能力强,并且适应动态数据环境的查询优化模型仍然是数据库领域的研究重点和难点。
2. 基于向量的多模态数据管理系统(multi-modal DBMS)
在医疗健康和智能汽车等应用场景中,数据往往呈现出多模态的特征,如何对这类多模态数据进行有效地管理,存储,检索,关联分析等问题,对于这些场景至关重要。然而已有的数据系统主要面向结构化的关系型数据,而多模态数据系统的研究仍然处于早期的发展阶段。因为多模态数据都可以用预训练模型提供的向量来表示,因而多模态数据系统将围绕对向量的处理展开。除此之外,用户更偏好于使用自然语言而非传统的查询语句来构建他们所需要的查询,我们也需要考虑围绕自然语言查询进行更好的系统设计。
3. 数据科学中的数据发现问题(data discovery)
数据湖(data lake)是一个存储各种结构和格式数据的数据仓储库,常见于大型的商业公司,医疗机构等。对于用户而言,他们需要考虑如何通过设计合适的数据库查询,从而从数据湖中发现最有价值的数据,用于下游的数据科学任务(如模型训练)。如何高效,准确地构建这些数据库查询仍然是数据库领域的一大研究热点。
4. 专业领域的大模型微调(LLM fine-tune)
尽管最近几年涌现的大模型由于其优异的泛化性能受到广泛的关注和应用,但是由于大模型的训练数据来自于公开的互联网,导致其缺乏各个专业领域中(如医疗健康等)的训练数据,最终导致其在这些场景中的性能无法满足实际需求。因而如何在这些实际场景中对大模型进行微调,尤其是如何从数据的角度为微调提供低成本但高质量的训练数据,从而使得大模型的性能在这些专业领域中得到提升。
申请要求:
本次招生面向本校本科生,有如下条件者优先考虑:
- 对上述方向有热情,有较强的自我驱动能力
- 良好的数学、计算机基础
- 扎实的编程基础(C++或Python)
- 了解基本的机器学习算法
申请方式:
请感兴趣的同学发送简历、成绩单等至wuyinjun@pku.edu.cn,邮件标题:姓名+专业+申请博士/硕士/研究助理/实习生