【实习】阿里云数据库事业部 AnalyticDB 暑期实习
[复制链接] 分享:我们是阿里云智能事业群数据库事业部 AnalyticDB For MySQL团队,是阿里云战略级产品之一。
我们负责设计、研发与维护支撑全公司业务线的高性能分布式数据库系统。我们追求的是:
● 极致性能:对海量数据实现秒级响应,支持任意维度的复杂分析与即席探索。
● 金融级可靠:确保每一份数据万无一失,为业务的稳定运行保驾护航。
● 无限扩展:构建能从容应对未来业务百倍增长的弹性架构。
AI 时代,我们不仅是参与者,更是赋能者。我们的工作聚焦于两大方向:
● AI for DB (数据库智能化):引入AIOps理念,研发新一代的“自治数据库”,让监控、诊断、优化变得前所未有的智能。
● DB for AI (赋能AI):我们正在构建支撑大规模模型训练与推理的数据解决方案,探索包括向量检索在内的前沿技术,为公司的AI战略提供最坚实的数据动力。
在这里,你将直面世界级的技术挑战,你的每一行代码,都将对海量业务的性能与稳定产生深远影响。
我们的理念是让数据跑得更快、存得更稳,也让AI变得更“聪明”。在我们的世界里,数据是AI的心脏,而我们,就是心脏的工程师。
如果你渴望深入底层,用硬核技术解决真实世界的复杂问题,我们期待你的加入。详情参考附件或直接邮件联系。
联系邮箱:juxian.zhr@alibaba-inc.com
部门介绍
阿里云智能事业群数据库产品事业部承载着阿里巴巴经济体所有的在线数据处理分析以及数据库服务,是AI时代业务蓬勃发展的核心基础设施。在阿里云上全面覆盖电商、物流、安防、交通、健康、出行、气象、游戏、教育等广大行业并提供核心服务;在集团内为淘宝、天猫、通义千问等事业群提供稳定、高效、安全、低成本、极致性能与规模的数据库产品和AI数据基础设施服务。
AnalyticDB 是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库,是FastData时代的最佳代表。自2012年第一次在集团发布上线以来,至今已累计迭代发布近百个版本,支撑起集团内的电商、广告、菜鸟、文娱、通义千问、飞猪等众多在线分析业务。AnalyticDB于2014年在阿里云开始正式对外输出,支撑行业既包括传统的大中型企业和政府机构,也包括众多的互联网公司,覆盖外部十几个行业。AnalyticDB承接着阿里巴巴广告营销、商家数据服务、菜鸟物流、盒马新零售等众多核心业务的高并发分析处理,每年双十一上述众多实时分析业务高峰驱动着AnalyticDB不断的架构演进和技术创新,持续领跑中国云数仓。
在AI 2.0时代,AnalyticDB承载"让数据与AI深度融合"的使命,以极致的性价比、超大规模架构、多模数据处理能力(通用数仓/数据湖/非结构化数据/向量检索/图计算)支撑大模型训练数据预处理、RAG知识库、AI Agent数据层等前沿场景,释放海量数据的商业价值与AI潜能。
工作内容
ADB MySQL存储团队致力于构建AI-Native 云原生数据仓库存储引擎,提供云原生、实时化、高性能、低成本、安全可靠的企业级数仓存储能力。通过持续不断的自研存储技术积累和突破,帮助数以万计的用户享受云原生实时化分析能力。
你将参与的方向:
1. 弹性存储架构
研发计算存储分离架构下的分布式强一致存储引擎、冷热分层存储策略、弹性扩缩容、一写多读架构、多租户数据隔离等云原生存储基础能力,支撑万节点级别的大模型训练数据服务与推理数据缓存。
2. 存储引擎与智能索引
研发高效的行存引擎、列存引擎(ORC/Parquet自研优化)和向量化读取技术
结合近存储计算(Near-Data Computing)技术,探索存内过滤、存内聚合等极致分析性能优化
研发面向AI场景的向量索引(HNSW/IVF/DiskANN)存储结构,优化高维向量数据的持久化、压缩与快速加载
探索多模数据(结构化/半结构化/非结构化/向量)的统一存储格式
3. 高并发在线检索与分析存储层
研发支撑百万并发、毫秒级响应的在线检索存储引擎
打造核心读写链路的稳定性、高并发、高可靠、高可用存储架构
面向AI场景优化向量检索与全文检索的存储融合,支撑推荐系统、智能客服、知识库问答等高并发AI应用的底层数据读写
研发高效的WAL、MVCC、并发控制机制,保障高吞吐写入下的低延迟查询
4. AI-Native 存储前沿技术
新硬件适配: 探索CXL内存池化、NVMe-oF远程存储、DPU/SmartNIC卸载、GPU Direct Storage在存储引擎中的应用与性能调优
面向AI的存储格式: 针对大模型训练数据特点(海量小文件、多模态数据),研发高效的数据布局、预取策略、零拷贝读取
智能存储管理: 探索AI辅助的存储层自动调优(如自适应压缩策略、智能缓存预热、热点数据自动分层)
Serverless存储: 面向AI开发者的弹性存储服务,实现存储资源按需分配、自动休眠唤醒、成本最优
