Re: 【实习】阿里云数据库事业部 AnalyticDB 暑期实 - 实习(Intern)版 - 北大未名BBS

Re: 【实习】阿里云数据库事业部 AnalyticDB 暑期实

[复制链接] 浏览该主题帖

kingkkkkk [离线]

kinz

2.4一般站友

发帖数:33 原创分:0
关注
<ASCIIArt> #62976

部门介绍

阿里云智能事业群数据库产品事业部承载着阿里巴巴经济体所有的在线数据处理分析以及数据库服务,是AI时代业务蓬勃发展的核心基础设施。在阿里云上全面覆盖电商、物流、安防、交通、健康、出行、气象、游戏、教育等广大行业并提供核心服务;在集团内为淘宝、天猫、通义千问等事业群提供稳定、高效、安全、低成本、极致性能与规模的数据库产品和AI数据基础设施服务。


AnalyticDB 是阿里巴巴自主研发、经过超大规模以及核心业务验证的PB级实时数据仓库,是FastData时代的最佳代表。自2012年第一次在集团发布上线以来,至今已累计迭代发布近百个版本,支撑起集团内的电商、广告、菜鸟、文娱、通义千问、飞猪等众多在线分析业务。AnalyticDB于2014年在阿里云开始正式对外输出,支撑行业既包括传统的大中型企业和政府机构,也包括众多的互联网公司,覆盖外部十几个行业。AnalyticDB承接着阿里巴巴广告营销、商家数据服务、菜鸟物流、盒马新零售等众多核心业务的高并发分析处理,每年双十一上述众多实时分析业务高峰驱动着AnalyticDB不断的架构演进和技术创新,持续领跑中国云数仓。


在AI 2.0时代,AnalyticDB承载"让数据与AI深度融合"的使命,以极致的性价比、超大规模架构、多模数据处理能力(通用数仓/数据湖/非结构化数据/向量检索/图计算)支撑大模型训练数据预处理、RAG知识库、AI Agent数据层等前沿场景,释放海量数据的商业价值与AI潜能。


工作内容

ADB MySQL存储团队致力于构建AI-Native 云原生数据仓库存储引擎,提供云原生、实时化、高性能、低成本、安全可靠的企业级数仓存储能力。通过持续不断的自研存储技术积累和突破,帮助数以万计的用户享受云原生实时化分析能力。


你将参与的方向:


1. 弹性存储架构 

研发计算存储分离架构下的分布式强一致存储引擎、冷热分层存储策略、弹性扩缩容、一写多读架构、多租户数据隔离等云原生存储基础能力,支撑万节点级别的大模型训练数据服务与推理数据缓存。


2. 存储引擎与智能索引

研发高效的行存引擎、列存引擎(ORC/Parquet自研优化)和向量化读取技术

结合近存储计算(Near-Data Computing)技术,探索存内过滤、存内聚合等极致分析性能优化

研发面向AI场景的向量索引(HNSW/IVF/DiskANN)存储结构,优化高维向量数据的持久化、压缩与快速加载

探索多模数据(结构化/半结构化/非结构化/向量)的统一存储格式


3. 高并发在线检索与分析存储层

研发支撑百万并发、毫秒级响应的在线检索存储引擎

打造核心读写链路的稳定性、高并发、高可靠、高可用存储架构

面向AI场景优化向量检索与全文检索的存储融合,支撑推荐系统、智能客服、知识库问答等高并发AI应用的底层数据读写

研发高效的WAL、MVCC、并发控制机制,保障高吞吐写入下的低延迟查询


4. AI-Native 存储前沿技术

新硬件适配: 探索CXL内存池化、NVMe-oF远程存储、DPU/SmartNIC卸载、GPU Direct Storage在存储引擎中的应用与性能调优

面向AI的存储格式: 针对大模型训练数据特点(海量小文件、多模态数据),研发高效的数据布局、预取策略、零拷贝读取

智能存储管理: 探索AI辅助的存储层自动调优(如自适应压缩策略、智能缓存预热、热点数据自动分层)

Serverless存储: 面向AI开发者的弹性存储服务,实现存储资源按需分配、自动休眠唤醒、成本最优

 最后修改于2026-04-08 09:54:22
  • 发表于2026-04-07 15:05:04

请您先 登录 再进行发帖

快捷回帖
标题
建议:≤ 24个字
签名档
发布(Ctrl+回车)

您输入的密码有误,请重新输入