【请置顶】杨仝老师招募AI芯片RTL/编译器方向实习生
【招募】杨仝老师团队:打造全球首款2-bit复数大模型(iFairy) AI芯片!(RTL/编译器方向)
【背景介绍】
近期,北京大学杨仝老师团队在低比特大模型领域取得突破性进展,发布了iFairy——全球首个将全部参数约束在{±1, ±i}的2-bit复数量化 预训练大模型(700M, 1.3B, 即将发布3B、7B)。
主页:https://yangtonghome.github.io/
论文链接:https://arxiv.org/pdf/2508.05571
核心突破:iFairy通过复数域的独特表示,实现了无乘法(Multiplication-Free)、仅加法与交换的高效推理,在1/8存储压缩下,精度超越同参数量全精度LLaMA。
然而,现有的通用GPU架构并非为“复数加法”与“2-bit量化”设计,无法完全释放iFairy的极致性能潜力。为了打破硬件桎梏,我们决定开展软硬协同设计(Co-design),自主研发基于iFairy 的专用AI芯片与编译器栈!
我们正在寻找对数字集成电路设计、AI编译器充满热情的同学加入,共同定义下一代低功耗大模型推理硬件架构。
【招募方向】
1. AI芯片架构与RTL开发实习生
任务:
设计针对复数2-bit({±1, ±i})运算的专用加速单元(PE)。
探索无乘法矩阵计算的硬件架构(如脉动阵列变体),优化数据流与访存。
负责核心模块的Verilog/SystemVerilog代码编写、仿真与FPGA原型验证。
要求:
熟悉数字逻辑设计,熟练掌握 Verilog/SystemVerilog。
有 FPGA 开发或 ASIC 前端设计经验者优先。
了解计算机体系结构,对AI加速器(TPU/NPU)架构有一定认知。
2. AI编译器与工具链开发工程师
任务:
针对自研芯片架构,开发专用的模型编译工具链。
实现从PyTorch/ONNX到硬件指令集的映射与优化。
设计算子调度策略,优化Loop Tiling、Fusion 等,最大化硬件利用率。
要求:
熟悉 C++/Python,有扎实的系统编程能力。
了解 TVM、MLIR、LLVM 等编译器框架者优先。
理解深度学习算子(Conv, MatMul, Attention)的计算原理。
【你将获得】
顶级科研产出:这是一个极具开创性的Cross-layer项目,目标瞄准ISCA, MICRO, DAC, HPCA等体系结构与硬件顶会,以及NeurIPS, ICLR等AI顶会。
硬核工程经验:亲手参与从算法到芯片的全栈设计,接触最前沿的LLM硬件加速技术。
一流团队氛围:实验室资金充足,提供一流的计算资源(高端H卡集群)与硬件开发平台(高端FPGA板卡),与优秀的硕博团队并肩作战。
广阔发展前景:iFairy技术具有极高的落地与商业化潜力(边缘端、端侧大模型),优秀成员将成为项目核心骨干。
【申请方式】
欢迎电子、集成电路等相关专业的本科生、研究生报名。我们同样欢迎对外校优秀学生及博士后研究人员开放申请。表现优秀的本科生实验室会预留研究生名额。
请发送简历至:yangtongemail@gmail.com; yangtong@pku.edu.cn
邮件标题请注明:【芯片招募】姓名-年级-申请方向(RTL/编译器)
让我们一起,用复数重新定义AI芯片的计算范式