第977章员工福利提升，新的一年发展规划（4 / 7）

周工把他引到主测试台前，屏幕上正跑着一组ai推理任务的功耗曲线。

“我们目前基于传统simd架构做的ai加速核心，在图象识别和自然语言处理上的性能已经追平了英伟达同级别产品，但功耗始终偏高。主要是数据搬运太频繁，神经网络每一层都要从外部dram里反复加载权重，加载一次能耗比算一次还高。这个问题不解决，我们的ai芯片就只能用在服务器端，塞不进车机和手机。”

他把功耗曲线逐层拆解开来，每拆一层就在屏幕上标一个对应的数据搬运量。

从卷积层到全连接层再到注意力机制，搬运量的峰值越来越高，整张图看上去就像一面正在倾斜的墙。

王东来没有直接回答。

他走到白板前拿起记号笔，画了一个全新的架构草图。

不是传统的simd阵列，而是一种混合粒度的张量计算单元，粗粒度处理大规模矩阵乘法，细粒度处理稀疏化后的注意力计算。

两者共用同一组片上缓存，但调度逻辑分开。

“传统gpu用simd堆算力，靠暴力计算碾压神经网络。但ai推理任务的瓶颈不是算力，是数据搬运。每一层神经网络的权重都要从外部内存搬进计算单元，搬一次消耗的能量比算一次还多。你们的方案用大容量片上缓存来减少搬运次数，方向对，但片上缓存的容量终归有限，缓存再大，也装不下整个gpt模型的权重。”

他在混合粒度张量计算单元的架构图上添了几笔，在片上缓存和外部dram之间加了一个极简的数据压缩引擎。

“在数据进出片上缓存的时候加一层硬件压缩解压逻辑，不是软件压缩，是直接做在硅片上的专用压缩引擎。神经网络权重本身有大量冗余，稀疏化之后大部分权重是零，非零部分也有很强的规律性。用轻量级的差分编码把权重流

第977章 员工福利提升，新的一年发展规划（4 / 7）