周工把他引到主测试台前,屏幕上正跑着一组ai推理任务的功耗曲线。
“我们目前基于传统simd架构做的ai加速核心,在图象识别和自然语言处理上的性能已经追平了英伟达同级别产品,但功耗始终偏高。主要是数据搬运太频繁,神经网络每一层都要从外部dram里反复加载权重,加载一次能耗比算一次还高。这个问题不解决,我们的ai芯片就只能用在服务器端,塞不进车机和手机。”
他把功耗曲线逐层拆解开来,每拆一层就在屏幕上标一个对应的数据搬运量。
从卷积层到全连接层再到注意力机制,搬运量的峰值越来越高,整张图看上去就像一面正在倾斜的墙。
王东来没有直接回答。
他走到白板前拿起记号笔,画了一个全新的架构草图。
不是传统的simd阵列,而是一种混合粒度的张量计算单元,粗粒度处理大规模矩阵乘法,细粒度处理稀疏化后的注意力计算。
两者共用同一组片上缓存,但调度逻辑分开。
“传统gpu用simd堆算力,靠暴力计算碾压神经网络。但ai推理任务的瓶颈不是算力,是数据搬运。每一层神经网络的权重都要从外部内存搬进计算单元,搬一次消耗的能量比算一次还多。你们的方案用大容量片上缓存来减少搬运次数,方向对,但片上缓存的容量终归有限,缓存再大,也装不下整个gpt模型的权重。”
他在混合粒度张量计算单元的架构图上添了几笔,在片上缓存和外部dram之间加了一个极简的数据压缩引擎。
“在数据进出片上缓存的时候加一层硬件压缩解压逻辑,不是软件压缩,是直接做在硅片上的专用压缩引擎。神经网络权重本身有大量冗余,稀疏化之后大部分权重是零,非零部分也有很强的规律性。用轻量级的差分编码把权重流
本网站为网友提供小说上传储存空间平台,为网友提供在线阅读交流、txt下载,平台上的所有文学作品均来源于网友的上传
用户上传的文学作品均由网站程序自动分割展现,无人工干预,本站自身不编辑或修改网友上传的内容(请上传有合法版权的作品)
如发现本站有侵犯权利人版权内容的,请向本站投诉,一经核实,本站将立即删除相关作品并对上传人ID账号作封号处理