当前位置:顶点小说>都市言情>重生的我只想当学霸> 第977章 员工福利提升,新的一年发展规划
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

第977章 员工福利提升,新的一年发展规划(4 / 7)

周工把他引到主测试台前,屏幕上正跑着一组ai推理任务的功耗曲线。

“我们目前基于传统simd架构做的ai加速核心,在图象识别和自然语言处理上的性能已经追平了英伟达同级别产品,但功耗始终偏高。主要是数据搬运太频繁,神经网络每一层都要从外部dram里反复加载权重,加载一次能耗比算一次还高。这个问题不解决,我们的ai芯片就只能用在服务器端,塞不进车机和手机。”

他把功耗曲线逐层拆解开来,每拆一层就在屏幕上标一个对应的数据搬运量。

从卷积层到全连接层再到注意力机制,搬运量的峰值越来越高,整张图看上去就像一面正在倾斜的墙。

王东来没有直接回答。

他走到白板前拿起记号笔,画了一个全新的架构草图。

不是传统的simd阵列,而是一种混合粒度的张量计算单元,粗粒度处理大规模矩阵乘法,细粒度处理稀疏化后的注意力计算。

两者共用同一组片上缓存,但调度逻辑分开。

“传统gpu用simd堆算力,靠暴力计算碾压神经网络。但ai推理任务的瓶颈不是算力,是数据搬运。每一层神经网络的权重都要从外部内存搬进计算单元,搬一次消耗的能量比算一次还多。你们的方案用大容量片上缓存来减少搬运次数,方向对,但片上缓存的容量终归有限,缓存再大,也装不下整个gpt模型的权重。”

他在混合粒度张量计算单元的架构图上添了几笔,在片上缓存和外部dram之间加了一个极简的数据压缩引擎。

“在数据进出片上缓存的时候加一层硬件压缩解压逻辑,不是软件压缩,是直接做在硅片上的专用压缩引擎。神经网络权重本身有大量冗余,稀疏化之后大部分权重是零,非零部分也有很强的规律性。用轻量级的差分编码把权重流

上一页 目录 +书签 下一页