近期美国模拟 AI 芯片初创公司 Areanna 在微型机器学习峰会(tinyML Summit)上首次公开了其 AI 芯片架构。不同于一般的模拟 AI 芯片,该芯片通过采用 SRAM 阵列,在存储阵列内部集成了模数转换器(ADC)和数模转换器(DAC)。
简单来说,DAC 就是把二进制码或 BCD 码表示的数字量转换为与其成正比的模拟量输出,而 ADC 则是将连续的模拟信号转换为数字信号。
但是这两种功能通常会在内存计算中占用绝大部分的芯片面积和功耗,因此在存储阵列中集成这两项功能可以进一步降低内存功耗,其计算性能也有了更大的提升空间,美国半导体杂志 EE Times 认为,该芯片可能会改变模拟计算技术。
一、曾获 NSF 种子资金,独特阵列设计或突破数据转换瓶颈Areanna 成立于 2019 年,以小企业创新研究(SBIR)赠款的形式获得了美国国家科学基金会(US National Science Foundation)的种子资金,总计 22.5 万美元。该公司在其架构上拥有两项专利。
Areanna 的两位创始人 Behdad Youssefi 和 Patrick Satarzadeh 均出自电子仪器测量公司泰克(Tektronix),这两位创始人也是 Areanna 仅有的全职员工。
▲Areanna 创始人 Behdad Youssefi
此外,Areanna 还有两名兼职工程师和数名顾问。在 2020 年,这家初创公司发布了具有一颗 Tile 的测试芯片,能够进行部分矩阵乘法。该芯片的基准功率效率为 40 TOPS/W,运算密度为 2 TOPS/mm2,每个内核的内存带宽为 2 TB/s。
Areanna 的测试芯片在一种被称为存内计算和量化(CQIM)的架构上运行。该架构基于模拟存内计算技术,与 Mythic、Gyrfalcon 等其他 AI 芯片初创公司的概念基本一致。但是,Areanna 使用的是 SRAM 阵列,而不是常用的非易失性存储器,还配有一些独特的技术。
由于 AI 在边缘的优势,比如隐私、低延迟及对网络带宽的有效利用等,AI 边缘设备的研究受到了越来越多的关注,但边缘设备的功耗一直是个大问题。存内计算就是芯片在内存中进行计算,可以减少内存访问的能量消耗,是 AI 边缘的解决思路之一。
Areanna 的 SRAM 阵列设计是其核心技术的关键,该阵列在内部集成了 ADC 和 DAC 功能,释放了内存上的功耗和面积,也使芯片性能可以进一步提高。
传统的存内计算往往将 DAC 功能设计在每个行 / 输入上,在每个列 / 输出上使用 ADC,根据 Areanna 的数据,这两项功能占据了芯片高达 85% 的功耗和 98% 的硅片面积。在 tinyML Summit 上,Behdad Youssefi 称传统的模拟计算方法只是 “用数据转换瓶颈取代了冯 · 诺依曼体系结构的内存瓶颈”。
而在 Areanna 的 CQIM 架构中,模数、数模转换是通过与计算相同的电路结构执行的,该结构被称为乘法位单元(multiplying bit-cells,MBCs)。
二、模拟信号完整度高,100% 硬件利用率虽然Areanna 的芯片是基于模拟计算开发的,但是其电路几乎完全是数字化的,并且在制造中采用了数字处理技术。Youssefi 曾对 EE Times 记者描述其模拟计算流程,该芯片通过从 SRAM 位单元读取权重参数,然后将其输入乘法器处理,再用金属电容器将信号转换为电荷,并垂直累加结果,即可进行模拟计算。
▲模拟计算过程(来源:Areanna)
由于模拟计算采用了相同的 MBC 结构,所以当芯片进行模数、数模转换时,这种架构节省了大量的芯片面积。并且这种设计可以不再使用 ADC 采样电路,也在功耗上取得了突破。
该设计的一个重要特点是,无论模拟运算的分辨率如何,每个点积计算只需要一个量化(一次模数转换)。对于模拟信号、数字信号转换来说,因为采集到的模拟信号是连续、无限值的,所以想要获得较好处理的有限值就需要进行量化处理。而在这过程中,如何准确、快速的处理就是难点所在。
▲Areanna 芯片的每个 MBC 单元中都包含 DAC 和 ADC 功能(来源:Areanna)
Youssefi 强调,在其他存内计算架构中,模拟 AI 芯片往往需要完成转换后,对数字信号进行缩放。而 Areanna 的芯片则会对模拟信号缩放后,再进行量化处理,保留了模拟信号的完整度。
在数模转换中,信号的转换精度往往用分辨率表示,分辨率则由模电输入二进制数的有效位数给出。Youssefi 提到,Areanna 的架构设计提供了完全可编程的分辨率,还能不损害硬件利用率。
他说:“(对于其他内存计算方案)如果你想提供可变的分辨率,那么你必须显著降低硬件利用率。但我们不会因为从 8 位到 4 位再到 1 位而降低硬件利用率,无论分辨率如何,它仍然是 100% 的硬件利用率。”