思元 370 实测性能和实测能效超市场主流 GPU 产品
* 测试环境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU 数据:ResNet-50 来自于相关产品官网,Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。
思元 370 全面加强了 FP16、BF16 以及 FP32 的浮点算力,同时支持推理和训练任务。此外,思元 370 还是国内第一颗支持 LPDDR5 的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。
▲ 寒武纪智能芯片架构演进
思元 370 采用 chiplet(芯粒)技术,在一颗芯片中封装 2 颗 AI 计算芯粒(MLU-Die),每一个 MLU-Die 具备独立的 AI 计算单元、内存、IO 以及 MLU-Fabric 控制和接口,通过 MLU-Fabric 保证两个 MLU-Die 间的高速通讯,可以通过不同 MLU-Die 组合规格多样化的产品,为用户提供适用不同场景的高性价比 AI 芯片。
▲ 思元 370 采用 chiplet 技术,可实现不同算力、内存和编解码器的组合
MLU-Fabric 是实现芯粒技术的关键所在。它为两个 MLU-Die 提供低功耗、低延时和超高带宽的互联,支持芯片上实现统一的内存获取和地址映射,创建虚拟通路避免进程死锁,支持数据校验错误发生时进行数据重传,保证数据准确性。
得益于芯粒技术,思元 370 可通过不同的组合为客户提供更多样化的产品选择,此次寒武纪发布了两款加速卡,未来还将推出更多基于思元 370 的产品。
MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自动后端代码生成及优化。在 MLU、GPU、CPU 训练好的算法模型上,借助 MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。
MagicMind 的优势不仅在于可以提供极致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需理解芯片更多底层细节就可实现模型的快速高效部署,MagicMind 插件化的设计还可以满足在性能或功能上追求差异化竞争力的客户需求。
▲ 推理加速引擎 MagicMind 是寒武纪软件栈 Cambricon Neuware 全新升级的重要组成部分
为了加快用户端到端业务落地的速度,减少模型训练研发到模型部署之间的繁琐流程,寒武纪的统一基础软件平台 Cambricon Neuware 整合了训练和推理的全部底层软件栈,包括底层驱动、运行时库、算子库以及工具链等,将 MagicMind 和深度学习框架 Tensorflow,Pytorch 深度融合,实现训推一体。依托于训推一体,在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,可快速响应业务变化,提升算力利用率,降低运营成本。
在通用性方面,Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
全新推理加速引擎 MagicMind 和训推一体特性,将为用户带来更为便捷、高效的开发体验,大幅降低学习成本、开发成本和运营成本。
思元 370 升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。
解码方面,思元 370 集成了强大的媒体性能,可支持 132 路 1080p 视频解码或 10 路 8K 视频解码。编码方面,全新编码器通过灵活的码率优化(RDO)控制、多参考帧、二次编码等特性组合,在相同图像质量(全高清视频 PSNR)的情况下比上一代产品节省 42% 带宽,有效降低带宽成本。
▲ 思元 370 视频编码质量显著提升