内存测试33. Cachebench
这是Calebench的性能测试,它是LLCBench的一部分。Cachebench是用来测试内存和缓存带宽性能的。
https://openbenchmarking.org/result/1806034-FO-LS3A3000C2734. stream
系统内存(RAM)性能基准测试。
测试结果:
点此访问图12访存性能测试
在stream测试和CacheBench测试中,龙芯3A3000终于实现了对J1900的全面优势。另外,除了在Cachebench中有两项数据明显若与i5-7200U,在其他测试内容中龙芯3A3000和i5-7200U性能相当。能有这样好的性能,还是因为龙芯处理器历史上因为访存性能太差深受其害,然后花了很大的力气优化了访存。可以期待龙芯3A4000一样会有较好的访存性能。
最后,根据openbenchmarking网站上找到的部分FT1500A和FT-2000+的数据,和龙芯3A3000进行了对比。
(点此可查看大图▲)
基本上,龙芯3A3000的性能强于FT1500A,但明显弱于FT-2000+。和FT1500A相比,FT-2000+性能有了很大的提升,部分得益于工艺的改进,从28纳米提升到了16纳米;部分得益于架构的更新。我们预测,龙芯3A4000在继续使用28纳米工艺的前提下,将能够在单核性能上追平甚至超越飞腾2000+处理器。由于飞腾2000+处理器有多达64个核,龙芯要在多核性能追赶飞腾还有很长的路要走。
3A3000在Monte Carlo模拟上性能意外的糟糕,很可能是某关键函数缺少优化。
总结与展望从纵向上看龙芯的发展,相比龙芯2F,龙芯3A3000的性能有了很大的进步。工艺上,从龙芯2F的90nm,提高到了龙芯3A3000处理器的28nm;主频从龙芯2F的800MHZ提高到了1.5GHz。在用户实际应用上,基本可以达到流畅使用的程度。与Intel处理器相比,龙芯3A3000综合性能相当于Intel J1900处理器,单核性能相当于intel i5-7200U的30%~40%。
通过本文中所进行的34项测试,我们发现龙芯3A3000在性能不好的根源有以下几个:
同主频性能较弱。从同主频性能来看,龙芯3A3000已经超过了J1900,但只有intel i5-7200U的60%~70%。预计2019年流片的龙芯3A4000同主频性能至少有30%的性能提升。
主频太低。这是龙芯处理器让众多爱好者耿耿于怀的的一个难以回避的弱点。诚然,主频不代表所有性能,但主频太低是万万不行的。J1900的同主频性能弱于龙芯3A3000,但由于它的主频可以到1.99GHz,并且还可以睿频到2.4GHz,在多项测试中一样超过了龙芯3A3000。Intel i5-7200U基础主频达到2.5GHz,睿频可以到3.1GHz。飞腾2000+主频可以到2.2GHz,而兆芯的KX-6000主频甚至可以到3.0GHz。飞腾、兆芯处理器可能在同主频性能上弱于龙芯,但还是可以靠着较高的主频击败龙芯3A3000。
龙芯主频较低的原因之一是落后的工艺制程,目前还在使用28nm工艺,而Intel、飞腾、兆芯等已经在使用14nm工艺。根据龙芯的发展规划,到2020年龙芯将使用14nm工艺对了龙芯3C5000进行流片,主频能够达到2.5GHz。
系统软件优化不够。在测试中,我们发现的问题有三角函数等数学函数运算速度过慢,看起来部分硬件浮点运算的没有得到应用,而且龙芯缺少一个优化的数学函数库。在加密解密指令上,缺少AES硬件实现。在测试中,我们发现使用Debian操作系统、GCC 7.3和1.4GHz的龙芯3A3000进行的各项测试基本优于使用Loongnix操作系统、GCC 4.9编译器和1.5GHz龙芯3A3000的组合。我们认为编译器的优化对发挥龙芯的性能非常重要。在测试中,我们也发现使用4.14的Linux内核会比3.10的Linux内核上有相当程度的性能提升,龙芯依然缺少优化的Linux内核。
应用软件优化不够。由于MIPS架构缺少软件生态,各种应用软件缺少针对MIPS架构的优化。具体表现就是在很多软件有针对X86系统的汇编优化。要建立龙芯的生态,发挥龙芯处理器的性能,相同级别的优化不可缺少。
随着龙芯未来架构的优化、主频的提升,影响龙芯发展的瓶颈将不是处理器的性能,而是软件生态的建设,也就是系统软件优化以及应用软件优化。其中,各种应用软件的优化将是提升龙芯用户体验的捷径。实际上,龙芯也已经意识到了这些问题,提出了要学习苹果,”app by app, feature by feature, pixel by pixel”的进行优化。
当下,龙芯3A4000的流片工作正在开展,预计到2019年初就能看到芯片了。在3A4000出现之前,我们对3A4000的性能进行一下预测。基于我们的评测,我们认为,3A4000的同主频性能将从i5-7200U的60%~70%,提升到80%~90%,2.0GHz下单核性能达到i5-7200U的2/3,多线程性能超过i5-7200U。和国内其他CPU相比,龙芯3A4000的同主频性能将超过飞腾以及兆芯,单核性能也将超过飞腾2000+,但由于3A4000落后的28 nm工艺、依旧较低的主频(2.0 GHz),龙芯3A4000的综合性能将可能依旧无法超过主频3.0GHz的兆芯KX-6000。如果2019年兆芯KX-6000不能大规模量产上市,龙芯3A4000还是有可能成为2019年国内可以买到的单核性能最强的国产自主处理器。
龙芯处理器和Intel、AMD的高性能处理器差距还是非常巨大,龙芯要走的路还很长。期待龙芯在未来采用更好的工艺,更优化的微架构,也期待龙芯能够在编译器、数学库、操作系统等系统软件支持上有更好的表现,构建更好的应用软件生态系统,期待着龙芯3A4000、3B 4000、龙芯3C 5000早日流片成功。
以上的评测只是一个非计算机专业的普通爱好者个人所为,不具有权威性,水平有限,时间仓促,数据繁多,有错误和疏漏在所难免,还请批评指正。
以毛主席的话,结束我的测评:
“我们正在前进。我们正在做我们的前人从来没有做过的极其光荣伟大的事业。我们的目的一定要达到。我们的目的一定能够达到。”
附录
各种测试结果汇总
龙芯3A 3000(Loongnix):https://openbenchmarking.org/result/1806113-TR-LSLABSLS380https://openbenchmarking.org/result/1709288-TR-LOONGSON390FT1500A :https://openbenchmarking.org/result/1705187-KH-CPUSCIMAR08I5-7200uhttps://openbenchmarking.org/result/1806175-FO-I57200UDE18https://openbenchmarking.org/result/1806174-FO-I57200UMU24https://openbenchmarking.org/result/1806175-FO-I57200URA38https://openbenchmarking.org/result/1806176-FO-I57200UCO93https://openbenchmarking.org/result/1806179-FO-I57200UCR30J1900https://openbenchmarking.org/result/1404256-PL-1404206PL73https://openbenchmarking.org/result/1404250-PL-1404206SO61https://openbenchmarking.org/result/1404268-PL-J1900MULT15https://openbenchmarking.org/result/1404272-PL-J1900SPEE11https://openbenchmarking.org/result/1404275-PL-J1900PROC21