主题 : 从单路到四路 十八款企业级CPU横向评测
Freestyle_
级别: 优秀会员
UID: 13333
精华: 0
发帖: 13055
威望: 39071 点
无痕币: 4499 WHB
贡献值: 6 点
在线时间: 2733(时)
注册时间: 2008-07-21
最后登录: 2024-03-19

0 从单路到四路 十八款企业级CPU横向评测

处理器市场年年都有新技术涌现,在上一年,Intel Nehalem架构横空出世,在处理器市场掀起了轩然大波,并影响到了移动计算一直到企业计算上。再早一年的Penryn为代表的Core 2架构表现也很是不错,改变了之前NetBurst不敌Opteron直联架构导致的种种不利局面。
什么是企业级的CPU呢?像这些大铁疙瘩里面用的就是

还有这些看起来很像台式机的东西,里面用的通常也是
  CPU横评大家都见过,不过企业级的CPU横评可能就很少见了。我们IT168集合了前两年测试的多款企业级处理器,制作了本次横评。之所以在现在推出这个横评,有两个原因。首先是在前一个阶段,我们引入了SPEC CPU 2006测试代替了再之前的SPEC CPU 2000测试,因此这次横评的CPU性能都具有直接的可比性。SPEC CPU的测试周期通常长达2~3天,这也是企业级CPU横评不如桌面级的那么多的缘故。

企业级处理器:双路Nehalem Xeon和四路Dunnington Xeon

企业级处理器:Bacerlona Opteron和Shanghai Opteron
  还有一个重要的原因是,在未来的1~2个月内,x86处理器世界将会有很重要的处理器发布:Intel的Westmere-EP和Nehalem-EX,还有AMD的12核心Many-Cours,面对这些新的处理器我们IT168评测中心准备了新的测试环境,如时下最新的Windows Server 2008 R2,以及,为新的指令集优化的SPEC CPU编译器设置,等等,因此有必要在这里对以往的测试数据作一次总结。总的来说,就是:继往开来。接下来就不再废话了,希望后面的这些数据可以给大家带来一些帮助。

 
测试平台、测试环境
测试分组
类别
横评
处理器子系统
处理器Intel Nehalem Arch:
双路Intel Gainestown Xeon W5580 3.20GHz + 3ch DDR3-1333/CPU
双路Intel Gainestown Xeon X5570 2.93GHz + 3ch DDR3-1333/CPU
双路Intel Gainestown Xeon E5540 2.53GHz + 3ch DDR3-1066/CPU
双路Intel Gainestown Xeon E5520 2.27GHz + 3ch DDR3-1066/CPU
双路Intel Gainestown Xeon E5520 2.27GHz + 2ch DDR3-1066/CPU
双路Intel Gainestown Xeon E5520 2.27GHz + 1ch DDR3-1066/CPU
单路Intel Gainestown Xeon E5506 2.13GHz + 3ch DDR3-800
单路Intel Gainestown Xeon E5504 2.00GHz + 3ch DDR3-800
单路Intel Bloomfield Xeon W3570 3.20GHz + 3ch DDR3-1333
单路Intel Lynnfield Xeon X3430 2.40GHz + 3ch DDR3-1066
Intel Penryn Arch:
四路Intel Dunnington Xeon X7460 2.66GHz + 4ch DDR2-667
双路Intel Dunnington Xeon X7460 2.66GHz + 4ch DDR2-667
双路Intel Harpertown Xeon X5460 3.16GHz + 4ch DDR2-667
双路Intel Harpertown Xeon E5450 3.00GHz + 4ch DDR2-667
双路Intel Harpertown Xeon E5430 2.66GHz + 4ch DDR2-667
双路Intel Harpertown Xeon E5420 2.50GHz + 4ch DDR2-667
双路Intel Harpertown Xeon L5420 2.50GHz + 4ch DDR2-667
双路Intel Harpertown Xeon E5410 2.33GHz + 4ch DDR2-667
AMD Shanghai Arch:
双路AMD Shanghai Opteron 2378 2.40GHz + 2ch DDR2-667/CPU
AMD Barcelona Arch:
双路AMD Barcelona Opteron 2354 2.20GHz + 2ch DDR2-667/CPU
双路AMD Barcelona Opteron 2350 2.00GHz + 2ch DDR2-667/CPU
软件环境
操作系统Microsoft
Windows Server 2008 Enterprise x64 Edition SP2
  这些CPU的评测数据,基本上来自于我们以往成绩的积累,少部分来自重新进行测试,由于一直采用统一标准测试,基本保证了测试差异性。这些CPU包含了两个主要的厂商:Intel和AMD,此外每个厂商包括了两代产品,Intel的是Penryn和Nehalem,AMD是Barcelona和Shanghai,Penryn确实比较老了,而Barcelona则基本上已经离开了人们的视线。我们手上确实有AMD Istanbul,不过要想得到较好的结果还需要继续调整SPEC CPU的编译,因此它会出现在下一个阶段的新测试环境上。

  SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
  有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而用Opteron可能就只能用到SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好,此外这个测试和内存的关系不大。

SiSoftware Sandra Processor Arithmetic Benchmark

SiSoftware Sandra Processor Multi-Media Benchmark
  SiSoftware Sandra主要是一个理论性能上的测试,多路平台基本上就是单个处理器性能的倍数,因此四路Dunnington就很有优势。Dunnington是一个六核心的、基于Penryn核心但是加入了部分Nehalem技术的、传统FSB处理器,可以看到,即使是在同样的双路情况下,表现也很不错(当然,打不过高端的Nehalem)。

  SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
  SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,在早些年,我们使用的是其上一个版本SPEC CPU 2000。和SPEC CPU 2000一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
  SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。 

SPEC CPU 2006测试本身的编译就很具有考验性
  SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
  我们在被测服务器中安装了Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2005 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
  和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 Datacentere下完成,对于每个运算核心,最低配置1.5GB内存。
  SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

SPEC CPU 2006整数性能
  SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

SPEC CPU 2006浮点性能
  不得不说,这两个表格相当长,如果它们集中到一个表格就更长了,在后面我们将会按照处理器家族大致分一下类。
  从结果来看,四路Dunnington继续保持有一定的优势,它总共具有24个处理核心,同样,高端的双路Nehalem可以达到甚至超越四路Dunnington。带有HTT超线程技术的双路四核心Nehalem可以总共具有16个虚拟处理核心,当然虚拟出来的核心性能无法与真实核心匹敌,但是Nehalem带来的直联架构具有很明显的优势,在下一页我们将继续谈到。


Bacerlona Opteron和Shanghai Opteron,接口都是Socket F 1207
   由于Opteron机器比较稀少,因此它们全部分成了一类:

SPEC CPU 2006整数性能

SPEC CPU 2006浮点性能
  可见Shanghai架构比老架构提升了10%~15%的同频性能。Opteron也是直联架构,所谓的直联架构就是相对于老的前端总线架构:处理器和内存联结,处理器之间也直接联结。对于服务器应用来说,涉及到的数据量总是非常大的,因此L1、L2、L3的缺失(Missed)总是非常常见。服务器处理器亟需低内存延迟。
  直联架构可以大大降低这个延迟,因此同频率的Opteron比仍然使用前端总线架构的Penryn强也就不出奇了。后面将会继续谈到直联架构。

 

Intel Penryn Harpertown Xeon E5450
  现在Penryn处理器应该不算多见了,不过较早的服务器和台式机中都会看到它。对于Xeon而言,它基本上意味着5400 Harptertown系列至强。

六核心Dunnington,有一个Uncore构造
  所有的Penryn处理器都大同小异,不过出生在Nehalem之后的Dunnington是一个怪胎,它是个四路六核心的产品,采用了部分Nehalem上的技术,如8T晶体管等,此外它内部架构也有些特别,具有一个Uncore构造,用来连接三片双核Penryn以及16MB的L3缓存,可以降低Dunnington对外的数据交通量。最后,和其他的胶水四核Penryn不同,Dunnington是一个原生的六核心设计。

SPEC CPU 2006整数性能
 

SPEC CPU 2006浮点性能 
   四路六核心的Penryn+Nehalem的混合物比所有的Penryn都要强是很自然的,在双路的状态下都非常强。不过由于FSB的限制,因此看起来单位核心单位频率下的性能不及其它Penryn。
  如前面所说,服务器应用上需要访问大量的数据,除了需要较低的内存延迟之外,还需要大量的内存带宽,对于前端总线架构来说,还需要大量的FSB带宽,对于Penryn而言,每个Socket集成6个核心就差不多是极限了。要想继续提升数量,就要改架构了。

 

Nehalem-EP:Gainestown Xeon X5570
  我们已经说了很多次,Nehalem的最大特色就是直联架构,其次是超线程技术。基本上所有的Nehalem处理器都享受到了直联架构带来的巨大提升,不管是LGA 1366的Gainestown/Bloomfield还是LGA 1156的Lynnfield:

SPEC CPU 2006整数性能

SPEC CPU 2006浮点性能
  经过前面的述说,我们可以知道内存带宽/延迟对服务器应用的重要性,直联架构是如此地有优势,因此甚至单通道DDR3-1066的E5520也能和四通道DDR2-667具有相仿的性能(从数值上看,前者的内存带宽要小,因此双通的E5520的性能比单通的高出非常多),就更别提满配双通/三通的情况了。

  【IT168评测中心】SiSoftware Sandra是一个偏向于理论性能的测试,而SPEC CPU 2006则可以代表了许多实际的企业级别应用。企业级应用大致有几种:服务器应用/工作站应用、高性能计算应用(一些时候和前面两种有些重叠),这些应用的共同之处是涉及到的数据量非常大,因此需要很高的内存带宽和很低的内存延迟。其中不同的应用对两个因素的侧重性不同,如具备大量互相独立运算的服务器应用需要的是高内存带宽以提供高吞吐量,而一些计算结果互相依赖的工作站/科学运算则需要低内存延迟来提升处理的速度,因此对服务器应用和工作站应用,Intel提供了两种Nehalem Xeon处理器:Nehalem-EP和Nehalem-WS,它们在Turbo Boost睿频机制上有些不同。 

总之一句话:CPU旁边就是内存的直联架构对企业级应用很有效
  桌面应用则不同,它们涉及到的数据量比较小,大部分情况下都可以装进L1/L2/L3缓存中(这也是以前Intel按照缓存容量来划分CPU产品线定位的一个原因),因此对内存的要求相对没那么高,直联架构相对来说提升就不是很大,如一些游戏测试表现出Core i7没什么提升。在多任务环境下,直联架构带来的高带宽和低延迟的作用逐渐体现。涉及数据量较小也是桌面系统对64位操作系统需求并不旺盛的一个原因,当然这种情况现在有所改变。 

下一代服务器处理器平台:Westmere-EP,这个新的平台采用了32nm制程,并将具有6个处理核心
  和通常的横评而言,本次CPU横评没有所谓的赢家和输家,如果真要说的话,就是直联架构的胜利。在从高频率转而走向多核道路之后,越来越大的数据存储压力让直联架构成为了几乎就是唯一的选择。
  当然,具有优良的架构之后,处理器还需要优良的微架构以及不错的工艺带来合适的频率/功耗表现才能取得完全的成功,希望Westmere-EP/Nehalem-EX以及Many-Cours/Bulldozer能给我们带来一些惊喜,也希望本次横评的数据和附加的讲解对大家能带来一些作用。
Total 0.059355(s) query 3, Time now is:03-29 05:12, Gzip enabled 粤ICP备07514325号-1
Powered by PHPWind v7.3.2 Certificate Code © 2003-13 秋无痕论坛