0前言


▲IntelSapphireRapidsXeonWorkstation系列CPU包括Xeonw9、Xeonw7、Xeonw5和Xeonw3细分市场。


▲该系列共有15个SKU,其中7个属于XeonW-3400,8个属于XeonW-2400系列。


▲两个细分市场之间SKU的划分:

XeonW-3400CPU(350W)-Xeonw9/Xeonw7/Xeonw5

XeonW-2400CPU(225W)-Xeonw7/Xeonw5/Xeonw3

英特尔至强W-3400“专家工作站”CPU系列


▲IntelXeonW-3400SapphireRapids芯片属于“专家”工作站CPU系列。这些芯片提供多达56个内核、112个线程、8通道DDR5-4800内存支持和112个通道。所有英特尔至强W-3400CPU都支持高达4TB的内存容量(EEC/R-DIMM)。


▲从SKU开始,阵容中的顶级芯片是Xeonw9-3495X,它提供56个内核和112个线程。八通道内存,该芯片包含105MB的L3缓存,具有1.9GHz的基本时钟并可提升至4.8GHz。CPU的PL1TDP为350W,PL2TDP为420W。解锁模式应该将TDP推得更高。以下是各种Xeonw-3400SKU的PL1和PL2分布:

Xeonw9-3400-350W(PL1)/420W(PL2)

Xeonw7-3400-300W(PL1)/360W(PL2)

Xeonw5-3400-270W(PL1)/324W(PL2)

英特尔至强W-2400“主流工作站”CPU系列


▲IntelXeonW-2400SapphireRapids芯片属于“主流”工作站CPU系列。这些芯片提供多达24个内核、48个线程、4通道DDR5-4800内存支持和64个通道。所有IntelXeonW-2400CPU都支持高达2TB的内存容量(ECC/R-DIMM)。


▲从SKU开始,阵容中的顶级芯片是Xeonw7-2495X,它提供24个内核和48个线程。四通道内存。该芯片包含45MB的L3缓存,具有2.5GHz的基本时钟和高达4.8GHz的提升。CPU的PL1TDP为225W,PL2TDP为270W。解锁模式应该将TDP推得更高。以下是各种Xeonw-2400SKU的PL1和PL2分布:

Xeonw7-2400-225W(PL1)/270W(PL2)

Xeonw5-2400-200W(PL1)/240W(PL2)

Xeonw3-2400-165W(PL1)/198W(PL2)

对于W790芯片组而言,简单看一眼BlockDiagram就能看出这是专为Workstation而设计的,标准的HEDT定位


▲Xeonw9-3495X虽然相比XeonPlatinum8480+或者8490H阉割了一些属性,但是其售价不到8480+的一半,也不到8490H的三分之一。


▲Xeonw7/5-2400虽然阉割很凶,但是价格是真香,毕竟64LPCIeGen5在这里。

目前发布的W790主板我将其划分为以下几类:

WorkstationGamingStation


ASUSProWSW790-ACEASRockW790WS

▲这是一组坚持走INTEL工作站方向设计的产品,没有IPMIASPEED芯片,这类产品会迅速在CHH以ARGB全塔方式出现在各大视觉设计师、游戏主播以及高玩的桌面上,新一代10W整机海景房的最佳载体,超频和大型游戏统统拿下无障碍,土豪最爱。

ServerWorkstationDeluxe


ASUSProWSW790-SAGESESupermicroX13SWA-TF

▲这一类适合对4thGenIntelXeonScalable有想法,但是又米不动XeonPlatinum8480+或者8490H,所以退而求其次接受单路XeonW9的用户,360水冷前置,配四张RTX409024GBBlower或者QuadroRTXA6000Ada48GB,然后配一个SilverStoneRM444URack机箱,上导轨上机柜,主板自带ASPEED芯片,用IPMI挂远程管理妥妥的AI生产力工具。这个系列最大的优势就是八通道内存满血模式。


▲前作中我已经评测过SupermicroX13SWA-TF,鉴于ASRockW790WS已在日本上市,但是国内未见到货源,所以觉得写这片主板评测还是有点意思的。

1开箱1.1外观


▲包装正面


▲开盒


▲附件全家福


▲主板正面


▲主板背面


▲顶侧


▲底侧


▲左侧

从左往右的IO背板接口:BIOSFlashBack按钮,IntelAX210无线网卡的IPEX天线接口,四个接口,两个雷电4的Type-C接口,两个MarvellAQtionAQC113CS的10GRJ45接口,1个IntelI225-LM的2.5GRJ45接口以及2个的Type-A接口,最右边是ALC897的音频接口。


▲右侧

从左往右可以看到8SATA,双PCIE8P的辅助供电,一个的接口,以及一个PCIE6P的辅助供电。

▲正俯

▲逆俯

1.2拆解

▲主板全拆解

▲因为本作中华擎采用了夸张的供电规模,所以VRM部分的散热使用了一体式铜管散热器配合三颗4025风扇进行散热。

▲PCB裸板

1.3供电

▲对如此庞大的供电集群,22颗DrMos仅使用了一颗RAA229126PMW芯片进行管理。

RenesasRAA229126是为IntelVR14设计的3rdPMW控制芯片,双路12相,因为太新了,以至于Renesas还没来得及放出这颗芯片的任何资料信息,ASRock就已经用上了。

▲RenesasISL99390是90A的DrMos。

RAA229126的双路分为Rail0和Rail1:

Rail1配合最内存插槽两侧的两颗ISL99390负责PVCCFA_EHV_FIVRA,组成2相。

▲CPU插座下方可以看到4颗ISL99360以及两颗ISL69260。

RenesasISL69260是为IntelVR14设计的3rdPMW控制芯片,双路8相。

RenesasISL99360是额定60A的DrMos。

左边这颗ISL69260配合最左侧的1颗ISL99360负责PVCCD_HV,这是1相。

右侧这颗ISL69260开启双路模式:

Rail0配合2颗ISL99360负责PVCCINFAON,这是2相;

Rail1配合1颗ISL99360负责PVCCFA_EHV,这是1相。

这是一套完整的RenesasintelVR143rd满血顶配豪华供电设计,成本极高,这么说,丐版的VR14VCCIN设计使用了8颗ISL99390就达到1.8V550A,这20颗可以达到1385A的理论最大输出电流。

至此供电电路部分解析完毕。

1.4IC芯片

▲Thunderbolt™4芯片使用了intelJHL8540,占用的是PCIeGen3x4的带宽,搭配了两颗Realtek5452HUSB-C供电芯片,完成IO挡板上两个的输出,而且支持PCIe链路配置,可在BIOS里开启或关闭。

▲网卡部分使用了两颗MarvellAQC113CS芯片,提供2个10G的RJ45电口输出。

▲IntelS1123L24是2.5G的i225LM网卡芯片,提供2.5G的RJ45网络支持,

ASM1074是USBHUB控制器,提供4个的下行输出。

1.5测试平台1.5.1IntelXeonw-3495X

Xeonw-3495X是IntelSapphireRapidsXeonWorkstation系列的旗舰。

▲Xeonw-3495X正面

▲Xeonw-3495X背面

▲Xeonw-3495X顶盖

具体参数详见下面的SKUTable:

▲这两张图除了标明价格之外也说明了盒装零售只会出现7个型号,分别是w9-3475X、w7-3465X、w4-3435X、w7-2495X、w7-2475X、w5-2465X以及w5-2455X,其他型号均没有盒装零售版,所以无论谁拿到了w9-3495X一定是散片形式。同时按照JD的销售套路,非国行盒装,自营不上架,所以JD自营是一定买不到w9-3495X的。

▲求同存异,Xeonw9-3495X和XeonPlatinum8480+/8490H虽然都是SapphireRapids,但是隶属不同的产品线,

对于需求是双路CPU而言,没有妥协的办法,只有选择4thGenerationIntelXeonScalable系列,如果可以接受单路CPU的话,Xeonw9-3495X毫无疑问最具备诱惑力,56核112线程,最高4.8GHz的主频就卖5889刀。

1.5.2SKHynixHMCG88AEBRA115Nx8

▲内存使用了8条32GB的SKHynixHMCG88AEBRA115N

▲正面

▲背面

HMCG88AEBRA115N是32GB2RX8的DDR5-4800ECCRDIMM内存,ECC校验是完整版的EC8而不是缩水版的EC7。

1.5.3ABEESPR360

▲水冷散热器目前可选的也只有ABEESPR360。

▲实在不认同水冷散热器弄的一陀线的现状,SPR360就很清爽,风扇线全部量好距离直接串联,安装完成后就两根线,水泵一根,风扇一根。

▲用硅脂压CPU顶盖一下,就可以看到大致的CPU顶盖表面积大小。

▲4677扣具安装散热器是需要额外的内六角工具的,这个扳手,主板以及水冷附件中都不附送,需要自行购买。

▲当然,当你取下水冷的时候是连着CPU一起取出的,这一点不用慌,正常情况,CPU和水冷头的剥离可以使用塑料三角片助力即可。

京东

abeeApexPlusSPR360intel至强四代W处理器专用一体式水冷散热器(3495X2495X4677工作站4U服务器)2299元商品好评率98%去购买

1.5.4

▲作为Micron光目前的高端旗舰级NVMe企业级产品,9300MAX无疑是与INTELP4610对敲的重头戏产品,但是镁光不太在大陆推广,导致9300MAX系列的产品信息非常少。6.4TB容量37.3TBW的写入量是其与INTELP4610对抗的重要指标。

▲盘体全新未拆封

▲正面

▲背面

▲左侧

▲右侧

用进行90%满盘情况下的64GBBlockSize的的峰值测试。

▲90%满盘64GB数据块大小,属于比较恶劣的情况,持续读取3510.25MB/s,持续读写3095.59MB/s,4K随机读取786705.81IOPS,4K随机写入597952.64IOPS。

1.5.5NVIDIAGeforceRTX409024GBFounderEdition

▲GPU选用的是京东版的NVIDIAGeforceRTX4090FounderEdition,这就不过多赘述了。

1.5.6SeasonicPrimeTX-1600

▲为了尽可能稳定有效的完成测试任务,电源这次使用了SeasonicPrimeTX-1600,虽然TX-1600没有ASUSROG雷神1600W那么花哨,但是确实他们是同级别的产品。

▲80PLUS钛金认证,电源原生支持两个PCIe512VHPWR供电接口。

▲开箱

▲附件全家福

▲线材包1

▲线材包2

▲PCIe512VHPWR供电线

▲PCIe512VHPWR供电接口部分

▲海韵的PCIe512VHPWR供电线直接定义为600W输出。

▲电源本体背面

▲电源本体正面

▲电源本体侧面

▲电源模组接口

▲45°视角

▲测试现场

京东

新版海韵SEASONIC至尊旗舰钛金PRIMETX1600W电源原生12支持40903999元商品好评率95%去购买

1.6BIOS

本次测试的BIOS版本:

▲开机显示DDR5-4400,这是因为W790WS是四通道内存,如果插入4条这个内存就是1DPC,如果插入8条就是2DPC,所以DDR5-4800JEDEC内存插入后就会因为2DPC模式而降频为DDR5-4400,

▲SKHynixHMCG88AEBRA115N内存的设置页面,可以看到内存的详细JEDEC参数,SPD中的JEDEC参数有40三组,最高到DDR5-520042424283。

▲在设置内存频率的页面可以看到最高支持到DDR5-8800。

▲直接可以将内存设置到JEDEC参数中的DDR5-5200,这个没有问题。

▲一次点亮

▲然后尝试进攻一下DDR5-5400,小参降到36363572,

▲点亮成功,下面继续进攻DDR5-5600失败,VDDQ电压加到1.5V一样,无法开机卡47和70。看起来,SKHynixHMCG88AEBRA115N并不是一款适合极限超频的内存,毕竟这是服务器版本的RDIMM内存。

▲CPU-Z定下参数,接着用AIDA64测试下内存读写。

▲DDR5-5的内存读写测试,这大概是SKhynixHMCG88AEBRA115N这8根内存在ASRockW790WS上的基本表现。

▲这块主板的默认性能是完全解锁TDP的,可以看到PL1和PL2已经默认打开到最高4095,PL1TIME也是最高的448,PL2TIME也是最高的0.438。这意味着开机即可获得解锁TDP后的CPU性能。为了测试方便区分,我将此状态标记为:

Xeonw9-3495XASRockdefault

这里的几个关键选项的解读为:

CurrentLimitOverride(电流限制倍频)

[Disabled](禁用)无电流限制倍频。

[Enabled](启用)可利用此选项以1/8A为增量调整电流限制倍频。

PL1PowerLimit(PL1功率限制)

允许配置封装功率限制1(瓦)。超过此限制时,在一段时间后CPU倍频会降低。较低限制可保护CPU和节能,较高限制可提高性能。

PL1TimeWindow(PL1时间窗口)

允许配置超过长持续时间功率限制时经过多长时间CPU倍频降低。

PL2PowerLimit(PL2功率限制)

允许配置封装功率限制2(瓦)。超过此限制时,CPU倍频将被立即降低。较低限制可保护CPU和节能,较高限制可提高性能。

PL2TimeWindow(PL2时间窗口)

允许配置超过长持续时间功率限制时经过多长时间CPU倍频降低。

▲开机进入WIN11X6422H2直接测试CINEBENCHR23获得72287pts,此时TDP502W,最高核心温度57度。

▲直接进入IntelXTU调试

VoltageOffset=-0.175V

PerformanceActive-CoreTuning/47to56=41

PL1PowerLimit(PL1功率限制)=350W

PL1TimeWindow(PL1时间窗口)=420W

即可还原Xeonw9-3495X到默认的原始性能。

为了测试方便区分,我将此状态标记为:

Xeonw9-3495XASRock350w

在以上的350W状态下,我们继续进行降压调整:

OCTweakerFIVRConfigurationCoreVoltageOffset=100-150

OCTweakerFIVRConfigurationOffsetPrefix=[-]

图中我是直接降压0.15V。

为了测试方便区分,我将此状态标记为:

Xeonw9-3495XASRockoffset

▲开机进入WIN11X6422H2直接测试CINEBENCHR23获得72156pts,此时TDP382W,最高核心温度50度。

▲PCIelane支持拆分,PCIE1是CPUPCIe,PCIeGen5x16的插槽,可以拆分如上。

▲PCIE2和5是CPUPCIe,PCIeGen5x8的插槽,双槽共享PCIeGen5x16,可以拆分如上。

▲PCIE3是CPUPCIe,PCIeGen5x16的插槽,可以拆分如上。

PCIE4是来自PCH的PCIeGen4x4,所以这里就没有设置拆分选项。

▲OCTweakerVoltageConfigurationVoltageMode默认是StableMode

▲此时,CPUVCCINLoad-lineCalibrationLevel3有3级可选。

▲OCTweakerVoltageConfigurationVoltageMode设置为OCMode

▲此时,CPUVCCINLoad-lineCalibrationLevel3有5级可选。

▲关于内存电压,OCTweaker也可以很方便的设置DDR5的VDD、VDDQ和VPP电压。

▲关于Xeonw-3495X的最大睿频设计,此主板也给与定义了,CPU0和1核心为最高睿频4.8GHz,CPU2和3核心为4.7GHz,其余核心最大睿频均为4.6GHz。

2测试

▲Phoronixtestsuite测试套件是目前LINUX下可用的最全面的测试和基准测试平台,它提供了可扩展的框架,可以轻松地添加新的测试。该软件旨在以干净,可复制且易于使用的方式有效地执行定性和定量基准。Phoronixtestsuite测试套件可用于比较计算机的性能,硬件验证以及持续集成/性能管理。所以以下测试集成在Phoronixtestsuite框架下进行。

▲phoronix-test-suite硬件与环境配置一览表

ScalingDriver显示的Intel_pstatepowersave也就是电源模式请务必调节为Performance模式,否则性能会跌10-20%。

为确保新设备的兼容性,LinuxKernel升级到了6.3.5。

▲因为有MichaelLarabel的测试数据以及phoronix-test-suite良好的同步测量能力,所以我才有了远程对比的测试对象:

AMDDAYTONA_X(RYM1009BBIOS)

8xDDR4-3200ECCRDIMM32GB

AMDEPYC771364-Core@2.00GHz(64Cores/128Threads),

AMDEPYC776364-Core@2.45GHz(64Cores/128Threads),

AMDEPYC7773X64-Core@2.20GHz(64Cores/128Threads),

AMDDAYTONA_X(RYM1009BBIOS)

16xDDR4-3200ECCRDIMM32GB

2xAMDEPYC771364-Core@2.00GHz(128Cores/256Threads),

2xAMDEPYC776364-Core@2.45GHz(64Cores/128Threads),

2xAMDEPYC7773X64-Core@2.20GHz(64Cores/128Threads),

AMDTitanite_4G(RTI1002EBIOS),

12xDDR5-4800ECCRDIMM64GB

AMDEPYC9374F32-Core@4.31GHz(32Cores/64Threads),

AMDEPYC955464-Core@3.76GHz(64Cores/128Threads),

AMDEPYC965496-Core@3.71GHz(96Cores/192Threads),

AMDTitanite_4G(RTI1002EBIOS),

24xDDR5-4800ECCRDIMM64GB

2xAMDEPYC9374F32-Core@4.31GHz(32Cores/64Threads),

2xAMDEPYC955464-Core@3.76GHz(64Cores/128Threads),

2xAMDEPYC965496-Core@3.71GHz(96Cores/192Threads),

IntelM50CYP2SB2U(),

8xDDR4-3200ECCRDIMM32GB

IntelXeonPlatinum8362@3.60GHz(32Cores/64Threads),

IntelXeonPlatinum8380@3.40GHz(40Cores/80Threads),

IntelM50CYP2SB2U(),

16xDDR4-3200ECCRDIMM32GB

2xIntelXeonPlatinum8362@3.60GHz(64Cores/128Threads),

2xIntelXeonPlatinum8380@3.40GHz(80Cores/160Threads),

QuantaCloudS6Q-MB-MPS(3),

8xDDR5-4800ECCRDIMM64GB

IntelXeonPlatinum8490H@3.50GHz(60Cores/120Threads),

QuantaCloudS6Q-MB-MPS(3),

16xDDR5-4800ECCRDIMM64GB

2xIntelXeonPlatinum8490H@3.50GHz(120Cores/240Threads),

ASRockW790WS(3.04BIOS),

8xDDR5-5200ECCRDIMM32GB

IntelXeonw9-3945X@4.80GHz(56Cores/112Threads),

为了方便了解ASRockW790WS这片主板对CPU的调教能力,我们测试Xeonw9-3495X的三个状态:

Xeonw9-3495XASRockdefault

此为开机默认的状态,不锁TDP。

Xeonw9-3495XASRock350w

此为CPU的原始TDP状态,基础TDP350W,最大加速TDP420W。

Xeonw9-3495XASRockoffset

在原始TDP状态下,降低0.15V核心电压,降压超频。

2.1深度学习2.1.1OneDNN

这是对英特尔oneDNN作为深度神经网络的英特尔优化库的测试,并利用其内置的benchdnn功能。结果是报告的总执行时间。在更名为英特尔oneAPI工具包的一部分之前,英特尔oneDNN以前称为DNNL(深度神经网络库)和MKL-DNN。

oneDNN是一个开源的跨平台高性能库,包含用于深度学习应用程序的基本构建模块。基于英特尔平台,oneDNN对深度神经网络进行op级以及指令集级的优化。

支持关键数据类型:float32、float16、bfloat16和int8实现了丰富的操作:convolution,matrixmultiplication,pooling,batchnormalization,activationfunctions,recurrentneuralnetwork(RNN)cells,andlongshort-termmemory(LSTM)cells支持自动检测硬件指令,提高神经网络在指定硬件,特别是英特尔CPU和GPU上的执行速度。

2.1.1.1数据类型:f32

▲F32中,单路之王依然是EPYC9554,双路之王依然是XeonPlatinum8490H2P,双路AMD依然优化不佳。

2.1.1.2数据类型:u8s8f32,OptimizedForAVX-512

▲对于像InteloneDNN这样可以大量利用AVX-512的工作负载,Xeonw9-3495X四通道5200内存加上降压超频也无法超越八通道的XeonPlatinum8490H。

2.1.1.3数据类型:bf16bf16bf16,OptimizedForAVX-512+VNNI

▲当用上AVX-512BF16之后,Xeonw9-3495XASRockoffset轻松碾压一切对手,排名第二,仅次于双路XeonPlatinum8490H2P,AMD全线被性能压制。

单路1P下:结果越低越好

当数据类型为F32时候:

Xeonw9-3495XASRock350w:0.688ms

Xeonw9-3495XASRockdefault:0.736ms

Xeonw9-3495XASRockoffset:0.709ms

EPYC9554:0.595ms

当数据类型为u8f8f32时候

Xeonw9-3495XASRock350w:0.615ms

Xeonw9-3495XASRockdefault:0.602ms

Xeonw9-3495XASRockoffset:0.597ms

EPYC9554:0.280ms

当数据类型为bf16bf16bf16时候

Xeonw9-3495XASRock350w:0.299ms

Xeonw9-3495XASRockdefault:0.279ms

Xeonw9-3495XASRockoffset:0.271ms

EPYC9554:0.400ms

通过AVX-512+VNNI的调整优化,Xeonw9-3495X的提升超过100%,而EPYC9554明显在传统AVX512调整优化下收益更好,提升超过100%。

Xeonw9-3495XASRockoffset明显功耗温度以及性能都达到比较好的平衡,极力推荐。

2.1.2

这是对英特尔OpenVINO的测试,这是一个围绕神经网络的工具包,使用其内置的基准测试支持并分析各种模型的吞吐量和延迟。

2.1.2.1Model:face-detection-0206

基于ResNet152作为backbone的人脸识别

FP16

FP16-INT8

▲这个测试无论是FP16还是FP16-INT8,双路最佳是XeonPlatinum8490H2P,单路之王是XeonPlatinum8490H,而Xeonw9-3495X紧随其后。把模型的数据精度从FP16调整到FP16-INT8混合精度,以上三颗CPU的性能都出现了翻倍提升。不知为何,EPYC9554在ResNet152backbone下的FP16精度性能只有Xeonw9-3495X的60-70%。

2.1.2.2Model:age-ger-recognition-retail-0013

用于同步年龄/性别识别的全卷积网络。该网络能够识别[18,75]岁范围内的人的年龄/性别。

FP16

▲单路1P:FP16

Xeonw9-3495XASRock350w:79004.64FPS

Xeonw9-3495XASRockdefault:76487.02FPS

Xeonw9-3495XASRockoffset:82163.44FPS

XeonPlatinum8490H:82929.06FPS

EPYC9554:97379.56FPS

这个目标检测测试单路无疑EPYC9554更加优秀。

2.1.2.3Model:person-detection-0106

这是一个基于ResNet50为Backbone的CascadeR-CNN架构的人体检测器。

FP16

FP32

▲单路1P:FP16结果越高越好

Xeonw9-3495XASRock350w:22.56FPS

Xeonw9-3495XASRockdefault:22.25FPS

Xeonw9-3495XASRockoffset:23.46FPS

XeonPlatinum8490H:25.55FPS

EPYC9554:23.07FPS

单路1P:FP32结果越高越好

Xeonw9-3495XASRock350w:22.91FPS

Xeonw9-3495XASRockdefault:22.73FPS

Xeonw9-3495XASRockoffset:23.47FPS

XeonPlatinum8490H:25.53FPS

EPYC9554:23.12FPS

这个目标检测测试Xeonw9-3495X和EPYC9554性能基本一致,Xeonw9-3495X的两种超频模式都追不上XeonPlatinum8490H。

只能说对于大众化的基于ResNet50为Backbone的CascadeR-CNN架构,两家的CPU都优化到位了。

2.1.2.4Model:weld-porosity-detection-0001

FP16

FP16-INT8

单路1P:FP16

Xeonw9-3495XASRock350w:7329.8FPS

Xeonw9-3495XASRockdefault:7345.31FPS

Xeonw9-3495XASRockoffset:7344.66FPS

XeonPlatinum8490H:7839.51FPS

EPYC9554:4165.02FPS

单路1P:FP16-INT8

Xeonw9-3495XASRock350w:15835.23FPS

Xeonw9-3495XASRockdefault:15714.07FPS

Xeonw9-3495XASRockoffset:16633.90FPS

XeonPlatinum8490H:16703.64FPS

EPYC9554:8228.7FPS

把模型的数据精度从FP16调整到FP16-INT8混合精度,以上三颗CPU的性能都出现了翻倍提升。EPYC9554只有Xeonw9-3495X性能的50-60%。

值得一提的是,双路2P相比单路1P,XeonPlatinum8490H2P测试性能接近1P的300%,而EPYC95542P测试性能接近1P的200%,所以这一轮无需多言,XeonPlatinum8490H单路双路都是最佳。

2.1.2.5Model:person-vehicle-bike-detection-2004

这是一个基于MobileNetV2为Backbone的人、车辆、自行车检测器。

FP16

单路1P:FP16

Xeonw9-3495XASRock350w:3407.38FPS

Xeonw9-3495XASRockdefault:3384.41FPS

Xeonw9-3495XASRockoffset:3552.71FPS

XeonPlatinum8490H:3656.94FPS

EPYC9554:4762.61FPS

这个目标检测测试无疑EPYC9554更加优秀。

2.1.2.6Model:machine-translation-nar-en-de-0002

这是一个基于非自回归Transformer拓扑结构的英德机器翻译模型。该模型是在内部数据集上训练的。

FP16

单路1P:FP16结果越高越好

Xeonw9-3495XASRock350w:413.56FPS

Xeonw9-3495XASRockdefault:410.93FPS

Xeonw9-3495XASRockoffset:436.05FPS

XeonPlatinum8490H:448.59FPS

EPYC9554:449.76FPS

这个测试EPYC9554更加优秀。

2.1.3

这是NeuralMagic的DeepSparse的基准测试,使用其内置的实用程序和来自他们的SparseZoo()的各种模型。

2.1.3.1Model:CVClassification,ResNet-50ImageNet-AsynchronousMulti-Stream

单路1P:

Xeonw9-3495XASRock350w:727.14items/sec

Xeonw9-3495XASRockdefault:766.58items/sec

Xeonw9-3495XASRockoffset:769.62items/sec

XeonPlatinum8490H:769.78items/sec

EPYC9554:843.37items/sec

单路EPYC9554更佳。

2.1.3.2NLPTokenClassification,BERTbaseuncasedconll2003-AsynchronousMulti-Stream:

单路1P:结果越高越好

Xeonw9-3495XASRock350w:46.97items/sec

Xeonw9-3495XASRockdefault:46.74items/sec

Xeonw9-3495XASRockoffset:46.70items/sec

XeonPlatinum8490H:47.45items/sec

EPYC9554:35.66items/sec

单路XeonPlatinum8490H更佳

2.1.3.3NLPQuestionAnswering,BERTbaseuncasedSQuaD12layerPruned90-AsynchronousMulti-Stream

单路1P:

Xeonw9-3495XASRock350w:177.62items/sec

Xeonw9-3495XASRockdefault:183.81items/sec

Xeonw9-3495XASRockoffset:183.79items/sec

XeonPlatinum8490H:192.99items/sec

EPYC9554:329.12items/sec

单路EPYC9554更佳。

2.1.3.4NLPDocumentClassification,oBERTbaseuncasedonIMDB-AsynchronousMulti-Stream

单路1P:

Xeonw9-3495XASRock350w:44.98items/sec

Xeonw9-3495XASRockdefault:46.69items/sec

Xeonw9-3495XASRockoffset:46.76items/sec

XeonPlatinum8490H:47.29items/sec

EPYC9554:35.69items/sec

单路XeonPlatinum8490H更佳。

2.1.3.5CVDetection,YOLOv5sCOCO-Scenario:AsynchronousMulti-Stream

单路1P:结果越高越好

Xeonw9-3495XASRock350w:213.34items/sec

Xeonw9-3495XASRockdefault:217.27items/sec

Xeonw9-3495XASRockoffset:224.64items/sec

XeonPlatinum8490H:318.93items/sec

EPYC9554:364.79items/sec

单路EPYC9554更佳。

2.2分子动力学2.2.1

使用water_GMX50数据的GROMACS(GROningenMAchineforChemicalSimulations)分子动力学包测试。此测试配置文件允许在基于CPU和GPU的GROMACS构建之间进行选择。

单路1P:结果越高越好

Xeonw9-3495XASRock350w:7.809Ns/day

Xeonw9-3495XASRockdefault:8.302Ns/day

Xeonw9-3495XASRockoffset:8.281Ns/day

XeonPlatinum8490H:8.581Ns/day

EPYC9554:9.641Ns/day

单路EPYC9554更佳。

2.2.2

NAMD是一种并行分子动力学代码,专为大型生物分子系统的高性能模拟而设计。NAMD由伊利诺伊大学香槟分校贝克曼高级科学技术研究所的理论与计算生物物理学组开发。

单路1P:结果越低越好

Xeonw9-3495XASRock350w:0.30138days/ns

Xeonw9-3495XASRockdefault:0.30487days/ns

Xeonw9-3495XASRockoffset:0.26422days/ns

XeonPlatinum8490H:0.29076days/ns

EPYC9554:0.28101days/ns

单路Xeonw9-3495XASRockoffset更佳。

2.3HPC2.3.1

这是Graph500参考实现的基准测试,Graph500是一个专注于数据密集型负载的HPC基准测试,通常在超级计算机上针对复杂的数据问题进行测试。Graph500主要强调被测硬件的通信子系统。

▲单路1P:结果越高越好

Xeonw9-3495XASRock350w:

295971000ssspmedian_TEPS

420424000ssspmax_TEPS

Xeonw9-3495XASRockdefault

299466000ssspmedian_TEPS

409817000ssspmax_TEPS

Xeonw9-3495XASRockoffset

325217000ssspmedian_TEPS

425951000ssspmax_TEPS

XeonPlatinum8490H

323231000ssspmedian_TEPS

450856000ssspmax_TEPS

EPYC9554

351607000ssspmedian_TEPS

441522000ssspmax_TEPS

单路EPYC9554性能更佳,平均TDP也更低。

2.3.2

HPCG是高性能共轭梯度,是SandiaNationalLans的一项新科学基准,与HPCC相比,它专注于使用现代现实世界工作负载进行超级计算机测试。

单路1P:

Xeonw9-3495XASRock350w:28.75GFLOPS

Xeonw9-3495XASRockdefault:25.18GFLOPS

Xeonw9-3495XASRockoffset:25.65GFLOPS

XeonPlatinum8490H:32.08GFLOPS

EPYC9554:42.81GFLOPS

单路EPYC9554性能更佳,平均TDP也更低。这里Xeonw9-3495X的3个结果有点倒置,看一下功耗就可以明白,Xeonw9-3495XASRock350w平均功耗跑到了350W,三者最高。

2.3.3

NPB,NASParallelBenchmarks,是美国宇航局为高端计算机系统开发的基准测试。此测试配置文件当前使用NPB的MPI版本。

单路1P:

EPYC9554无论在性能还是功耗已经彻底碾压Xeonw9-3495X和XeonPlatinum8490H。

2.4编译和构建2.4.1

该测试计算编译/构建LLVM编译器堆栈所需的时间。

2.4.1.1BuildSystem:Ninja

单路1P:结果越低越好

Xeonw9-3495XASRock350w:144.43seconds

Xeonw9-3495XASRockdefault:144seconds

Xeonw9-3495XASRockoffset:133.44seconds

XeonPlatinum8490H:155.92seconds

EPYC9554:117.76155.92seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.4.1.1BuildSystem:UnixMakefiles

单路1P:结果越低越好

Xeonw9-3495XASRock350w:191.92seconds

Xeonw9-3495XASRockdefault:188.75seconds

Xeonw9-3495XASRockoffset:185.56seconds

XeonPlatinum8490H:216.61seconds

EPYC9554:180.48seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.4.2

此测试计算编译Godot游戏引擎所需的时间。Godot是一种流行的开源跨平台2D/3D游戏引擎,使用SCons构建系统构建并面向X11平台。

单路1P:结果越低越好

Xeonw9-3495XASRock350w:41.66seconds

Xeonw9-3495XASRockdefault:40.56seconds

Xeonw9-3495XASRockoffset:40.3seconds

XeonPlatinum8490H@42.13seconds

EPYC9554@34.53seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.4.3

该测试计算在默认配置下构建Linux内核所需的时间。

2.4.3.1Build:defconfig

单路1P:

Xeonw9-3495X@43seconds

XeonPlatinum8490H@42.13seconds

EPYC9554@34.53seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.4.3.2build:allmodconfig

单路1P:结果越低越好

Xeonw9-3495XASRock350w:260seconds

Xeonw9-3495XASRockdefault:261.66seconds

Xeonw9-3495XASRockoffset:226.89seconds

XeonPlatinum8490H:263.29seconds

EPYC9554:185.81seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.4.4

这个测试配置文件计算了从源代码构建/编译本身所花费的时间。是一个基于ChromeV8JavaScript引擎构建的JavaScript运行时,而它本身是用C/C++编写的。

单路1P:结果越低越好

Xeonw9-3495XASRock350w:150.18seconds

Xeonw9-3495XASRockdefault:146.69seconds

Xeonw9-3495XASRockoffset:140.87seconds

XeonPlatinum8490H:174.87seconds

EPYC9554:133.20seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.5渲染2.5.1

Bler是一个开源3D创建和建模软件项目。该测试是使用各种示例文件对Bler的Cycles性能进行的测试。目前支持通过NVIDIAOptiX和NVIDIACUDA进行的GPU计算,以及用于AMDRadeonGPU的HIP和用于IntelGraphics的InteloneAPI。本次测试我们使用纯CPU进行渲染。

2.5.1.1Model:BMW27

单路1P:结果越低越好

Xeonw9-3495XASRock350w:26.75seconds

Xeonw9-3495XASRockdefault:29.48seconds

Xeonw9-3495XASRockoffset:24.86seconds

XeonPlatinum8490H:25.52seconds

EPYC9554:18.39seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.5.1.2Model:Classroom

单路1P:结果越低越好

Xeonw9-3495XASRock350w:74.33seconds

Xeonw9-3495XASRockdefault:82.41seconds

Xeonw9-3495XASRockoffset:65.42seconds

XeonPlatinum8490H:67.68seconds

EPYC9554:46seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.5.1.3Model:FishyCat

单路1P:结果越低越好

Xeonw9-3495XASRock350w:38.75seconds

Xeonw9-3495XASRockdefault:40.03seconds

Xeonw9-3495XASRockoffset:34.12seconds

XeonPlatinum8490H:36.05seconds

EPYC9554:24seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.5.1.4Model:Barbershop

单路1P:结果越低越好

Xeonw9-3495XASRock350w:304seconds

Xeonw9-3495XASRockdefault:322seconds

Xeonw9-3495XASRockoffset:268seconds

XeonPlatinum8490H:278seconds

EPYC9554:172seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.5.1.5Model:Barcelona

单路1P:结果越低越好

Xeonw9-3495XASRock350w:97.11seconds

Xeonw9-3495XASRockdefault:102.68seconds

Xeonw9-3495XASRockoffset:84.75seconds

XeonPlatinum8490H:88.96seconds

EPYC9554:58.18seconds

单路EPYC9554构建项目时间更短,平均TDP也更低。

2.6光线追踪2.6.1

IntelEmbree是一组高性能光线追踪内核,用于在CPU(和通过SYCL的GPU)上执行并支持SSE、AVX、AVX2和AVX-512等指令集。Embree还支持使用英特尔SPMD程序编译器(ISPC)。

单路1P:

这一轮解锁TDP效果卓著,Xeonw9-3495XASRockdefault直接压制Xeonw9-3495XASRockoffset以及XeonPlatinum8490H。

2.6.2

OpenImageDenoise是一个用于光线追踪的去噪库,是oneAPI渲染工具包的一部分。

英特尔®OpenImageDenoise的目的是提供一个开放,高质量,高效且易于使用的去噪库,该库可显着减少基于光线跟踪的渲染应用程序中的渲染时间。它可以滤除随机光线跟踪方法(例如路径跟踪)固有的蒙特卡洛噪声,从而将每个像素所需的样本数量减少了甚至多个数量级(取决于所需的与地面真实程度的接近程度)。一个简单但灵活的C/C++API确保该库可以轻松集成到大多数现有或新的渲染解决方案中。

英特尔®OpenImageDenoise库的核心是一组基于深度学习的高效降噪滤波器,这些滤波器经过训练可以处理从1spp到几乎完全收敛的每个像素(spp)的各种样本。因此,它适用于预览和最终帧渲染。滤镜可以仅使用嘈杂的颜色(美感)缓冲区对图像进行降噪,或者为了保留尽可能多的细节,还可以选择使用辅助特征缓冲区(例如反照率,正常)。大多数渲染器都将此类缓冲区作为任意输出变量(AOV)支持,或者通常可以轻松实现。

尽管该库附带了一组预训练的过滤器模型,但并非必须使用这些模型。为了针对特定渲染器,样本数量,内容类型,场景等优化过滤器,可以使用随附的训练工具包和用户提供的图像数据集来训练模型。

英特尔®OpenImageDenoise支持基于英特尔®64架构的CPU和兼容架构,并且可以在从笔记本电脑,工作站到HPC系统中的计算节点的任何设备上运行。它的效率足够高,不仅适合于脱机渲染,而且取决于所使用的硬件,还适合于交互式光线跟踪。

IntelOpenImageDenoise内部建立在InteloneAPI深度神经网络库(oneDNN)之上,并自动利用IntelSSE4,AVX2和AVX-512等现代指令集来实现高去噪性能。要运行IntelOpenImageDenoise,需要至少支持的CPU。

2.6.2.1_alb_

单路1P:

这个测试Xeonw9-3495XASRockdefault和Xeonw9-3495XASRockoffset以及XeonPlatinum8490H其实都差不多。表现基本一致。区别在于功耗和温度。

2.6.2.2

单路1P:

Xeonw9-3495XASRockoffset以及XeonPlatinum8490H性能一致持平。功耗上Xeonw9-3495XASRockoffset略低。

2.6.3

IntelOSPray是一种便携式光线追踪引擎,用于高性能、高保真科学可视化。OSPray构建了英特尔的Embree和英特尔SPMD程序编译器(ISPC)组件,作为oneAPI渲染工具包的一部分。

2.6.3.1gravity_spheres_volume/dim_512/ao/real_time

单路1P:

不是所有测试,解锁TDP都可以收到奇效,这个测试明显偏爱降压超频,Xeonw9-3495XASRockoffset一路压制XeonPlatinum8490H以及EPYC9554,仅次于EPYC9654。

2.6.3.2gravity_spheres_volume/dim_512/pathtracer/real_time

单路1P:

这个测试Xeonw9-3495XASRockoffset压制XeonPlatinum8490H,略输给EPYC9554。

2.6.4

英特尔OSPRayStudio是一个开源的交互式可视化和光线追踪软件包。OSPRayStudio使用IntelOSPRay,这是一种用于高性能、高保真可视化的便携式光线追踪引擎。OSPRay构建了英特尔的Embree和英特尔SPMD程序编译器(ISPC)组件,作为oneAPI渲染工具包的一部分。

2.6.4.11-4K-1-PathTracer

2.6.4.21-4K-16-PathTracer

2.6.4.31-4K-32-PathTracer

2.6.4.42-4K-1-PathTracer

2.6.4.52-4K-16-PathTracer

2.6.4.62-4K-32-PathTracer

2.6.4.73-4K-1-PathTracer

2.6.4.83-4K-16-PathTracer

2.6.4.93-4K-32-PathTracer

▲这个Intel自己写的光线追踪测试竟然一点都不黑AMD,EPYC9554仍然比Xeonw9-3495X和XeonPlatinum8490H要快。

2.7Python2.7.1PyBench2018-02-16

此测试配置文件报告来自PyBench的不同平均定时测试结果的总时间。PyBench报告了不同函数的平均测试时间,例如BuiltinFunctionCalls和NestedForLoops,这个总结果提供了对Python在给定系统上的平均性能的粗略估计。该测试配置文件每次运行PyBench20轮。

这个测试考验的就是主频高,功耗高,所以Xeonw9-3495XASRockdefault顺理成章拔的头筹。

2.7.2

PyPerformance是参考Python性能基准套件。

2.7.2.1crypto_pyaes

2.7.2.2django_template

2.7.2.3json_loads

2.7.2.4regex_compile

这个测试考验的就是主频高,其次是IPC效能高,然后是功耗高,所以Xeonw9-3495X和EPYC9374F轮流拔得头筹。

2.8金融量化交易2.8.1

QuantLib是一个围绕量化金融的开源库/框架,用于建模、交易和风险管理场景。QuantLib是用带有Boost的C++编写的,其内置的基准测试报告了QuantLibBenchmarkIndex基准测试得分。

单路1P:

这个测试EPYC9374F以高主频优势领跑

2.9压缩解压缩2.9.17-

这是对7-Zip压缩/解压缩及其集成基准功能的测试

单路1P:

AMD优势项目,核心数多评分就高

2.10国际象棋测试套件2.10.1LeelaChessZero

LeelaChessZero(lc0/lczero)是一个国际象棋引擎自动化vian神经网络。此测试配置文件可用于OpenCL、CUDA+cuDNN和BLAS(基于CPU)基准测试。

但凡涉及神经网络的计算,Intel总是会让你看到奇迹。本以为这个项目会完全是INTEL天下,结果被EPYC9374F2P双路拔得头筹。

2.10.2asmFish2018-07-23

asmFish是用Assembly编写的高级国际象棋基准测试。

典型核心数定胜负的项目

整个测试一轮走完,可以发现,

2.11CPU功耗统计

▲所有测试结束,系统统计了以下平均CPU功耗,Xeonw9-3495XASRockoffset在全程测试中成绩大部分领先于Xeonw9-3495XASRockdefault,同样功耗也比Xeonw9-3495XASRockdefault低。

2.12数据分析

对于机器学习类测试,我做了一下数据回归统计:

▲无论单路双路,IntelXeonPlatinum8490H一骑绝尘,最佳性能,单路其次是Xeonw9-3495XASRockoffset,可以发现降压超频效果明显,Xeonw9-3495XASRockdefault这种默认解功耗锁的性能在这个环节并不能得到较好的发挥,单路仅排名第四!

对于分子动力学类测试的数据回归统计:

▲单路EPYC9654最佳性能,IntelXeonPlatinum8490H只能排第三,Xeonw9-3495XASRockoffset第四,Xeonw9-3495XASRockdefault仅第五。降压超频效果在这轮同样优于解锁功耗超频。

我们接着看下A黑的IntelAPI类测试的数据回归统计:

▲这一轮即使intel再如何优化,也无法阻挡EPYC9654的单路王座,但同时,双路王座也被IntelXeonPlatinum8490H妥妥拿下,Xeonw9-3495XASRockoffset发挥神勇,直接拿下单路第二,超越了EPYC9554以及IntelXeonPlatinum8490H,而Xeonw9-3495XASRockdefault得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。

CPU渲染类得数据回归统计:

▲CPU渲染类测试一直是INTEL软肋,因为很公平,谁核心多谁主频高,谁就厉害,本轮其他结果都很公平,除了单路56核的Xeonw9-3495XASRockoffset超越了60核IntelXeonPlatinum8490H,此类测试降压超频对于IPC的提升巨大。而Xeonw9-3495XASRockdefault得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。

科学计算类测试的数据回归统计:

▲此类测试比渲染类测试更加公平,核心数权重要大于主频提升,所以单路56核的Xeonw9-3495XASRockoffset自然不是60核IntelXeonPlatinum8490H的对手,单路排名第四,而Xeonw9-3495XASRockdefault得单路排名仅仅第五。降压超频效果在这轮同样优于解锁功耗超频。

高性能计算类测试的数据回归统计:

▲此类测试一样是公平类测试,核心数权重要大于主频提升,单路56核的Xeonw9-3495XASRockoffset自然不是60核IntelXeonPlatinum8490H的对手,单路排名第四,而Xeonw9-3495XASRockdefault得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。

Python类测试的数据回归统计:

▲这类测试根本跑不满TDP,追求的是最大主频值,根据IPC效能判定,那么此轮,无论单路双路,Xeonw9-3495XASRock350w的原始性能反而是最好的,其次Xeonw9-3495XASRockdefault解锁TDP超频,再次是Xeonw9-3495XASRockoffset降压超频,然后才轮的上EPYC9374F双路。很明显,如果是Python类应用,那么Xeonw9-3495X确属不二选择。

▲对创作者而言,双路中60核心的IntelXeonPlatinum8490H要优于64核心EPYC9554,单路中56核心的Xeonw9-3495XASRockoffset要优于60核心的IntelXeonPlatinum8490H,仅次于EPYC9554,排名第三,而Xeonw9-3495XASRockdefault得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。

编译类测试的数据回归统计:

▲无论单路双路,一颗EPYC9654压制Intel全家,单路性能Xeonw9-3495XASRockoffset排名第三,仅次于EPYC9554,Xeonw9-3495XASRockdefault得单路排名仅仅第四,降压超频效果在这轮同样优于解锁功耗超频。

2.13温度分析

▲对测试全程的温度我进行了监控统计,平均温度最高的是Xeonw9-3495XASRockoffset,在56.97度,最高温度68。而Xeonw9-3495XASRockdefault平均温度在56.97度,最高温度75度。不得不说,ABEESPR360的温度压制效果是非常出色的。

3总结

1、ASRock的默认解锁功耗,在正常应用层面的效果并不好,当然也有部分测试有正面效果,大部分测试不如降压超频,部分测试甚至不如350W的原始效能。当然我也可以理解这种做法,毕竟四通道,不做点激进的操作怎么在市场去争?

2、ASRock的高端差异化设计思路有点偏激,无论ASRockRack怎么说,既然W790拿过来做,就要做八通道,你做个四通道,难道让ASRockRack去做八通道版本?

3、BMCIPMI是灵魂,不要只看到眼前的那么点GAMING市场,因为它很快会持续缩小,做WS或者Server主板一定要去做BMCIPMI,连ASUSPROWS都意识到这个问题的重要性了。ASRockRack产能不够的时候,一样会用ASRock去交单。IPMI+TB4差异化不就出来了吗?

4、做PCIEX16插槽布局一定要考虑7槽位,你甚至可以只做四条出来,但请一定要考虑到双槽涡轮卡上四张,本作的槽位只能满足三张双槽涡轮卡,这就很不合理,但凡多卡还是会优先考虑2张或者4张可以NVLINK的卡,比如TESLAA10080GB,或者QUADROA600048GB,抑或RTX3090Blower24GB,这些都是需要双卡NVLINK的,所以设计的时候就要考虑4张双槽卡的占位问题,因为这类客户四卡一定会上两组NVLINK!RTX4090或者QUADROA6000ADA这种不支持NVLINK的卡,他的选择面反而宽很多,什么主板都能上。挂着WS的名头就要做WS的事情,不要挂着WS名头心里想着GAMING。玩GAMING的人配一台PC5W到头了,但是CDN的玩主一张TESLAA10080G就是10万了。

4、因为AI计算的热点爆开,现在11槽的机箱越来越多了,其实在主板的底部可以设计STX的侧向PCIE槽,可以插入一块转接子卡,将PCIEX16拆分X8X8或者X4X4X8,这种操作,在服务器主板领域很常见,通过这种操作就可以让主板的PCIE插槽得到扩展,或者用户自己用软排线也可以完成拓展,这又是一个差异化的体现。用户可以在全塔8槽机箱里使用四卡,也可以在11槽的机箱使用5卡。

5、ASRockW790WS虽然有诸多的小缺点,但不失为一块优秀的主板,TB4+双10G电口网卡++wifi的配置豪华大气上档次,性能稳定,在测试中也可以看到即使四通道的性能,也足以和8通道的IntelXeonPlatinum8490H叫板,这个产品能让GAMING玩家和CREATOR看看满满的诚意,但是在我看来ASRock还能做的更好,更完美。

感谢观看!