Original Link: //www.zamiclub.com/show/15995/hot-chips-2020-marvell-details-thunderx3



今天是一部分 Hotchips 2020. 我们看到Marvell终于揭示了关于他们新的Thunderx3 Server CPU和四川快乐12开奖结果微架构的微架构的一些细节。公司宣布存在的存在 新服务器和基础设施处理器在3月回来并且现在能够分享更多具体规范,了解内部CPU设计团队如何承诺将自己与ARM服务器市场的迅速增长的竞争区分开来。

我们有 2018年回顾了Thunderx2 –在那年晚些时候,在设计和团队获得设计和团队之前,仍然是捕气产品。从那以后,ARM服务器生态系统已经跳动 - 开始于ARM’S NeoVerse N1 CPU四川快乐12开奖结果和伴侣设计如来自 亚马逊 (Graviton2)安培 (Altra),一个完全不同的情况和AMD’在市场上的成功回归,景观很大。

Marvell.开始使用其产品的路线图,详细说明Thunderx3代尚未出现’T仅仅只是一个设计,但实际上代表了一种使用多个模具的灵活方法,第一代60芯CN110xx SKU使用单芯片作为2020年的单片设计,明年看到96核的释放释放了96四川快乐12开奖结果双重 - 模具变体旨在实现更高的性能。

使用这样的双芯方法非常有趣,因为它代表了完全单片设计之间的中点,以及来自诸如AMD的供应商的小芯片方法。这里的每个骰子都是相同的,即它可以独立使用作为独立产品。

从Soc-Perspective中,雷霆3芯片缩放最多60个四川快乐12开奖结果,2芯变体缩放最多可达96.看到这些数字时,在思想中遇到的第一件事是为什么2芯片变化不变’T缩放到完整的120-cores- marvell didn’在谈话期间涵盖这一点,但演示文稿中有一些线索。

Marvell.在等功率水平下,雷霆2的性能提高了2-3倍。后者的TDP为180W–如果TX3保持该热封,那么这将意味着双模设计必须将TDPS增长到高达360W,这远远超出了在功率密度方面可以在典型的服务器形状因子和机架中冷却的。假设只是一个宣传的线性切割到96个四川快乐12开奖结果’d最终左右288W–这与当前的高端服务器CPU部署更符合无水冷却。当然–这就是我们自己的分析和获取问题。

单一模具支持8个DDR4-3200通道,这是该一代服务器产品的标准,基本上符合市场上的其他人。 I / O明智,我们看到了64个PCIe 4.0车道的披露–这再次与竞争对手一致,但一半的安培或AMD可以实现的高端替代品。

现在一个大未知的是双模产品将如何分割I / O和内存控制器–如果这将是两个死亡之间的资源的50-50分裂,或者我们是否’LL看到一个不平衡的设置–或者,如果平台实际上可以从每个模具处理完整的资源并将其自身变为16通道128车道野兽?

主要ARM服务器CPU的比较
  Marvell.
ThunderX3
110xx
斗篷
ThunderX2
9980-2200
安培
Altra
Q80-33
亚马逊
Graviton2
工艺技术 台长
7nm
台长
16 nm
台长
7 nm
台长
7nm
模具类型 单片

或者

双模MCM
单片 单片 单片
微架构 氚龙 vulcan. neoverse n1(ares)
四川快乐12开奖结果 60(1芯)
Swiched 3x Ring

96(2芯)
32
Ring bus
80
Mesh
64
Mesh
线程 240(1芯)
384 (2 Die)
128 80 64
最大限度。插座数量 2 2 2 1
基频 ? 2.2 GHz - -
涡轮频率 3.1 GHz 2.5 GHz 3.3 GHZ 2.5 GHz
L3缓存 90MB 32 MB 32 MB 32 MB
德拉姆 8渠道
DDR4-3200
8渠道
DDR4-2667
8渠道
DDR4-3200
8渠道
DDR4-3200
PCIe车道 4.0 x 64.
(1 Die)
3.0 x 56. 4.0 x 128. 4.0 x 64.
TDP. 〜180W(1芯)
(unconfirmed)
180W 250 W 〜110-130W
(unconfirmed)

至少在纸上,Thunderx3似乎与亚马逊非常相似’S GravitOn2,它们都共享类似的CPU核和类似的存储器和IO配置。一个人可以立即指出的差异是Thunderx3在其CPU四川快乐12开奖结果中使用SMT4,因此每芯片最多支撑240个线程。那里’S也是一个TDP差异,但我将其归因于GravitOn2,保守时钟频率,而安培’S skus更符合Thunderx3,特别是 64核3.0GHz 180W Q64-30 作为规格中最接近的匹配。

另一件突出的霹雳3是矮人的90MB的L3缓存,Dwarfs前一代的32MB以及Ampere和Amazon的32MB配置。

Marvell.在这里选择了自己的互连微体系结构,现在已经从一个简单的环形设计演变为带有三个子环或列的开关环。环形挡块由带有4个四川快乐12开奖结果的CPU瓦片和3MB缓存的两个L3切片组成。这使得具有15个环路(3x5列)的全芯片和总L3高速缓存的完整60四川快乐12开奖结果90MB,这是一种相当优雅的量。

在Q.&一场会议,Marvell透露了它们对开关环形拓扑的基本原理与单环,或网格设计是单环MORNN’在较高的四川快乐12开奖结果计数下,T已经能够扩展性能和带宽。网格设计将是一个很大的变化,并且需要减少四川快乐12开奖结果计数。交换环代表了两种架构之间的良好折衷。实际上,如果这是一个使Marvell包括最多3倍的缓存与最近的竞争对手,它似乎是一个不错的选择。

我注意到的一个奇怪的是,系统仍在使用基于侦探的一致性算法,与行业中的其他基于目录的系统相反。这可能会降低实现复杂性和区域,但可能会在芯片的功率效率和一致性流量方面滞后。

内存控制器挖掘戒指和Marvell’S间插槽/模具CCPI3接口在此处提供高达84GB / s的带宽。



TRITON CPU四川快乐12开奖结果 - 来自瓦坎的演变

继续前进到四川快乐12开奖结果水平,我们看到了Marvell上的第一个披露’S新的Triton CPU微架构。设计是雷霆的演变’S ulcan四川快乐12开奖结果与公司扩大了很多四川快乐12开奖结果的方面,无论是在前端和后端。

从四川快乐12开奖结果的前端侧开始,我们看到了一些非常重大的变化’几乎看过四川快乐12开奖结果中大多数结构和带宽的字面翻倍。指令缓存从32KB到64KB增加了一倍,现在源进入8妻子获取单元,也是前一代的双倍。

很像Arm.’S最近的微架构,这是一种新的解耦装置,允许更好的节能。解码单元在宽的8条指令下匹配获取带宽–实际上与IBM的Power10四川快乐12开奖结果一起代表行业中最广泛的解码器,这是非常令人惊讶的。

在中芯中,我们看到解码单元进入Marvell呼叫的内容“Skid buffer”,这基本上是一个环路缓冲器,其被分段为每螺纹32个微型操作,进一步分为八个四个微型op捆。它’四川快乐12开奖结果的稀有结构之一,在螺纹之间静态分区,它代表微体系结构的前端和中芯之间的边界。

主四川快乐12开奖结果的最有趣和令人困惑的部分是四川快乐12开奖结果的这一部分,虽然四川快乐12开奖结果的获取和解码单位是8宽的,但在SPID缓冲区中的8宽,微型操作和重命名单元并被调度到四川快乐12开奖结果的后端只发生在每时4微型操作。所以这里似乎似乎发生了什么,玛维尔正在利用一个非常广泛的前端设计,不实际喂养大型后端,而是为了更好地隐藏在更宽的管道泡沫“bursts”.

调度到四川快乐12开奖结果的后端,我们会看到继续使用一个全球统一调度程序,以为7个执行端口。在调度级,我们’看到从60到70个条目的略微增加。

四川快乐12开奖结果的无序窗口略微增加,例如从180到220条目的重新订购缓冲区(Rob)。

在执行端口上,大变化是添加了一个能够提供ALU指令和第二个分支端口的第四个执行管道,这意味着我们’在简单的整数ALU执行吞吐量中看到33%的增加和四川快乐12开奖结果的分支转发的加倍。除了这些改进之外,所有四个执行管道都以FP / SIMD功能扩展,意思是在那里’现在是这些指示的吞吐量的代理翻倍,使得Triton四川快乐12开奖结果是罕见的4x128B机器之一。

在四川快乐12开奖结果的内存子系统部分,随着我们不相对较小的改进’T似乎具有微架构的主要高级变化。我们仍然看到两个负载商店单位和存储数据单元,每个单位馈送的带宽为16个字节/周期,并从32KB L1数据缓存中获取数据。负载和存储队列的深度增加,分别增加到64到80个条目,以及用于商店的36到48个条目。

四川快乐12开奖结果’S L2也从256kb增加到512kb,但Marvell’在这里的措辞在此变化中很有趣,因为他们说它只增加了区域和延迟“轻微的增量性能效益”,这听起来很令人失望。我们’LL在下一个幻灯片中看到这意味着2.5%。

硬件预取器非常简单,与您的传统的下一行,步幅和基于地区的设计拉到L2中。

总体而言,世代IPC的新四川快乐12开奖结果总和在Specint中最多30%,并且Marvell慷慨地让我们概述了新的四川快乐12开奖结果’S功能以及每个都占总改进的账户:

在结构侧增加的情况下,最大的改进是由于中芯的较大的ooo增加,虽然增加了Weren’T所有那大,代表了5%的IPC改进。这似乎是一个相当好的权衡与其他一些结构的结构,例如L1i和L2缓存增加,只有0.5%和2.5%的好处。

前端’从4到8的倍增和更广泛的解码只占性能的仅2%的改善,这是非常驯服的性能,但可能会给狭窄的中芯调度和相对狭窄的执行后端进行瓶颈。

IPC的最大改进是由于解码器中减少了微型op扩展–Marvell在这里表示,在这方面,在这方面,他们在霹雳淀粉四川快乐12开奖结果扩展到多个微型行动方面,他们已经过于侵略性,所以它们’ve显着减少了这一点,这可能减轻了中芯的瓶颈,并导致每个实际指令更好地回复利用。

我们的代理绩效改进占IPC增益以及频率收益,我们’RE期望在标本中看到1.5倍的增益。鉴于我们在TX2上的历史数字,通过这些预测,我们应该预期TX3以越高左右10%。

由于新的设计,所示的增益自然高于2.5倍。’四川快乐12开奖结果四川快乐12开奖结果的较高四川快乐12开奖结果计数进一步放大了微体系结构的改进。



SMT4细节 - 每核四个线程

让雷声阵容从竞争中脱颖而出的事情是它包含4路SMT,这意味着每个四川快乐12开奖结果可以执行最多4个线程。

 

从操作系统中查看每个线程作为完全独立的CPU,每个CPU都有自己的独立ARM架构状态,共享绝大多数四川快乐12开奖结果’S Resources Bar一个非常少数异常,例如上述SkID缓冲区。

微架构一直是多线程的,但Marvell继续重新占SMT的区域影响,并披露它只有大约需要四川快乐12开奖结果的5%。

该公司进一步详述了其SMT的一些机制,例如其仲裁机制之间的线程。在获取阶段,例如,四川快乐12开奖结果将选择目前具有四川快乐12开奖结果最少的指令的线程’S管道,确保在螺纹之间平衡管道的微型操作和指令的数量。我们在调度阶段看到类似的逻辑,并将管道下游最少的指令的线程从滑动缓冲区中挑出。

后端没有线程概念,只需首先执行最古老的微型操作。在优先考虑到最多备份退休指令的线程,发生退休。

Marvell.表示,此线程仲裁在大多数代码上都很好地运行,并且线程之间的执行延迟非常统一。

SMT可以带到表的加速与给定工作量的IPC反向相关,这意味着低IPC工作负载将看到SMT的最大改进。描述这一点的其他方法是数据平面中心工作负载,其对执行的数据具有高延迟更适合通过SMT隐藏这些瓶颈和四川快乐12开奖结果的空闲周期。

低IPC工作负载,如数据库,请参阅IPC的相当大的增益和4个线程达到最多2倍的性能。具有较小数据占用空间的IPC工作负载将显示对IPC的更多有限效益。

将其转换为套接电路级性能,我们看到一个很大的缩放,最多可缩放60个四川快乐12开奖结果,这基本上是处理器的物理四川快乐12开奖结果计数,以及更常见的缩放到240线程。从60到240线程的性能增加了大约60%,这是一个很好的增益,考虑到SMT4对Marvell的极低影响’s cores.

当被问及Thudnerx3如何定位在竞争对手时,Marvell表示,针对英特尔基于英特尔的产品,公司将在单线性能略微滞后,但将提供更大的多线程吞吐量。针对AMD(我们假设罗马),TX3据说在单线程性能方面表现更好,AMD在具有低数据共享的工作负载中的emp,尽管TX3在具有更多数据共享(如数据库应用程序)的工作负载中做得更好。 Graviton2被认为是一个非常好的芯片,尽管它提供了低频和没有穿线支撑,所以那些是TX3将更好的区域。

总的来说,TX3似乎是当前服务器空间中的固体候选者,但我不 ’觉得它非常区分,除了它提供SMT支持的事实。我觉得是CPU’S微架构仍然非常狭窄,虽然IPC改进是好的,但Marvell也比Arm释放之间的释放时间明显更长。在这方面,这里只略微击打格雷诺2’T似乎足够,我确实预期基于Altra的设计更快。

We’LL必须看看Thunderx3如何以性能和功率效率最终结束,但除了能够充分利用SMT的Dataplane繁重的工作负载之外,我觉得这可能是玛维尔舒适竞赛的舒适竞赛。对于消费者和企业来说,它’令人兴奋的是,这意味着我们’LL在不久的将来拥有一大吨可行的选择。

相关阅读:

登录

没有帐户? 立即注册