发表评论

109评论

回到文章

  • 备忘录 - 2021年3月15日星期一 - 关联

    谢谢你的优秀评论团队Anand! 回复
  • Ballsystemlord. - 2021年3月15日星期一 - 关联

    实际上,这是伊恩和安德烈,而不是安德尔做了审查。一世'm not joking, he'曾经在这个网站上工作的真正人: //www.zamiclub.com/print/1635/ 回复
  • Velanapontinha. - 2021年3月15日星期一 - 关联

    他没有解决Anand。他正在加盟"team Anand"这一点方式意味着"人民实际上在安南德工作" 回复
  • Ballsystemlord. - 2021年3月15日星期一 - 关联

    我在想一个人(Anand)团队。 ;)
    我应该得到了他所说的话。
    回复
  • 哥派 - 2021年3月15日星期一 - 关联

    忠诚!因为什么时候是一个人的人...... 回复
  • 大盒子 - 2021年3月16日星期二 - 关联

    他没有'得到那个。一定错过了"team" 回复
  • PLONK420 - 2021年3月22日星期一 - 关联

    是的,他有点太兴奋了别人别人 回复
  • sharma_ji. - 2021年3月17日星期三 - 关联

    曾经工作过的人 - 哈哈

    他是CO创始人哈哈
    回复
  • 赫扎俄罗斯 - 2011年3月18日星期四 - 关联

    绝对没有'认为评论潜伏会让我今天感到古老。哈哈 回复
  • 备忘录 - 2021年3月15日星期一 - 关联

    我知道我的英语是一个"lil"粗糙在边缘,但我得承认,我没有'T看到这些评论来了!哈哈。 回复
  • - 2021年3月16日星期二 - 关联

    那's "team Anandtech"但是从网站由一个人完成的时代。
    我曾经读过汤姆'S硬件,然后它和Anandtech(我认为2000年之前的某个时候,该网站于1997年开始),然后只有Anandtech。
    许多优质的硬件信息,即使在第一个网站上有时涵盖杀毒和一些其他软件。
    考虑到整个历史,除了Anand以外的评论者是最近的现象:)
    回复
  • 曼霍克 - 2021年3月15日星期一 - 关联

    我想知道AMD是否会再次加入120 W CPU - EPYC罗马有4个CPU,只有4个带宽的4个内存通道,但具有较低的TDP,包括EPYC 7282。 回复
  • Zanon. - 2021年3月15日星期一 - 关联

    他们确实有一个EPYC嵌入式(3000系列)线'S仍然是ZEN 1.也许他们'LL将其移动到ZEN 3和那个'低于TDP的东西会去哪里? 回复
  • Foeketijn. - 2021年3月15日星期一 - 关联

    是的,它'S羞耻于那些类型的部分没有'真的很受到关注。它'S真的很棒,你可以在2U服务器中获得128个核心和256个线程,但如果您只需要20 VM'S在超级稳定平台上运行,16个螺纹和50瓦足够。 回复
  • spunjji. - 2021年3月19日星期五 - 关联

    我相信他们'将该分段留给罗马 回复
  • Powermar. - 2021年3月15日星期一 - 关联

    ARM将成为在这个空间观看的技术,特别是NVIDIA'■即将到来的重量。 回复
  • Theinsanegamern. - 2021年3月15日星期一 - 关联

    2014年被称为并希望其预测。 回复
  • Powermar. - 2021年3月15日星期一 - 关联

    安培阿尔特拉回应了电话,但目前正在订婚。 回复
  • 曼霍克 - 2021年3月15日星期一 - 关联

    It'没有像令人震惊的"Linux on the Desktop":服务器上的ARM实际上是获得立足点,特别是对于云主办的公司来说。

    虽然x86-64将在很长一段时间内 - 武装可能(并且可能会)获得一个很好的市场,但几十年来,它不会严重威胁X86-64。

    严重缺乏手臂的一件事是测试东西的一些工作站。安培emag基于古代硬件,覆盆子pi isn't差别几乎相同,我'我没有把安培altra放在我的桌子上。
    回复
  • 曼霍克 - 2021年3月15日星期一 - 关联

    安培altra *服务器*即。一世'd喜欢用CPU获得一个系统,但在境界定价"Let's用它的修补程序并试试吧" along with "Let'S不冷却它,用15000 + RPM 40mm粉丝". 回复
  • kgardas. - 2021年3月15日星期一 - 关联

    Avantek提供一些工作站作为更静默的解决方案: //www.avantek.co.uk/ampere-emag-arm-workstat... -- I'LL将价格选择留给您... 回复
  • 曼霍克 - 2021年3月16日星期二 - 关联

    是的,但阿南德克是旧科技: //www.zamiclub.com/show/15733/ampere-emag-s... 回复
  • - 2021年3月16日星期二 - 关联

    "在服务器上的手臂实际上是脚跟"
    他们赢得了一些利基,并从那里扩张。
    我不'认为他们有足够的工厂能力来建立他们可以销售的所有处理器(特别是AMD是能力有限,英特尔是显然的 - 产量有限)。
    回复
  • spunjji. - 2021年3月19日星期五 - 关联

    在介入7年中,它只变得更加明显,作为一种可能性。除非你'拒绝否认AWS的存在'严重投资这一生态系统...... 回复
  • Wilco1 - 2021年3月21日星期日 - 关联

    是的,Graviton已经是AWS的14%,仍然快速增长。 回复
  • 囚犯 - 2021年3月15日星期一 - 关联

    手臂预测可能是好的,但不是nvidia,他们'不太可能获得批准。 回复
  • Crazyeyeskillah. - 2021年3月15日星期一 - 关联

    NVIDIA对ARM改进没有影响。他们只是通过与GPU配对自定义ARM服务器来寻求采取英特尔和AMD。 回复
  • yojimbo. - 2021年3月15日星期一 - 关联

    NVIDIA可以有带有自定义手臂芯片的服务器,而不购买手臂。 回复
  • yojimbo. - 2021年3月15日星期一 - 关联

    通过指向这一点,我的意思是NVIDIA无意将英特尔或AMD从等式中取出。他们希望他们的GPU与任何CPU一起使用。问题是英特尔和AMD可能服用NVIDIA'S GPU出来的等式。 回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    请不要'T油漆为受害者。他们不是。所有这些家伙都必须相互支持,以便可预见的未来,并且纯粹是务实的原因。 回复
  • 牛津人 - 2021年3月15日星期一 - 关联

    他们不是'guys'. They're公司。公司被发明,以引用Ambrose Bierce,Grant'个人利润没有个人责任'. 回复
  • mode_13h. - 2021年3月17日星期三 - 关联

    没有分歧,但我'm略微冒出沮丧,你决定用你的术语发出问题"guys". I'我会努力,下次 - 只是为你。 回复
  • Chavv. - 2021年3月15日星期一 - 关联

    是否可以添加另一个"benchmark" - ESX服务器工作负载?
    喜欢,运行8-16-32-64 VM,带有一些工作负载......
    回复
  • 和 rei frumusanu - 2021年3月15日星期一 - 关联

    和我们一样'重新修改我们的服务器测试套件,我'LL正在研究更多不同的基准。它'很长的过程需要很多思想和可能的资源'并不总是显而易见的。 回复
  • eva02langley - 2021年3月15日星期一 - 关联

    只需购买EPYC并开始杂交和您对单个供应商的依赖...... 回复
  • eva02langley - 2021年3月15日星期一 - 关联

    编辑:只需购买EPYC并开始杂交并停止您对单个供应商的依赖...... 回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    你们应该真的包括一些涉及多个工作负载<= 16核/ 32线程VM,可以突出显示NPS4模式的性能优势。即使您所做的只是将系统分区成较小的VM,至少是Multithread Spec 2017测试,至少这将是*的*。

    那 said, please don't摆脱了所有系统范围的多线程测试,因为我们肯定仍然希望看到这些系统刻度(单级和多CPU)的尺度如何。
    回复
  • 我应该 - 2021年3月15日星期一 - 关联

    是的,这对我的需求似乎更有用。我们使用网格系统进行工作提交,并非所有核心都会同时敲打 回复
  • 非省限 - 2021年3月15日星期一 - 关联

    我们何时认为这将可用于订购?同样想知道Ice Lake SP可用性,但似乎是'很难确定。 回复
  • Sarahkerrigan. - 2021年3月15日星期一 - 关联

    看起来很体面,虽然价格和TDP增加使它看起来不那么吸引力,而不是否则它会的高度吸引力。我想,重复使用两代过程的同一过程。

    将成为Altra Max的比较非常有趣。
    回复
  • PLB4333 - 2021年3月15日星期一 - 关联

    不'甚至必须与之相比'max'一定。没有最大的altra仍然是竞争者。 回复
  • Wilco1 - 2021年3月21日星期日 - 关联

    绝对来,米兰和阿尔特拉几乎与Specint的快速一样快(Altra Wins 1s,米兰赢得2s,均由〜1%)。 Altra Max将明确的答案,以及是否最好有128个线程或128个核心。 回复
  • ECC_OR_GTFO. - 2021年3月15日星期一 - 关联

    为什么赢'T AMD让我们安全启动他们的CPU?除了在这一点上隐藏后门,外部没有有效的论点。 回复
  • JFROMIMAGINSTUFF. - 2021年3月15日星期一 - 关联

    大多数Linux Distros对安全启动不好,这就是这些天最严重的事情 回复
  • JFROMIMAGINSTUFF. - 2021年3月15日星期一 - 关联

    *这些天服务器 回复
  • 牛津人 - 2021年3月15日星期一 - 关联

    我认为EPYC包含AMD'S额外的黑匣子CPU。那些有足够大的钱包可以让那种功能强调的功能,因为中国据报道为禅宗1科技交易? 回复
  • mode_13h. - 2021年3月17日星期三 - 关联

    It'据说是ARM Trustzone,对吗? 回复
  • Linustechtips12#6900XT. - 2021年3月15日星期一 - 关联

    我明白那个"zen"架构是对于x86,但随着修改可以移植到ARM指令集,就像我看到的那样,它绝对可能是真正的问题是过渡时真的开始我思考理论禅修第五届Gen或第6个Gen,Theres特别是与苹果特别有很多胳膊。是的,它将巧妙地启动它总是这样的服务器。 回复
  • 戈麦斯汉德 - 2021年3月15日星期一 - 关联

    工作中真的有两件事:处理器的指令集及其拓扑。 AMD一直在改善两者。指令集增强赢得了't转移得非常好,但拓扑肯定可以。由于ARM处理器要小得多,它们可能在每个或16个核心中有32个核心和4路SMT的32个核心。这可能是一个非常令人印象深刻的服务器处理器。四个小芯片将给出64个核心和256个线程。哎呀! 回复
  • rahvin. - 2021年3月15日星期一 - 关联

    太错了。 回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    它可以重复使用它(在相同的制造节点上,至少),但制作真正竞争的臂芯片可能会涉及与管道阶段的一些严重修复&建筑学。你有x86芯片的重要部分'D必须抛出和重做,最值得注意的是指令解码器。

    总而言之,它'你是一个不同的核心'谈论。不喜欢CPU与GPU差异差异,但它'很多不仅仅是化妆品。
    回复
  • 编码器543. - 2021年3月15日星期一 - 关联

    "对于此启动,16核F和24-Core F都具有相同的TDP,因此我能够考虑AMD在16核处理器上具有更高价格的唯一原因是它每小芯只有2个核心活跃,而不是三个?也许它更容易用偶数核心活动的处理器。"

    如果我推测,我会强烈猜测实际原因是许可。 AMD知道更多的人会想要16个核心CPU,以适应某些软件许可的括号,因此可以为最大化16个核心部件的利润和可用性最大限度地收取更多费用。对于那些客户来说,搬到24个核心处理器可能意味着对他们的任何软件来说都是显着的*更多're licensing.
    回复
  • Sarahkerrigan. - 2021年3月15日星期一 - 关联

    是的。

    英特尔出售四核Xeon E7'S出于类似的原因令人印象深刻的价格。
    回复
  • Mikewind Dale. - 2021年3月15日星期一 - 关联

    为什么不能'您在24核心CPU上运行16个核心软件许可证吗?我在8个核心ryzen上运行了4个核心许可版本的stata mp。 回复
  • ithaqua. - 2021年3月15日星期一 - 关联

    遵守和诉讼。
    你 have to pay for all the cores you use for some software.

    是的,如果你'只有在你的8核心ryzen上运行4个核心,那么你的精致但stata mp正在使用所有8,可能存在诉讼。

    现在为你我'm sure they wouldn'小心。对于具有10,000多台机器的更大公司,那么'S将成为一个大诉讼。
    回复
  • 阿拉希 - 2021年3月17日星期三 - 关联

    所有核心的一些许可证,无论您实际使用多少核心。 回复
  • Casper42. - 2021年3月15日星期一 - 关联

    I'D真的很想看到你们所有测试A 7543比较75F3比较。
    如果该芯片的每个线程性能(第8页)可以击败7713,那么VMware环境可能是一个很好的选择,其中人们想要坚持单一许可/插座,而不需要野兽75F3
    回复
  • Casper42. - 2021年3月15日星期一 - 关联

    PS:我认为它也会有助于4月,我希望你也希望测试多个32C产品。 回复
  • Olaf Van der Spek - 2021年3月15日星期一 - 关联

    为什么不'当使用像桌面零件时只使用一个或两个核心时,这些部件增加到4.5 - 5 GHz? 回复
  • 我应该 - 2021年3月15日星期一 - 关联

    希望也能得到这个答案 回复
  • - 2021年3月16日星期二 - 关联

    基本上如果您在50%的装载中有三个服务器,请关闭一个,现在只能为75%负载运行的两个服务器提供电源。
    空闲服务器将消耗100+瓦特(高空闲功率不是服务器场的问题) - 因此,通过在75%的服务器与三个以50%的时间运行,您基本上可以节省100瓦。
    (在许多情况下,服务器农场实际上是电力 - 即电能输送或冷却限制)。
    回复
  • coschizza - 2021年3月15日星期一 - 关联

    稳定 回复
  • 乔才 - 2021年3月15日星期一 - 关联

    可能与热量+可靠性有关 - 在数据中心调用它的一堆服务器刀片填充到机架中。加上他们正在运行24/7。加上冷却系统ISN '通常与桌面上的强大一样(成本为运行)。底线是服务器部件倾向于在较低时钟的桌面零件上运行,以便混合所有这些原因。 回复
  • targon. - 2021年3月15日星期一 - 关联

    服务器处理器不是工作站,它们不适用于微小的工作负载,其中一时可能只有一些事情。如果您想要更多核心,但希望使用像工作站的机器,则您将Go ThreadRipper。 回复
  • Yeeeeman. - 2021年3月15日星期一 - 关联

    非常强大的tbh .. 回复
  • Ballsystemlord. - 2021年3月15日星期一 - 关联

    你 expected? AMD has been overwhelming for years now, give them some slack. They can't do it every year. 回复
  • eva02langley - 2021年3月15日星期一 - 关联

    你 probably looking at the blue lines (Intel)... just saying... 回复
  • targon. - 2021年3月15日星期一 - 关联

    与什么相比?核心计数不增加,但与ZEN2相比,ZEN3仍然是IPC的巨大改进。 回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    我们可以希望他们找到一些微码修复程序来改善功率分配,也许中期刷新更新的I / O模具。 回复
  • spunjji. - 2021年3月19日星期五 - 关联

    多么令人惊讶,英特尔Fanboy是不起眼的。 回复
  • Wilco1 - 2021年3月21日星期日 - 关联

    It'实际上是一个令人印象深刻的改进。然而米兰正在获得电力和内存带宽限制。它将需要一个新的过程和DDR5来实现更大的性能。 回复
  • Ballsystemlord. - 2021年3月15日星期一 - 关联

    拼写和语法错误:

    "随着第一代那不勒斯推出,它提供了令人印象深刻的一些性能数字。"
    保守词:
    "随着第一代那不勒斯推出,它提供了一些令人印象深刻的绩效数字。"

    "所有这些处理器都可以用于双套接字配置。"
    "used" not "use":
    "所有这些处理器都可以用于双套接字配置。"

    "......我认为这些是芯片作为更好的苹果到苹果代比较,......"
    "two" not "to":
    "......我将这两台芯片视为更好的苹果到苹果代比较,......"

    "总有改进的余地,但如果AMD用一个好的IO更新下一代,..."
    丢失的"s":
    "总有改进余地,但如果AMD用一个好的IO更新下一代,..."
    回复
  • eva02langley - 2021年3月15日星期一 - 关联

    如果事业不'那时候买epyc,它就应该得到英特尔CPU的所有问题。 回复
  • otritus. - 2021年3月15日星期一 - 关联

    米兰'S io死真的似乎是这些CPU的阿基尔脚跟。也许AMD应该将线路分离为优越的记忆性能,并具有米兰IO模具和卓越的计算性能(但劣等功能)罗马IO死亡。 回复
  • targon. - 2021年3月15日星期一 - 关联

    ZEN4生成将使移动到DDR5内存,因此新的内存控制器,插座和其他方面。此外,随着时间的推移,与全球铸造的合同,他们为AMD提供了多少。正如现在所处的那样,使用全球完全履行合同,避免支付任何早期终止费用。 回复
  • - 2021年3月16日星期二 - 关联

    台积电仍然无法制作足够的小芯片(我认为它的生产售出到2023年)。
    使用Global Foundry IO DIES表示AMD可以制作一个8 + 1而不是8个处理器(或4 + 1而不是4)。
    回复
  • Lejeczek. - 2021年3月15日星期一 - 关联

    但那些altra q80-33 ... gee guys。我一直在考虑一段时间 - 下一次升级架子中的堆栈也可能是...... 回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    好吧,如果它在与工作量对齐的基准中确实很好,那么我'D当然考虑至少一个CPU Altra。 IIRC,多CPU互连是其弱点之一。如果你,你甚至可以去双CPU'重新配置适合单个CPU的VM(或更好,只需一个象限)。 回复
  • pin - 2021年3月15日星期一 - 关联

    此过滤器何时向螺纹拖车? 回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    可能在3000系列螺纹拖车的需求开始时开始滑动或者当Zen3的供应时赶上捕获。

    看看可以从这些CPU中提取哪些性能,如果AMD会提高电源/热限制,则会有趣的是另外100 W.也许5000系列TR PRO将成为我们发现的机会!
    回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    有人请提醒我为什么altra'S内存性能是如此强大。它只是为了避免缓存写入错过罚款吗?一世'm很肯定x86 cpus长期添加了商店缓冲区来修复它,但我可以'T考虑任何其他令人难以置信的流基准差异的解释! 回复
  • 和 rei frumusanu - 2021年3月15日星期一 - 关联

    It'S由于新代N1核心能够动态地将任意内存写入非时间写入流,而不是在写入之前进行常规RFO,因为X86系统当前正在进行。我在Altra评论中解释更多:

    //www.zamiclub.com/show/16315/the-ampere-al...
    回复
  • mode_13h. - 2021年3月15日星期一 - 关联

    那'我还记得或更少,但你知道吗?'S *真的*发出非颞型商店?部分绕过部分或全部缓存层次结构(我似乎还记得奔腾4实际上只是将它们限制为一组L2缓存)。对于CPU来说,它似乎将令人难以置信的深度分析来确定问题中的核心't在替换之前访问数据。然后'甚至没有谈论确定是否在*其他*核心上运行的代码可能需要它。

    另一方面,如果它只是具有足够的写缓冲,则可以避免通过累积足够的相邻商店来获取目标高速缓存来确定整个高速缓存将被覆盖。当然,下行将是一个微小的写入延迟,以及内存排序约束(尤其是x86)可能意味着它'd仅为连续地址组的连续存储组工作。

    我猜一种消除这些限制的一些方法是通过分析一组商店覆盖Cacheline的指令流来观察,然后发出分配而不是获取。也许那个'什么是阿尔特拉在做什么?
    回复
  • 和 rei frumusanu - 2021年3月16日星期二 - 关联

    你'重新复杂复杂的东西。核心只是看到流模式并切换到内扑写入。在纯粹的写模式下,它们可以完全饱和内存控制器。 回复
  • mode_13h. - 2021年3月17日星期三 - 关联

    但是,你知道他们吗?'真正的非时间写作?作为我've试图解释,有些方法可以避免错误的惩罚而不使用真正的非时间写入。

    你是多少,你推断出与你的东西'从官方或非官方来源被告知?
    回复
  • 和 rei frumusanu - 2021年3月20日星期六 - 关联

    It'S 100%的非时间写入,由硬件测试和架构师确认。 回复
  • mode_13h. - 2021年3月20日星期六 - 关联

    好的,谢谢你与他们确认。 回复
  • mode_13h. - 2021年3月20日星期六 - 关联

    It'自从你以后,不是用测试确认的最简单的事情'D必须沿着作家落后并观察一个应该在缓存中的写作't. 回复
  • cebeddoe. - 2021年3月15日星期一 - 关联

    I'm excited by AMD'■继续设计改进。
    能'等待看到下一个节点缩小的发生了什么。英特尔有一些追赶。
    回复
  • Ppietr. - 2021年3月16日星期二 - 关联

    有人可以解释所有包装的功耗如何高于实际核心所做工作的功耗吗? 回复
  • spunjji. - 2021年3月19日星期五 - 关联

    因为I / O模具在较旧的14nm过程上运行,并且正在提供所有核心。在64核心CPU中,I / O模具的每核功率使用小于2W。当然,仍然太多,但在背景下看起来不是淫秽,当你看看总权力时。 回复
  • 埃尔斯塔尔 - 2021年3月16日星期二 - 关联

    毫不犹豫,我真的很欣赏"编译一个大c ++项目"基准(即LLVM)。谢谢! 回复
  • spunjji. - 2021年3月16日星期二 - 关联

    "为此,我们必须将米兰比较英特尔的级联湖Xeon可扩展平台,与我们比较罗马的平台是相同的平台。"

    真的说明了这一切。良好的工作AMD,以及为团队欢呼审查!
    回复
  • hifihedgehog. - 2021年3月16日星期二 - 关联

    Sysadmin:RAM?罗马?

    AMD :米兰,亲爱的,米兰......
    回复
  • 伊万阿根廷斯基 - 2021年3月16日星期二 - 关联

    恭喜为每核的性能更深入!对于许多企业买家来说,这是最多的(仅限?)重要的指标。我怀疑,在这方面,8核心72f3实际上是最好的第3届Gen Epyc!

    但要更好地理解这一点,我们需要更多的测试和每核比较。我建议比较:
    *所有电流AMD快/频优化CPU - EPYC 72F3,73F3,...
    *以前的Gen AMD快速/频率CPU,如EPYC 7F32,...
    *英特尔频率优化CPU,如Xeon Gold 6250,6244,...

    重要的公制是全核性能的全部*持续*负载。

    探索AMD EPYC第3 Gen的动态TDP也是一个有趣的选择。例如,我非常好奇地配置72F3,而不是默认为180W。
    回复
  • 和 rei frumusanu - 2021年3月20日星期六 - 关联

    如果我们获得更多的skus来测试,我'll be sure to do so. 回复
  • 阿里诺科 - 2021年3月16日星期二 - 关联

    谢谢你的优秀文章Andrei和Ian。真的很感激你的工作。

    只是想知道,Johan在服务器评论中不再inlvolved?一世'll really miss him.
    回复
  • 和 rei frumusanu - 2021年3月20日星期六 - 关联

    约翰不再是的一部分。 回复
  • Sanx. - 2021年3月16日星期二 - 关联

    总之,性能9 VS 8(米兰VS罗马)的差异意味着它们是相等的。不是一个特定的应用程序,它显示超过这一点。这么多个月的炒作和blahblah这么多。 回复
  • tyger11. - 2021年3月16日星期二 - 关联

    好的,现在给我们新的Zen 3 ThreadRipper Pro! 回复
  • Ausmatt. - 2021年3月17日星期三 - 关联

    Page 4文本:"a 255 x 255 matrix" should read: "a 256 x 256 matrix". 回复
  • HMW. - 2021年3月19日星期五 - 关联

    米兰CPU的踩踏是什么? B0?或b1? 回复
  • mkbosmans. - 2021年3月20日星期六 - 关联

    这些核心间同步延迟图略微误导,或者至少不代表"real software"。通过将用于系统中的第一个核心的缓存行修复,然后将其介于其他内核之间,您不测量核心核心延迟,而是核心到高速缓存到核心,如图所示文章。这不是线程间通信通常如何工作(在设计精心设计的软件中)。
    将缓存线分配给一个ping-pong线程中的一个本地的内存将使绘图更有信息(虽然有点镗孔)。
    回复
  • mode_13h. - 2021年3月20日星期六 - 关联

    您是否说单个内存地址用于核心X核心的所有组合?

    最终,我想知道它是否有任何差异,该地址在内,这是一个如此的基准。一旦它's in L1 cache, that's what you'无论物理内存地址都要测量。

    此外,我提出了核心到核心通信必然涉及其中一个核心内存的建议's numa域。很多情况,现实世界软件受到核心到核心延迟的影响,涉及全球互斥责任和赢得的原子计数器't necestary是核心的本地。
    回复
  • mkbosmans. - 2021年3月20日星期六 - 关联

    是的,否则SE象限(插座2到套接字2通信)会看起来与NW象限相同,右图?

    它对地址的Numa节点有关,这正是关于Xeon的文章稍后在有一个更好的缓存一致性协议中解决的内容,其中这是一个问题。

    从软件方面,我更多地思考HPC应用程序,其中交换其中一个拥有的数据的线程是常态,例如,使用OpenMP或MPI。这确实是与全球互斥罪的争用不同的情况。
    回复
  • mode_13h. - 2021年3月20日星期六 - 关联

    MPI在*共享内存域中的通信*多久一次?我倾向于几乎完全地作为节点间通信的解决方案。 回复
  • 和 rei frumusanu - 2021年3月20日星期六 - 关联

    这是非常不正确和误导的。

    我的事实'm使用缓存行在第三个主线程上生成,由于从硬件透视图,CPU没有与实际比较无关的第三主线程与真实世界的比较无关'知道哪个线程拥有它 - 在测试中,硬件刚刚看到两个核心使用该高速缓存行,第三主线程在讨论中完全无关紧要。

    使用分配同步缓存行的主入门线程保证的东西是它在测量中保持静态。一个人没有't实际上有控制在整个CPU的相干域内的那里,它's将最终以特定的L3缓存切片依赖于CPU'S地址哈希定位。这里的方法只是保持定位始终相同。

    没有核心核心延迟的东西,因为核心不直接窥探,它们越过作为L3或互连的一致性域。它's始终是核心到缓存的核心,还有其他任何东西'甚至从硬件角度存在。
    回复
  • mkbosmans. - 2021年3月20日星期六 - 关联

    原始线程可能与它无关,但是肯定是缓存行最初分配的NUMA域。否则如何将插座1的第一象限与插座1通信和第四象限用于插座2通信的第一个象限之间的差异如何解释到插座2通信的第四象限?

    您的解释,用于确定L3缓存切片的地址散列可能是有意义的,谈论在L3域内修复初始线程,但不是为什么您希望将L3域固定到系统中的第一个,无论放置如何两条线做平面睑。

    关于核心核心延迟,你当然是对的,这是我的邋lex的措辞。我的意思是传达的是,当Cacheline是一个核心且不远程的核心且不远程时,核心 - Cacheline-Core和Back之间的往返潜伏更相关(至少用于HPC应用程序),甚至可能比两个线程在另一个套接字上,可能是一个核心。
    回复
  • 和 rei frumusanu - 2021年3月20日星期六 - 关联

    我不'得到你的观点 - 唐'The The Nultn Intha. The the notel'您的兴趣您 - 这些系统仍然能够在两个套接字上都在单个NUMA节点中工作,因此它'在如何工作的方式方面仍然非常有效。

    I'm不会将其固定到系统中的给定L3(除了该套接字之外),绑定线程不会'T告诉硬件以某种方式粘贴到那里的高速公路,软件有零所说的。当您在结果中看到它'能够在不同的L3之间移动's和ccxs。英特尔在套接字和Numa域之间移动(或镜子它),所以您的前提也在'在这种情况下正确,AMD目前可以'因为可能他们不'T有一种方法来决定两个远程CCX之间的最新所有权。

    人们可能希望只看本地套接字号,如果它们优先考虑,此处仅仅揭示了进一步的更复杂的方案,我发现他们展示了平台之间的基本缓存一致性差异。
    回复

登录

没有帐户? 立即注册