发表评论

46评论

回到文章

  • Texwiller. - 2020年6月22日星期一 - 关联

    我会't称这些加速度卡。 PCIe车道在那里连接到本地IO和管理,例如,不是主CPU。 回复
  • Sarahkerrigan. - 2020年6月22日星期一 - 关联

    确实。那里'没有主机 - 整个软件堆栈本身在A64FX节点上运行。这是100%的CPU,无加速器系统。 回复
  • 耶歇尔少世 - 2020年6月22日星期一 - 关联

    我认为作者可能会让这些与NEC极光卡混淆。 回复
  • 耶歇尔少世 - 2020年6月22日星期一 - 关联

    不整体,但在那一刻。一世'm assuming it'现在已经编辑了(完美)! 回复
  • 伊恩蝉联 - 2020年6月22日星期一 - 关联

    任何东西都是't立即称为CPU I自动默认到加速卡。我的错,它's been updated. 回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    它听起来像每个芯片有4个核心,它像主机一样行动。 回复
  • eastcoast_pete. - 2020年6月22日星期一 - 关联

    谢谢伊恩! isn.'这个新超级计算机的关键差异之一就是前5位的大多数其他电脑'T依赖于GPU的加速器速度?这使得设置就像Fugaku一样广泛使用,至少据我所知或被告知。 回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    如果SVE没有'T有车道间操作,然后我不'T看到它与GPU的材料不同。为了得到良好的表现,你'重新将要像一个一样编程。 回复
  • eastcoast_pete. - 2020年6月22日星期一 - 关联

    大学教师't不同意,除了这个设置实际上可以运行aren的程序'T专门为GPU(或宽SVE)编写,基于加速器的系统通常根本无法。而且,至少根据知悉这么多的人比我更好,需要一个适合有限的程序(GPU型或SVE)的程序(和问题)可以是您想要的真正的猴子扳手解决问题的解决方案很快。此外,即使它可以完成,将计算方法定制计算方法是多长时间?我可以看到如何通过使用超级计算机的时间来节省的时间通过延迟再次频繁地进行食用。 回复
  • 耶歇尔少世 - 2020年6月22日星期一 - 关联

    这种布局的主要优点是FPU应该可以访问CPU寄存器。与缓存相同,以与其余的执行资源相同的速度。

    此外,希望较少的上下文转换罚款(或失败的分支罚款)而不是传统的GPU。
    回复
  • thetrashcanisfull. - 2020年6月22日星期一 - 关联

    但是SVE * DO *具有泳道间(SHUFFLE / PREMUTE)指令;富士通如何实施这些指令(流水线或微码)仍然是一个打开的问题,但SVE确实支持它们。 回复
  • name99 - 2020年6月22日星期一 - 关联

    当然,SVE有车道间操作!人们在哪里拿起这个废话?

    显然它具有通常的缩减,但它还具有各种标准化的洗牌,概括为长度不可知(例如交错)和TBL(表查找)指令,这是一个(并且只达到我所知)不长的指令 - 如果您需要通用惯例并愿意向该特定机器代码而且没有其他任何东西,则在那里。
    回复
  • mode_13h. - 2020年6月23日星期二 - 关联

    我说"if"根据假设他们试图用它做纯粹的SIMD,以便尝试与GPU竞争。这是第一词。没有理由你可以't see it there.

    我想GPU唐'T支持行程间操作,因为它们可以涉及大量硅,用于大型矢量。不简单的交织,但水平算术和任意洗牌等事情。
    回复
  • Dolda2000 - 2020年6月22日星期一 - 关联

    你肯定可以争辩说,SIMD单位是GPU的,但是是的,它'S一个均匀的建筑。它'真的很好,真的很好'甚至在本年度中甚至试图,我真的希望它对他们效果很好。一世'M也很好奇实际差异真正的差异是与Xeon Phi(纸上的纸上非常相似,每个核心非常相似),为什么他们希望这更好地锻炼。更好的IntetConnect? 回复
  • nft76 - 2020年6月22日星期一 - 关联

    节点由现代标准(仅3.4 TFLOPS和32 GB内存)薄,因此互连真的必须是好的。大量仿真将在大量节点上传播,并且会有很多MPI通信。 回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    关于Xeon Phi:究竟。在我看来他们'基本上依靠卓越的ISA的益处,但它'S仍然不会在自己的游戏中击败GPU。 回复
  • thetrashcanisfull. - 2020年6月22日星期一 - 关联

    我认为互连以及更广泛的系统拓扑是它的重要组成部分。我也认为,更容易比较可能是IBM'S(现在古代)Blue Gene-Q处理器:一种具有集成的许多端口网络的许多核心处理器,缩放到带有未开关的(对等)网络拓扑的大型节点计数,并且(相对)低每节点电源使用。 回复
  • 耶歇尔少世 - 2020年6月22日星期一 - 关联

    很酷。我觉得默克尔尚不开心'T在Thunderx3中为他们的4x128 FPU进行了SUT路线。富士通追求这一点有具体原因吗?或者这是一个灵活的ISA延伸,基本上(帮助?)将富士通远离垂死(但公开)SPARC ISA? 回复
  • Sarahkerrigan. - 2020年6月22日星期一 - 关联

    s为富士通提供给他们在他们的专有HPC-ACE ISA中的功能;回到霓虹灯将是一个大规模的回归。我也希望霹雳X4将成为能力的。 Marvell表示,SUSE支持可能会发生在未来。 回复
  • 耶歇尔少世 - 2020年6月22日星期一 - 关联

    我想这是我问题的症状:鸡肉或鸡蛋? 回复
  • Sarahkerrigan. - 2020年6月22日星期一 - 关联

    富士通有自己的编纂者和分析/优化,开始;其余的将随着生态系统的发展而遵循。例如,ePI公告中的迹象表也会有能力的安全性。华为'S服务器CPU RoadMap还包括未来SVE的微架构。 回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    可能是因为他们意识到试图在自己的游戏中击败GPU是傻瓜'差事。查看我的其他评论(下面)关于福冈'与峰会相比,较差的电力效率。 回复
  • Sarahkerrigan. - 2020年6月22日星期一 - 关联

    在Linpack更糟糕的是。你有没有看过HPCG的差异?今天早上在TOP500演讲中讨论了一下。 回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    Bravo用于管理更糟糕的TFLOPS / W而不是一款基于3岁技术(18.13 vs.19.89)的机器。
    / s.

    但是,当然这将是这种情况。通用CPU本质上效率低于GPU。
    回复
  • Sarahkerrigan. - 2020年6月22日星期一 - 关联

    尽管如此,A64FX系统是迄今为止列表上最有效的CPU系统。那's not half bad. 回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    当然,AARCH64比X86-64更有效,我'll grant them that.

    也是,行长>> AVX-512. So, that'另一个点对他们有利。
    回复
  • 关闭 - 2020年6月22日星期一 - 关联

    作为整个系统'仍然是3倍功率的性能3倍。几乎相同的功率/ tflop。这些核心的效率似乎与功率和NVIDIA核的组合相同。 回复
  • mode_13h. - 2020年6月23日星期二 - 关联

    再次,你'与尖端的3岁技术进行比较。所以,"几乎相同的力量/ tflop"不是一件好事。

    通过我所引用的数字,峰会燃烧只有91.1%的每吨次数。那's significant.
    回复
  • eastcoast_pete. - 2020年6月22日星期一 - 关联

    不仅仅是效率的一半不足,而且还有很多多功能。现在我能'任何这些计划,但是由使用超级计算机(或刚刚的分数,精确)的人被告知有很多情况'实际上非常希望拥有"just"整整一堆真正强大的CPU实例为程序。我也认为,当他们委托Fugaku时,这是riken的一个指定目标之一。 GPU和NPU加速器可能非常有效,但它们更有限于他们可以做的事情。我自己,简单的思想解释就是这样'为什么我们在PC中仍有CPU; DGPU在其任务中快得多得多,但CPU可以做些什么可以为其进行编程。否则,为什么要打扰CPU? 回复
  • Zizy. - 2020年6月22日星期一 - 关联

    这些天仅其他CPU系统使用哪些其他CPU系统?有一些IBM'在过去的项目中,这是最近HPC的处理器,所以它自然是最好的。 回复
  • sur - 2020年6月22日星期一 - 关联

    只有2.5倍的性能仅需2.8倍。 回复
  • nft76 - 2020年6月22日星期一 - 关联

    只需Linpack性能计算TFLOPS / W,提供了一个相当侧面的视图。在HPCG Fugaku中,峰值的两倍多是峰会(假设与HPL中的类似功耗;他们不'似乎在HPCG中提供电力使用)。 回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    还是你'与旧科技进行比较。真正的测试将是看它如何与nvidia进行比较'■A100,似乎更加擅长处理稀疏性等事物。 回复
  • nft76 - 2020年6月22日星期一 - 关联

    nvidia.'S自己的A100安装包含在列表中 '没有比使用V100在HPCG中的计算机更好(实际上,HPCG与峰值性能的比率似乎有点差)。

    那说,Fugaku'S HPCG到峰值比率高也与其他CPU系统相比,所以也许是'更像自定义互连对于问题非常好。
    回复
  • 一人团 - 2020年6月22日星期一 - 关联

    作为另一个比较点,Fugaku也是Graph500列表的顶部(相当多),oak ridge峰会甚至只提交了一个仅限CPU运行。我不't看到任何GPU遍历,最接近的匹配是一些基于Knl的系统和中国Sunway机器,有自己的自定义关键词等同物。据说,新的A100 GPU应该在图表中更好,但它'非常讲述架构灵活性,没有GPU提交迄今为止。

    基于提交中使用的Fugaku的节点和核心数量,它仅使用一半超过一半的完整超级计算机。
    回复
  • mode_13h. - 2020年6月22日星期一 - 关联

    >他们非常热衷于让超级计算机上升并运行以协助r&d尽快 - 当他们开始工作时,服务器机架在官方前面的面板上没有。

    Oooo,Scandalous!他们怎么敢!
    回复
  • Quadibloc. - 2020年6月22日星期一 - 关联

    那'S每芯片约3.77 Teraflops的FP64,这确实很好。 回复
  • USHIO01. - 2020年6月22日星期一 - 关联

    所以,如果富士通正在使用ARM CPU'S for Supercomputers这是否意味着他们已经废弃了SPARC的发展? 回复
  • eastcoast_pete. - 2020年6月22日星期一 - 关联

    从我记得的那样,是的,那'很多故事。 Fujitsu开发了这款芯片,以便与SPARC进行后续行动;它可能没有'在扼杀多年后,甲骨文终于杀死了SPARC。 回复
  • Andrew_waite. - 2020年6月22日星期一 - 关联

    ARM基于,所以BBC Micro用几个钟声和吹口哨:-) 回复
  • yenaothothuman. - 2020年7月7日星期二 - 关联

    HM,如果存储器服务,BBC MICRO使用像NE一样的MOS 6502 回复
  • name99 - 2020年6月22日星期一 - 关联

    你不't think it'SAIGIFADER,您可以将相同(LINPACK)性能/瓦特作为GPU,但在系统上's a much more "traditional"架构(即更容易进入端口,更容易匹配各种不同的算法)?

    它在第二点开始:Linpack,即密集的线性代数,众所周知是这种机器的可怕度量 - 如果你想要的是密集的线性代数,你可以在专用硬件上进行更好的更好(那是'为什么每个人都在添加TPU's到他们的设计......)。
    更有趣的是表现的事情'没有那么微不足道。富士通越来越靠近IBM / NVIDIA结果的4.6倍。他们大致他们'revers比IBM / NV更有效"generic" code.
    回复
  • 罗宾夫 - 2020年6月23日星期二 - 关联

    该系统中最重要的方面是其HBM(高带宽内存) - 广泛,非常快,与快速存储芯片的连接。这些需要物理接近CPU芯片。该系统中没有DIMM。

    快速搜索我没有'T在HBM上查找任何具体详细信息,但此页面每12(或13个)核心的两个HBM芯片图片: //www.reddit.com/r/Amd/comments/9vyd1h/intel... .

    数十年来大多数计算的主要内存带宽是最大的瓶颈,其他可以用GPU完成。

    该设备是否具有单个内存空间,或者进行12(13)个核心的四象限,每个都有自己的空间。如果是前者,那么将存在大延迟和带宽限制访问其他三个象限的HBM芯片中的数据。如果是前者,那么程序可用的总RAM是由两个HBM芯片的大小设置的。

    任何人都可以指出Fugaku在港区的更多细节?
    回复
  • 化名 - 2020年6月29日星期一 - 关联

    四个CMG(核心存储器组)连接到8GIB HBM芯片。
    //www.hpci-office.jp/invite2/documents2/ws_m...
    回复
  • Burntmybacon. - 2020年6月24日星期三 - 关联

    是的,据我所知,单板电脑在典型的商业空间或甚至的专业行业中并不是常见的。一世 've实际上只遇到了超级计算空间,航空电子设备和少数其他嵌入式系统场景。我可能会犯同样的错误。 回复
  • 庭院 - 2020年6月28日星期日 - 关联

    因此,刚刚实现了EXAFLOP计算 - 嗯,无论如何,单精度(FP32)计算。并且仅用于峰值性能,而不是最大持续的。 回复

登录

大学教师't have an account? 立即注册