对于一系列行业标准机器学习基准,类似于CPU的规范基准,旨在进行强烈的愿望,以比较相对解决方案。在过去的两年里,一个开放式工程联盟的MLCommons一直在讨论和披露其MLPERF基准,用于培训和推理,主要的财团成员随着该系列测试得到精致的培训数。今天我们看到MLPerf推理v1.0的完整推出,以及〜2000结果进入数据库。除此之外,还披露了新的MLPerf功率测量技术,用于提供这些测试结果的额外元数据。

今天的结果都集中在推理中 –经过训练的网络进入传入的看不见数据的能力。该测试围绕许多机器学习区域和模型试图代表更广泛的ML市场的模型建立,以同样的方式试图捕获常见的CPU工作负载。对于MLPerf推论,这包括:

  • Resnet50-V1.5上的图像分类
  • 使用SSD-RESTET34对象检测
  • 与3d unet的医学图像分割
  • 与rnnt的语音到文本
  • 用伯特语言处理
  • 具有DLRM的推荐发动机

结果可以提交到多个类别,例如数据中心,边缘,移动或微小。对于数据中心或边缘,它们也可以提交到‘closed’类别(具有相同参考框架的苹果苹果)或‘open’类别(任何事情,峰值优化)。提交的指标取决于单流,多个流,服务器响应或脱机数据流。对于那些跟踪Mlperf’S进度,基准集与V0.7相同,除了要求所有DRAM必须是ECC和稳定状态,最短地运行稳定状态。必须为使用的数据类型(INT8,FP16,BF16,FP32)声明运行结果。基准测试旨在在CPU,GPU,FPGA或专用AI芯片上运行。


nvidia a100

到目前为止,已经向Mlperf提交结果的公司是一系列供应商,OEM合作伙伴和MLCommons成员,如阿里巴巴,戴尔,千兆字节,HPE,Inspur,Intel,联想,Nvidia,Qualcomm,Supermicro和Xilinx。这些玩家中的大多数都有大量多套接字系统和多GPU设计,具体取决于他们的目标是通过结果编号推广的市场。例如,Qualcomm在数据中心类中使用两个EPYCS和其云AI 100卡的5个系统产生了一个系统,但它还将数据提交到边缘类别,其中AI开发套件具有Snapdragon 865和其云AI的版本硬件。


Qualcomm..'s Cloud AI 100

这款推出的最大提交者Krai开发了一个用于MLPerf推理V1.0的自动测试套件,并在覆盆子PI,NVIDIA等多个低成本边缘设备上运行基准套件’S Jetson和Rockchip Hardware,都有和没有GPU加速。因此,克莱在今天提供了一半的结果(1000+)’s tranche of data.  将其与中心进行比较,这为其即将推出的Cha Ai协处理器提供了少数数据点。

因为不是每个系统都必须在那里运行每个测试’S不是提供的基准号码。但是考虑到其中一个数据点,我们可以看到到目前为止提交的结果的规模。

在Reset50上,精度为99%,运行脱机数据集:

  • 阿里巴巴’S云中山平台(两个Xeon 8269cy + 8x A100)在INT8中均可在每秒上划分1,077,800个样品
  • Krai.’S Raspberry Pi 4(1x Cortex A72)在INT8中每秒均得出1.99个样品

显然某些硬件会更好地使用语言处理或对象检测,并且可以在MLCommon看到所有数据点’s results pages.

毫克PERF推理权力

V1.0的新角度是电源测量元数据。与规范合作,MLPerf已采用行业标准规范PTDAEMON电源测量接口作为任何提交的可选数据加载项。这些是系统级度量,而不是简单的芯片级别,这意味着额外的控制器,存储,存储器,电力传递以及其中的效率都朝着提交的数据测量计算。

毫克PERF提供具有5倍高价云AI 100卡的千兆字节服务器的示例,在离线测试期间平均598 W,每秒1777.9查询。允许提交者在提交细节中提供额外的电源数据,例如处理器电源,但只有系统级电源将成为官方提交过程的一部分。

今天提交的数据点大约800个’列单附带电源数据。再次,他们中的大多数来自克莱。

可以找到完整的结果 毫克Commons.网站.

相关阅读

发表评论

2评论

查看所有评论

  • Raqia. - 2021年4月21日星期三 - 关联

    他们是否有更多的指标或基准,更为导向到管道的训练方面,您是否会将这些推理测试中的任何一个纳入Anandtech'S基准套件? (在权力中考虑时,有趣的推断结果:似乎是高通'S的解决方案脱颖而出为Perf / W.) 回复
  • yojimbo. - 2021年4月21日星期三 - 关联

    他们这样做,但那些在不同的时间释放。最新一轮的培训基准是0.7 HPC培训基准11月17日发布的0.7个HPC培训基准。在我的眼睛里'没有太多的:劳伦斯·伯克利与富士通相比,Xeon Phi在训练中展示了多么糟糕,富士通展示了V100在Fugaku的A64FX ARM处理器上的培训,以及瑞士超级计算中心的训练是如何过时的P100为了训练。

    最新的正常培训基准是7月29日发布的0.7个基准。 //mlcommons.org/en/training-normal-07/
    我读到了在3个月内的1.0培训结果的某处。

    至于Qualcomm'S推理结果,它只提交了两个模型的结果。已发布的结果仅在Reset-50中显示其在Perf / W中的解决方案,这是一个相对较小的CNN。我的猜测是它并不是'T脱颖而出,在较大和非CNN模型中脱颖而出。
    回复

登录

没有帐户? 立即注册