07:58 PM EDT. - 首先谈论GPU会话来自NVIDIA,在A100性能和安培架构上

08:00 PM EDT. - 开放问题如果他们会谈论HPC以外的环境,但本次会议也是关于“游戏”,所以你永远不知道

08:02 PM EDT. - 英特尔的John Sell,前微软是会议主席

08:03 PM EDT. - 来自NV的杰克Choquette

08:03 PM EDT. - A100:54-56B晶体管

08:03 PM EDT. - 6912 CUDA Cores

08:04 PM EDT. - 1.6 TB / SEC HBM2带宽

08:04 PM EDT. - 弹性GPU,用3rd gen nvlink缩放

08:04 PM EDT. - 总体上的v100改进了2x-7x

08:05 PM EDT. - 下一个张核心核心

08:05 PM EDT. - 更高效,改善了稀疏性的平台

08:05 PM EDT. - 增加L1,异步数据移动

08:05 PM EDT. - 对V100的性能隆起

08:06 PM EDT. - ieee for fp64 matmul

08:06 PM EDT. - 使用A100 POD的Mlperf记录

08:06 PM EDT. - A100也主导了每芯片性能

08:06 PM EDT. - 甚至赢得未发布的筹码

08:07 PM EDT. - Strong scaling

08:07 PM EDT. - DL strong scaling

08:08 PM EDT. - 每层都是平行化的 - A100为密集FP16为2.5x

08:08 PM EDT. - A100目标强大的缩放

08:08 PM EDT. - 固定大小网络

08:09 PM EDT. - Tensor Core支持更多数据类型

08:09 PM EDT. - FP32现在使用TF32操作,支持稀疏数据的20倍改进

08:10 PM EDT. - 基于算法要求,增加A100数据带宽增加

08:10 PM EDT. - 每小时每小时6k字节,用于稀疏

08:10 PM EDT. - 提高速度和饲料,效率

08:11 PM EDT. - A100使用32线纹体核心来减少所需的指令

08:11 PM EDT. - 绕过寄存器文件的新装载全球 - 商店共享复制

08:11 PM EDT. - 3x在L1 BW中,2倍发电帽

08:11 PM EDT. - 2x efficiency

08:12 PM EDT. - 持续流动提高利用率

08:13 PM EDT. - A100无法扩展V100 - L2内存带宽不会跟上

08:13 PM EDT. - 具有横杆的新分割L2 - BW超过V100增加2.3x

08:14 PM EDT. - 将数据视为SM附近,减少L2的延迟

08:14 PM EDT. - 数据重用对于保持利用率至关重要

08:14 PM EDT. - 由于缓冲支持增加,1100 FP16超过V100

08:14 PM EDT. - 更大而智能智能L2

08:14 PM EDT. - L2支持持久数据

08:15 PM EDT. - 全球记忆原子

08:15 PM EDT. - 缓冲区分区

08:15 PM EDT. - DRAM BW改进,1.7倍超过V100

08:15 PM EDT. - ECC SECDED

08:15 PM EDT. - 40 GB HBM2的1.25倍容量超过V100

08:16 PM EDT. - 计算L2缓存内的数据压缩 - 提供容量节省。即使整体perf尚未增加,也可以节省BW

08:17 PM EDT. - 600 GB / s NVLink,每个GPU的12倍25GB链接

08:17 PM EDT. -2-3x在perf中的原始AI改进

08:17 PM EDT. - 现在弹性GPU进行扩展和扩展

08:18 PM EDT. - 这是DGX100 - 8 A100x和2罗马CPU

08:18 PM EDT. - NVSwitch和Pex交换机与200g NIC

08:18 PM EDT. - 跨多个DGX系统可扩展

08:19 PM EDT. - SuperPod是叶子和脊柱,用于1K GPU POD(20 DGX100S)

08:19 PM EDT. - 140* DGX 100 nodes

08:19 PM EDT. - 单独的存储网络

08:19 PM EDT. - 模块化设计允许配电

08:19 PM EDT. - 新的多实例GPU

08:20 PM EDT. - 允许单个A100上的7 GPU实例以获得更好的利用率

08:20 PM EDT. - 伊恩:'为什么当一个A100会做25 T4 GPU时?

08:20 PM EDT. - 允许每个GPU训练或推断的多个客户端

08:21 PM EDT. - Mutli-User环境中的完整QoS支持

08:21 PM EDT. - Async programming

08:23 PM EDT. - 编程模型可帮助清除开发人员的复杂性,并提高易用性以及性能

08:23 PM EDT. - 您希望始终始终复制数据并同时使用数据

08:23 PM EDT. - 但编程本质上是线性和同步的

08:24 PM EDT. - 新的异步算法

08:24 PM EDT. - ISO C ++ 20屏障

08:24 PM EDT. - 非阻塞屏障

08:25 PM EDT. - 异步数据移动

08:26 PM EDT. - 分裂和到达

08:26 PM EDT. - 难度正在维持吞吐量

08:27 PM EDT. - 创建双缓冲区数据和计算管道

08:27 PM EDT. - 已针对A100优化的大型内核库

08:29 PM EDT. - Q&A time

08:30 PM EDT. - 问:A100使用的电压是多少?答:不确定运输电压是否可以在白皮书中

08:31 PM EDT. - 问:用横杆拆分l2 - 这是否会引入延迟变化?答:它没有,但它确实均衡由于数据局部性引起的所有分裂区域。 L2击中最终延迟变化

08:32 PM EDT. - 问:缓存带来了什么改进?答:应用依赖 - 有些大,有些小。 BW有助于L2命中的频率高,并且由于设计,延迟也降低。我们有展示的基准,A100 VS V100

08:32 PM EDT. - A:模块是从早期的48V

08:33 PM EDT. - 问:一个大的L3帮助吗?答:我们有,它是从DRAM的容量和BW之间的折扣。我们发现具有更大的L2然后剩下的请求更有利于进行DRAM。 L3添加另一层层次结构 - 如果它没有得到足够的命中,它将消耗异常的电力

08:34 PM EDT. - 问:压缩在哪里发生?哪种类型?答:它发生在L2 - 数据被写入L2,随着释放发生,我们将重新压缩回L2。我们对不同类型的数据进行了多种类型的压缩,例如密集VS稀疏技术。

08:35 PM EDT. - 问:NVLink CPU到GPU吗?答:我们宣布的系统就是他们所在的。不会对未来可能有可能的任何东西发表评论。

08:36 PM EDT. - 问:TF32 VS BF16的优势吗?答:TF32在FP32上运行,采取FP32输入处理,几乎没有精度损耗。比以FP32为止并播放到FP16。它有助于TF32由于Matissa长度而转换。

08:36 PM EDT. - 结束谈话 - 下一个谈话是英特尔Xe!

发表评论

9评论

查看所有评论

登录

没有帐户? 立即注册