主页 > 发布关于 >主打深度学习 NVIDIA 推出 Tesla P100 加速器

主打深度学习 NVIDIA 推出 Tesla P100 加速器

归属:发布关于 日期: 2020-06-15 作者: 热度: 111℃ 637喜欢
NVIDIA 宣布推出史上最先进的 NVIDIA Tesla P100 GPU。NVIDIA Tesla 加速运算平台的生力军 Tesla P100,打造出能提供媲美数百个 CPU 伺服器节点运算效能的新一代伺服器。目前的资料中心利用其拥有巨大的网路基础架构与众多互连商用 CPU 伺服器处理网路服务等大量工作,然而却无法因应下一代的人工智慧和科学应用项目,那需要超高效率和光速般处理速度的伺服器节点才能处理。

Tesla P100 採用全新 NVIDIA Pascal GPU 架构与五项突破性技术,提供无与伦比的运算效能表现和效率以处理极为需要运算能力的应用项目。

NVIDIA 公司共同创办人暨执行长黄仁勋先生表示:「我们在科学和科技上最大的难题,像是寻找治疗癌症的方法、了解气候变迁的情况、打造智慧的机器等,都需要极致的运算效能。我们从零开始设计 Pascal GPU 架构,从各个层面採用创新的技术,让运算效能和效率方面出现突飞猛进的进展,帮助最聪明、最有才华的人士推动科学、科技的未来发展。」

主打深度学习 NVIDIA 推出 Tesla P100 加速器

IBM 研究院认知解决方案部门资深副总裁 John Kelly III 博士表示:「随着我们进入崭新的运算时代,便需要对根本的技术发展出全新的方法以完全发挥人工智慧和认知技术的优势。透过结合 NVIDIA GPU 与 OpenPOWER 技术,早已加快 Watson 学习新技能的速度。如今 IBM 的 Power 架构与 NVIDIA 的 Pascal 架构,再加上 NVLink 技术,将更进一步提高处理认知相关工作的表现,促进人工智慧产业的发展。」

五项架构突破技术
Tesla P100 的五项架构突破技术提供极为出色的效能、扩充能力和编程效率:

· NVIDIA Pascal 架构大幅提升运算效能:与前一代採用 NVIDIA Maxwell 架构的解决方案相比,採用 Pascal 架构的 Tesla P100 解决方案在训练神经网路方面的效能表现提升了12倍。
· NVIDIA NVLink 技术让应用程式拥有最大的扩充能力: NVIDIA NVLink 高速 GPU 互连技术将应用程式的运算範围扩大到多个 GPU 上,频宽较目前同级最佳解决方案速度提高5倍1。 NVLink 最多可互连8个 Tesla P100 GPU,使得单一节点发挥最高应用效能,而 IBM 已在其 POWER8 CPU 上採用 NVLink 技术,以求在 CPU 与 GPU 间能快速传递资料。
· 16奈米 FinFET 拥有优秀的省电表现: Pascal 架构 GPU 採用 16 奈米 FinFET 製程技术製造出的153亿个电晶体,为全球史上最大的 FinFET 晶片2,这样的设计提供最高运算速度和最佳省电表现,以处理有着近乎无止尽运算需求的作业负载。
· CoWoS 技术搭载 HBM2 记忆体以处理巨量资料作业负载 : Pascal 架构将处理器和资料纳入单一封装中以提供卓越的运算效率。创新的 Chip on Wafer on Substrate (CoWoS) 记忆体设计技术搭载 HBM2 记忆体,在记忆体频宽表现方面比Maxwell 架构提升了3倍 (每秒 720GB)。
· 崭新的人工智慧演算法拥有亮眼的尖峰运算效能表现 :全新半精度指令拥有出色的 21 TFLOPS 深度学习尖峰运算效能表现。

Tesla P100 GPU 加速器将多项高性能运算 (HPC) 与深度学习应用项目的效能提升到新的境界,包括比起48个双插槽 CPU 伺服器节点,AMBER 分子动力学程序搭配 Tesla P100 GPU 能加快在单一伺服器节点上的运行程度3;在训练热门的 AlexNet 深度神经网路时,得要250个双插槽 CPU 伺服器节点才能媲美8个 Tesla P100 GPU的效能4;而广泛使用的天气预报应用程式 COSMO 在8个 Tesla P100 GPU 上运行的速度,比在27具双插槽 CPU 伺服器上运行的速度还要更快5。

Tesla P100 是首款能分别为双精度和单精度运算效能提高5与10 TFLOPS 的加速器,大幅提高处理能力和多个领域研究工作的发现时间。

NVIDIA SDK 更新项目
NVIDIA 亦宣布为全球最强大的 GPU 运算开发平台 NVIDIA SDK 推出更新项目。

这些更新项目包括 NVIDIA 平行运算平台的最新版本 NVIDIA CUDA® 8,让开发人员能直接取得 Pascal 强大的新功能,包含统一记忆体架构和 NVLink。在更新项目里还有一项全新的图形分析函式库 nvGRAPH,可用于机器人的路径规划、网路安全和物流分析,将 GPU 加速技术的应用範围扩大到巨量资料的分析领域。

NVIDIA 还宣布用于深度神经网路的 GPU 加速基本函式库 cuDNN version 5。cuDNN 5 加入支援 Pascal GPU、加快用于视讯和顺序数据之递迴神经网路的运算速度,以及额外加强在医疗、石油天然气等产业的使用情况。cuDNN 技术加快多个居领导地位的深度学习架构运算速度,包括 Google 的 TensorFlow、加州大学柏克莱分校的 Caffe、蒙特娄大学的 Theano 和纽约大学的 Torch,而这些在背后成为 Amazon、Facebook、Google 等网路巨擘採用的深度学习解决方案。

Tesla P100 规格
Tesla P100 GPU 加速器的规格如下:

· 搭载 NVIDIA GPU BOOST 技术达到 5.3 TFLOPS 双精度效能、10.6 TFLOPS 单精度效能、21.2 TFLOPS 半精度效能的水準
· 搭载 NVIDIA NVLink 技术达到每秒 160GB 的双向互连频宽
· 16GB 的 CoWoS HBM2 堆叠记忆体
· 每秒 720GB 的记忆体频宽搭载 CoWoS HBM2 堆叠记忆体
· 页面移转引擎与统一记忆体架构提高编程能力
· ECC 保护能力提高了可靠性
· 针对伺服器进行优化,提供最高级资料中心处理量和可靠性

供货时程
全新 NVIDIA DGX-1 深度学习系统内採用 Pascal 架构的 NVIDIA Tesla P100 GPU 加速器将于6月上市,各大伺服器製造商预计于2017年初开始供货。

附注:
(1) NVLink提供160GB/sec的双向互连频宽,与第3代PCIe x16提供31.5GB/sec的双向传输频宽之比较
(2) NVIDIA Tesla P100 GPU内含153亿个16奈米FiNFET製程电晶体
(3) CPU 系统:48节点,每个节点内含2颗Intel E5-2680v3 12 核心; 128GB的DDR4主记忆体; FDR IB 互连技术之 GPU系统。GPU 系统: 单节点; 2颗Intel E5-2698 v3 16 核心; 512GB的DDR4主记忆体; 4颗Tesla P100绘图处理器,内含NVLink 互连技术
(4) Caffe/AlexNet在一个用搭载双插槽Intel Xeon E5-2697 v3处理器的系统所组建的丛集上训练ImageNet大型视觉辨识竞赛(ILSVRC-2012年度)资料集所耗费的时间,此丛集採用InfiniBand互连技术。250个节点的效能推估数据是根据以下资料来源: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5.
(5) CPU 系统:2颗Intel E5-2698 v3 16 核心;256GB的DDR4主记忆体。GPU系统: 单节点,2颗Intel E5-2698 v3 16 核心; 512GB的DDR4主记忆体;8颗Tesla P100 GPU,内含NVLink互连技术。