您的位置:首页 >  新闻中心 > 云通讯公告
  云通讯公告
 

IBM与英伟达持续发力,开发最新AI强大处理器

来源:原创    时间:2017-10-31    浏览:0 次

像2000年初的服务器市场一样,具有加速深度学习(DL)训练功能的GPU、TPU、FPGA以及其他加速器应用还处于初期阶段。DL训练使高级模式的现代人工智能(AI)识别成为可能。
 
尽管IBM不久前在DL加速方面做出了重要贡献,NVIDIA GPU已经为数字图书馆的发展和商业化的主要驱动力。对于IBM在AI应用方面做出的贡献,下面将一一说明。
 
推理扩展
 
经过训练的DL模型将会简化并做出更快的处理,具有强大的模式识别能力以创造有利的服务。推理可以扩展为单个小任务在多个廉价的服务器上运行。有很多行业投资旨在降低推理成本,我们将在以后讨论这个问题。
已被扩大的规模,是创建可部署推理模型面临的直接挑战。训练需要大量的数据集和超高数值精度;需要有侵略性的系统设计来满足真实的训练时间和精度,相反,云经济是由规模驱动的。
 
云计算公司部署基于DL的AI服务,面临的挑战自于微软Cortana、亚马逊的Alexa和谷歌之家。主要是由于DL加速的不成熟导致其在竞争上处于劣势,这也迫使服务供应商在研究和开发(研发)、工程和部署专有的扩展系统上投资(合计)上亿美元。
 
NVLink在8 GPU规模的增量
 
GPU的不断升级是DL在最近几年的成功的一个关键原因。通用处理器在处理大型数学数据集的DL数学时仍然速度太慢。早期,NVIDIA公司投资利用DL加速GPU,在新的GPU架构进一步加快DL和DL软件开发工具可以轻松实现GPU加速。
 
 
 
NVIDIA的GPU加速战略的一个重要部分是NVLink。NVLink从GPU到GPU并直接连接到8 GPU实现高速规模增量。NVLink使得GPU处理器实现在最小的干预下进行训练。在NVLink之前,GPU没有低延迟互连、数据流控制的复杂性,或统一的内存空间。NVDIA将替代PCLe ,通过SXM2与NVLink融合。
 
NVIDIA的 DGX-1、微软的开放计算项目(OCP)项目奥林巴斯HGX-1 GPU和脸书网的“Big Basin”对OCP的贡献有着相似之处,每一家都是8 NVIDIA Tesla SXM2 GPU。DGX-1的设计点位于底盘的双处理器的x86服务器节点,而HGX-1的设计必须搭配独立服务器机箱。
 
通过PCIe交换芯片连接四NVLink域四个服务器节点,微软的HGX-1可搭载4个GPU。HGX-1’s 32-GPU的设计限制了GPU系统的直接增量。
 
DGX-1的单价报价为129000美元,采用NVIDIA的 P100 SXM2 GPU和V100 SXM2 GPU(包括内置双处理器x86服务器节点)。虽然这个价格适用于一些高性能计算(HPC)的集体投标,但它并不适用于典型的云计算或学术界。
 
像OCP’s HGX-1和Big Basin的量子云技术(QCT)制造商,原始设计制造商(ODM),并未公布定价,NVIDIA P100模块的价格从5400美元到9400美元。由于NVIDIA GPU的SXM2 GPUs占据了HGX-1和Big Basin的大多数成本,我们认为系统的定价都在50000美元至70000美元(不包括匹配的x86服务器)。
 
脸书网的Big Basin性能
 
脸书网在六月发表了一篇论文,讲述了如何将32 Big Basin系统加载在其内部网络,以实现256 GPU并训练ResNet-50图像识别模型在一小时以内达到约90%缩放效率和72%的精度。
 
 
虽然90%的缩放效率是一个令人印象深刻的成就,但该文中还给出了脸书网的其它几项挑战。
 
8-GPU Big Basin 是实现NVIDIA NVLink最大增量可能的实例。即使对于资金充裕的企业买家,它的价格依然很高昂。另外,脸谱网的文件没有提到OCP服务器机箱设计和处理器模型采用自有基准,然而该处理器可能会成为一个争议:如果你不是一个云巨头,购买脸书内定的Big Basin或其他OCP服务器非常困难,而如果使用不匹配的硬件系统,效果将会大打折扣。
 
脸书网也没有透露该文中使用的操作系统或开发工具,因为脸书网有自己内部的云实例和开发环境,外人一无所知。
 
最终的结果是,复制几乎是不可能的。
 
IBM系统中具有四个GPU
 
继脸书网之后,IBM最近也发表了一篇文章,描述了通过使用于脸书网相同的数据集,如何训练Resnet-50模型,在1小时之内达到95%缩放率和75%的准确率。有以下几个方面值得注意:
 
1.IBM不但击败脸谱网的所有指标,而且95%是非线性缩放;
 
2.任何人都可以购买复制IBM的工作设备和软件。设备、操作系统和开发环境,文中均有提到;
 
3.相对于脸书网,IBM使用规模较小的单位。假设脸书网使用的标准是双插孔计算底盘,IBM只需要一半的GPU,脸书网为4:1的比例,而IBM为2:1的比例。
 
IBM将OpenPOWER的深度学习的参考设计与HPC的S822LC供能系统作为卖点。IBM的PowerAI软件具有超强的深度学习系统(DDL),包括IBM-Caffe和“拓扑感知交流图书馆”。
 
PowerAI DDL特定OpenPower为基础的系统,可以运行在类似的POWER9 “Zaius”系统(Zaius是由谷歌和Rackspace公司设计),例如Wistron、E4、 Inventec 和 Zoom。
 
PowerAI DDL能够实现在体积更小、价格更实惠和GPU服务器的基础上实现系统增量。它还优化了以拓扑网为基础的GPU服务器交流、每个网络链路的功能以及DL模型每个阶段的延迟问题。
 
IBM用64系统和S822LC,每一个都搭载了4个NVIDIA Tesla P100 SXM2 GPU和两个POWER8处理器,共计256个GPU,与脸书网公布的数量相同,但系统的性能却高出两倍,具备更高的缩放效果,这是一个不小的壮举。
 
 
 
价格方面的优惠使得学术和企业届愿意购买一部分IBM的S822LC的系统,测试它的软硬件性能。IBM S822LC的低配价格为6400美元(无GPU),高配的价格应该在30000美元到50000美元之间(包括双处理器Power8服务器节点),取决于安装的哪一款P100模型以及其他配置。
 
战争打到一半,答案已见分晓,我们相信IBM的文章和产品的可用性将刺激其他硬件和软件供应商继续投入大量DL的开发工作中。