NVIDIA|不是GPU的IPU:NVIDIA要小心了
2020年7月30日 , MLPerf组织发布第三个版本MLPerf Training v0.7基准测试(Benchmark)结果 。NVIDIA基于5月最新发布的A100 Tensor Core GPU构建的DGX SuperPOD系统在性能上打破了8个记录 , 这为不少想要打造比NVIDIA更好GPU的AI芯片公司增加了难度 。
相比而言 , 7月15日Graphcore发布的第二代IPU GC200更值得NVIDIA警惕 。其中的原因 , 当然不是简单因为同为台积电7nm工艺的第二代IPU比NVIDIAA100 GPU晶体管密度大10% 。
而是 , Graphcore的第二代IPU在多个主流模型上的表现优于A100 GPU , 两者将在超大规模数据中心正面竞争 。
未来 , IPU可能在一些新兴的AI应用中展现出更大的优势 。
文章图片
多维度对比GPU , IPU有最高100倍性能提升
目前 , AI的应用主要还是集中在计算机视觉(CV) 。就CV而言 , 以谷歌最新发布的EfficientNet模型的Benchmarks(基准测试)来看 , 推理性能IPU吞吐量可以达到GPU的15倍 , 训练也有7倍的性能提升 。
文章图片
在ResNet的改进模型ResNeXt-101的推理中 , IPU可以带来7倍吞吐量的提升 , 同时时延降低了约24倍 。在ResNeXt-50模型的一个训练中 , IPU的吞吐量比GPU提升 30%左右 。
另外 , 在目前最流行的NLP模型BERT-Base中 , 进行推理时相同时延IPU可以有2倍的吞吐量 , 训练时间减少25%到36.3小时左右 , 同时可以降低20%的功耗 。
文章图片
在概率模型中 , IPU同样有优势 , 在MCMC的一个训练模型中 , IPU比GPU有15倍的性能提升 , 缩短15倍的训练时间 。在VAE的精度训练模型中 , 可以达到4.8倍的性能提升 , 缩短4.8倍的训练时间 。
还有 , 目前比较受关注的销售预测和推荐模型 。IPU在用在做销售数据分析的MLP模型训练中相比GPU有最高6倍的性能提升 , 在用于推荐的Dense Autoencoder模型训练性能有2.5倍提升 。
文章图片
如果是在IPU更擅长的分组卷积内核中 , 组维度越少 , IPU的性能优势越明显 , 总体而言 , 有4-100倍的吞吐量提升 。
文章图片
IPU的三大技术突破
从IPU与GPU在当下AI应用的多个维度对比中 , 已经可以看到IPU的优势 , 这与Graphcore的计算、数据、通信三大关键技术突破密切相关 。
Graphcore最新发布的第二代IPU Colossus Mk2 GC200算力核心从1216个提升到1472个独立的IPU-Tiles的单元 , 共有8832个可以并行执行的线程 。In-Processor-Memory从上一代的300MB提升到900MB 。每个IPU的Memory带宽为47.5TB/s 。
还包含了IPU-Exchange以及PCI Gen4跟主机交互的一个接口;以及IPU-Links 320GB/s的一个芯片到芯片的互联 。
推荐阅读
- 潇湘晨报|求归还被拒!上海一老总错转21万欲哭无泪:怎么证明我真不是骗子
- 芯片|气候异常!东北半个月遭台风三连击,分析:短期长期都不是好事
- 趣头条|号称能“放松肌肉”“减肥瘦身”的网红筋膜枪,是不是智商税?
- 微微一笑很凑合|你是不是藏了私房钱
- 日本|美国突然醒悟,最大的对手不是俄罗斯,德专家:不阻止就来不及了
- 孙冾讲娱乐|颜值高身材好的妹子是不是都在手机上?,搞笑GIF:我就想问问
- 穿搭|不想穿彩色衣服?也不是不可以,这样穿就很高级
- 电视剧杂谈|个子不是很高的女人,日常穿衣记住3个公式,让自己更加高挑年青
- 车行生活|06 恐怕只有一个理由——你老了,拒绝领克
- 宁宁育儿|你可知第一个女皇帝是谁吗,武则天并不是第一个女皇帝
