穿着黑色羽绒马甲,顶着一头凌乱的白发。在今年英伟达最重要的产品发布会上,略显不修边幅的老黄,终于从烤箱里端出了一块让人期待太久,但却又让显卡迷们措手不及的GPU产品。
让人兴奋的,是传闻已两年有余的新架构Ampere ,姗姗来迟的7nm制程,以及实现了大飞跃的性能。对英伟达来说,这是一个有着跨时代意义的产品。
但它的目标用户,却并非是一手把英伟达捧上神坛的游戏玩家。
一统云服务巨头“后院”
这次的A100,是英伟达的企业级GPU产品 V100的继任者,专门为数据中心而打造。
后者在2017年一经推出,就在两年内获得了巨大成功,直接打入了包括亚马逊、微软、阿里以及腾讯等云服务巨头的数据中心核心地带,成为各家GPU计算服务团队不可缺少的芯片产品。
至于为何在这个市场一路畅通无阻。一方面,是GPU的并行运算结构对训练机器学习和深度学习模型有着天然优势。
云服务商早已集体默认,与人工智能相关的任务,从数据处理效率、功耗等多方面考虑,使用GPU进行模型训练是最好的选择之一。
无论是阿里还是腾讯云,与GPU相关的产品页面,基本都涵盖了像英伟达V100与T4等热门型号的企业级GPU产品。
一位阿里工程师告诉虎嗅,目前几乎所有的感知类深度学习任务,都需要用到大规模深度学习,必须基于多机多卡进行模型训练。
图片截自阿里云
而A100,据英伟达声称其在人工智能推理和训练方面比 V100要快近20倍。对此,自动驾驶公司文远之行技术总监钟华给出了更加细节化的解释:
实际上,人工智能开发者最关心的是FP16(单精度浮点数)与int8(用8bit的内存,存储一个整数数据;类似于数据类型,常用于推理模型)这两个重要参数。从两者的数据来看,其计算力相比V100提高了两倍不止。
此外,他还指出,在内存带宽这个指标上,A100比V100提升了40%以上,这意味在高速模型的训练上面是非常有帮助的,特别是自动驾驶所需要的实时训练模型。
图片来自硬件评测媒体Tom’s hardware
而在许多GPU产品客户与爱好者所关心的工艺制程方面,过去1年里黄仁勋在多个场合被质问的“何时会缩短制程”这个问题,终于有了一个让人满意的答案。
让我们反向来看制程这个问题。
根据英伟达给出的这块A100尺寸来看,相当于制造者在一块826平方毫米的模具上塞进了540亿个晶体管;而V100则是在一块大约815平方毫米的模具上装有211亿个晶体管。
晶体管数量增长了2.5倍,但尺寸却仅大了1.3%。这代表差不多的身体,却装了双倍能量。
没错,这正是得益于芯片代工巨头台积电从12nm制程到7nm制程的技术升级。
“这在很大程度上让英伟达的显卡迷们松了一口气。毕竟两年前,英伟达在消费级市场的老对手AMD就推出了7nm GPU,而英伟达迟到了近2年。不过鉴于后者在2B商用领域的领先地位,这个时间点并不算晚。”
一位芯片从业者认为,英伟达最近预定台积电的5nm订单,也在一定程度上有了赶超对手制程的“进取心”。
尺寸与制程,这尺寸的确大,的确是迄今为止最大的显卡
不过,虽然芯片测评专家们都发表了对英这块英伟达“新炸弹”的专业看法。但遗憾的是,或许是由于英伟达在游戏行业里拥有太大的影响力,以至于没有太多人关注这块企业级芯片为云端应用技术做了哪些微妙的调整。
刚才我们提到,在数据中心的环境下,执行大规模线上机器学习任务,需要多机多卡同时运行,参见很多国内外大学成立的超级计算项目,以及全国上亿人可能在同时使用的各种平台(淘宝、百度、抖音等等)的智能化搜索与个性化推荐。
因此,如何有效分配这些“多机多卡”的算力,是云计算工程师们特有的关注点:
“你会发现,A100新增了一个叫MIG的功能。根据描述,这个功能允许在单个A100上做资源隔离,能最多分割为7个独立GPU。”
正在研发基于异构计算架构数据处理平台的开源技术创业公司Zilliz合伙人、高级架构师顾钧,首先注意到了这个面向云端应用的新功能。
“这可以看作是一种让更多人分享GPU能力的方式。换句话说,每个人分到的GPU资源都是互相隔离的,不会发生互相干扰,抢占算力的情况,同时也能让GPU的投资回报率达到最大化。我估计这也是为云端容器化提供便利。”
云端容器化,是当前最为主流的云计算技术之一。
简单来说,用这项技术就是为了降低算力成本,将每个可能会互相争抢算力资源的云端任务,隔离在一个个孤立的“瓶子”里,做到互不打扰。
同时,又能根据任务的更迭,对其所需要的资源进行灵活的资源调度。
“举个例子,一块CPU假定有24个核(48线程),在容器化后,是可以把一个CPU的某个部分,譬如4个核8线程分配给一个容器。但之前GPU是没办法这么切分的。”顾钧解释。
因此,很多院校和企业此前大多在利用英伟达提供的vGPU虚拟化技术来“切分”GPU,分着给大家用,主要目的就是为了提高使用效率,降低计算成本。
譬如,VMware 中国研发先进技术中心的技术总监张海宁曾给给一所大学设计过vGPU切换方案:
白天学生做开发练习的简单任务,就切成4块,让4个人一起使用GPU;到了晚上项目要做模型训练,算力需求加大,就切换回1:1,确保100%算力。
当然,需要购买成千上万块企业级GPU的大型云服务商,会更加“吝啬”。用阿里工程师的一句玩笑话就是:“V100这么贵,当然要仔细琢磨怎么切得最划算,同时还能让利用率最大化。”
但也有人指出,这种GPU虚拟化技术对性能有一定的损耗,同时也会让机器启动速度变慢。而容器技术则会在一定程度上避免这些问题。
因此,让企业级GPU的设计对云端容器化更加“友好”,或许是一种产业里乐见其成的趋势。
根据调研机构Grand View Research在2019年12月发布的一份报告显示,到2025年,全球云端容器应用市场规模有望达到82亿美元,年增长率约为26.5% 。
而与此相呼应的一个论点,是硬件虚拟化(虚拟机)将会逐渐被容器技术所取代。
如此来看,英伟达的确在加大对自己的新摇钱树——企业级用户的“关怀”。
不必非要英伟达?
实际上,早在A100正式发布前,基本所有Top级云服务商都拿到了价值20万美元的新GPU系统(单个包含8块A100)。
当然,即便拿的是折扣价,也有工程师也暗暗吐槽说,“真贵,V100就很贵了,A100就更别提了。”