在强大能力的背后,算力的支撑是其发展的核心。有人做过统计,ChatGPT 需要超过1万颗 A100 GPU 提供算力支持,单次训练成本超过400万美元,每天成本超过10万美元。
「算力」,再一次被推到所有人眼前,但其实这并不是一个新概念。
1、算力,低调的幕后力量
顾名思义,算力指的就是计算的能力。如果你从来没听说过这个词,或许可以把它等价成 A100 的数量。但很多人还没意识到的是,算力已经像水、电、气一样,成为了我们现代社会不可或缺的关键基础资源。
我国在2022年正式启动「东数西算」工程,在全国规划了8个国家算力枢纽节点、10个国家数据中心集群。就像「西气东输」、「南水北调」一样,「东数西算」也成为了我们国家的战略资源跨域调配工程,这也从非常高的高度,认可了算力的重要意义。
也正是因为看到算力的重要性,包括亚马逊微软谷歌阿里腾讯在内的这些国内外的顶级科技巨头,已经早早的把业务重点转向云计算了。而云计算的本质,就是希望能像自来水一样,为用户提供源源不断的算力。拧开水龙头就会出水,插上电源就会有电,未来接上算力网络,就能使用云端的大量算力。
我们用自来水的时候不会担心水怎么来、也不关心中间经过多少道处理工序。同理,有了云端算力之后,用户就不用担心算力怎么来,也不需要关心硬件实现的底层步骤,只需要专注于用算力的使用就可以了。
听起来好像很简单,实际做起来其实非常复杂,更离不开云计算技术的不断进步与迭代。而自研芯片也已经成了各大国内外云计算大厂发力的重点,甚至是他们的「标配」和「杀手锏」,并且成为各个云厂商的主要差异化所在。此外,云计算领域木桶效应越来越明显,软件和硬件不能有短板;未来进化方向,一定是软硬件协同优化。
2、云厂商前仆后继自研芯片,原因为何?
云计算领域的一个重要趋势,就是这些云计算和互联网大厂都在纷纷自研芯片,包括亚马逊云科技、微软、阿里云都是如此。他们并不是在玩票,而是把自研芯片作为自己的核心竞争优势和主要的差异化。
要说清楚为什么云厂商要自研芯片,就要首先看一下云计算里的一个「不可能三角」,也就是说在云计算里,性能、成本、安全性,这三点不可同时兼得。如果既要又要,就不能还要。比如,追求高性能和低成本,那安全性就要妥协;追求低成本和高安全,那就很难做到高性能;如果既要高性能又要高安全,那成本肯定低不了。
不可能三角出现的本质原因,就是市面上的那些通用软硬件并没有针对特定场景做优化。比如 CPU 厂商提供的处理器芯片,并不是专门为了某个云厂商的实际应用专门设计的,那么在核心数量、主频、缓存大小,以及软件的并行性支持和应用开发上,肯定不会优化的那么深入。这就像去商店买的公版的衣服或许也不错,但肯定不如裁缝量体裁衣来的合适。
于是,这些财大气粗的互联网和云计算大厂,就纷纷开始下水自己做芯片了,而亚马逊云科技,应该算是最早吃螃蟹的那个。
3、AmazonNitro:亚马逊云科技的基石芯片
Amazon Nitro 是亚马逊云科技自研芯片的起点,从2013年推出首颗 Amazon Nitro 芯片起,它已经经历了4代迭代,并且已经成为驱动当今所有 EC2 实例的基础性技术。我们先介绍下 Amazon Nitro 的技术特点,然后来看看这次大会上发布的最新一代 Amazon Nitro v5 芯片。
从广义上来说,Amazon Nitro 并不是单独的芯片本身,而是由多个芯片和板卡组成的基础架构,可以实现存储访问、加密、监控、实例配置等等几乎所有的工作。对于云计算、特别是公有云来说,Amazon Nitro 最重要的意义就是帮助 CPU 减负。也就是说,它能把数据中心里的「网络」「计算」「存储」这些基本功能都从 CPU 里卸载出来,从而释放 CPU 宝贵的内核资源。专用的 Amazon Nitro 卡可以实现高速网络、高速 EBS 和 I/O 加速,不需要在 CPU 上运行额外的管理软件。
同时,Amazon Nitro 系统还能虚拟出来一个统一的用户接口,不管底层硬件用的是x86 CPU、ARM CPU,甚至是苹果的 Mac 硬件,对于用户来说都没有区别。这种软硬件的解耦,就极大地释放了软硬件设计的灵活性,让二者不会相互掣肘,这也是亚马逊云科技能大规模部署基于 ARM 架构处理器的本质原因。当然,Amazon Nitro 出现的本质原因还是基于安全性的考虑,这也一直是 Amazon Nitro 的核心功能之一。比如它会阻止主机之外的任何系统登录或读取基于 Amazon Nitro 的实例内存,从而在硬件层面直接保障安全性。
也就是说,Amazon Nitro 的核心设计理念,就是为了很好的平衡前面说到的那个云计算「不可能三角」,它并不是为了追求单个领域的极致,而追求的是三个重要因素很好的平衡。
去年底,亚马逊云科技召开了一年一度的 re:Invent 大会,并发布了最新的 Amazon Nitro v5 芯片,重点聚焦在通信带宽的提升: PCIe 带宽提升2倍、DRAM 速度提升50%、数据包处理速度提升60%、通信延时降低30%。和前一代相比,Amazon Nitro v5 的晶体管数量增加一倍,并由此带来每瓦性能40%的提升。
事实上,大会上并未公布 Amazon Nitro v5 的架构细节和制造工艺,但这对于用户来说可能并不重要,毕竟用户不会单独购买或者使用 Amazon Nitro 本身,它已经作为每台 EC2 服务器的基础设施而存在了。有了 Amazon Nitro 的高性能和虚拟化功能的加持,也给用户提供了更多的计算实例。在2022年初,Amazon EC2 实例有400多款;经过一年的发展,已经超过600款。这就让算力的供给更加快速和灵活。
4、Amazon Graviton3E:一切为了高算力
除了 Nitro,亚马逊云科技还有一个看家芯片,那就是基于 ARM 架构的服务器 CPU 芯片 Amazon Graviton。
很多人认为,和 x86 架构相比,ARM 架构不适合用于数据中心或者高性能计算领域。但事实上,决定性能的并不是指令集,而是微架构。Amazon Graviton 系列处理器不仅能取得高性能、更能兼顾 ARM 架构低功耗的优势,从而实现更好的「性能功耗比」。和 x86 实例相比,基于 Amazon Graviton3 的实例能取得高达60%的每瓦功耗提升。
在去年的 re:Invent 大会上,并没有发布第四代Amazon Graviton 芯片,但在第三代的基础上增加了对高性能计算的优化。具体来说,就是特别优化了对向量计算和浮点计算的支持。这也是 ARM 架构进一步进军 HPC 的重要尝试。要知道,性能在 HPC 领域只是重要因素之一,同样重要的还有功耗、成本、性价比。在这些方面,ARM 架构无疑有着更大优势。再加上自研芯片的加持,通过大规模部署进一步摊薄成本,就会让性价比进一步提升。这些才是这些云厂商自研处理器芯片的本质动力。
用中国工程院院士孙凝晖的话说,算力时代是算力的基础设施化时代,是走向智能时代的必由之路。如何获得性能更高、更安全、更节能的算力,仍然是云计算厂商和学术界不断探索的课题,一旦解决,或许就会开启人类社会的新时代。
未经允许不得转载:教育评说之窗 » 低调幕后力量!企业为何对“算力”发展如此执着?