AI数据中心历史、技术与关键企业

发布日期:2025-03-14 作者: 新闻中心


  过去一年,通过模型架构创新、更优质训练数据和更大算力规模来训练模型,顶尖大模型之间的性能差距急剧缩小。

  如果Scaling law依然有效,为了进一步扩展模型规模与性能,在模型架构创新存在极大不确定性情况下,通过获得更多的算力来建造全新的数据中心,从而更快地训练模型以取得领头羊,这是确定性更高的收益。目前,以马斯克xAI为代表的大模型公司,快速部署了10万台GPU集群,成为数据中心扩展的领头羊,可预见的是,所需算力的数据还会成倍增长。

  不过,正如人类最初构建电网那样,建设数据中心是一项复杂的业务。在本文中,风险投资专家Eric Flaningam从历史、技术及关键企业探讨来构建AI数据中心所需的基础设施。

  “正如当时一位金融家所观察到的,新兴的美国电力系统所需的资金量‘令人震惊’,听起来‘像是天文数字,而非实实在在、辛苦赚来的钱。’”——[1900年左右电网建设的描述] 《电力损耗》,理查德·赫什,1999 年,摘自《建设物理学》

  百余年前,我们见证了电网的类似扩张(讽刺的是,这如今却成了当前扩张的瓶颈)。在电网诞生过程中,我们目睹了发电厂规模的扩大(尽可能建造大型发电厂以获取性能提升)、“天文数字”般的资本支出投入,以及电价的大幅下降。

  当前,我们见证了数据中心的规模化发展,超大规模企业巨大的资本支出,以及AI计算成本的急剧下降:

  这篇文章是一组系列文章的开篇之作,我将会在该系列中深入解析AI数据中心:其确切含义、谁提供数据中心组件,以及有几率存在的机会所在。

  “数据中心”这一术语远不足以形容这些“AI工厂”(Jensen对其的爱称)的宏大规模。最大的数据中心耗资数十亿美元,涵盖土地、电力与冷却设备、建设成本、GPU及其他计算基础设施。

  这还没算上能源成本。新建的、顶级规模的超大规模数据中心将消耗高达1吉瓦(GW)的能源容量(纽约市消耗约5.5吉瓦)。因此,每拥有五个这样的巨型数据中心,我们就等于在电网中增加了一个纽约市的用电量。

  我们可以将数据中心价值链大致分为几个类别:数据中心的初期建设、支持数据中心的工业设施、数据中心内的计算基础设施,以及为数据中心供电所需的能源。此外,还有拥有或租赁数据中心以向消费的人提供终端服务的公司。

  (这张图并未涵盖所有涉及数据中心的公司。还有金融家、房地产开发商、建筑公司以及众多别的企业共同参与了这一建设。)

  在深入探讨之前,我们先回顾一下数据中心的历史(这对我们如今面临的能源危机特别的重要,尤其是在北弗吉尼亚地区)。

  数据中心在很大程度上伴随着计算机和互联网的崛起而发展。我将简要探讨这些趋势的发展历史以及我们如何走到今天这一步。

  计算的早期版本与当今的数据中心相似:一台集中式计算机,旨在解决计算密集型且关键的任务。

  1.巨像(Colossus) - 由艾伦·图灵建造,用于破解恩尼格玛密码机的计算机。(注:图灵也被认为是AI和计算机科学的奠基人。他提出了图灵测试,作为检验人工智能是否真实的一种手段,而 ChatGPT 在去年通过了这一测试)。

  2.ENIAC - 由美国军方在二战期间设计,但直到1946年才完成的计算机。巨像机比ENIAC更早建造,但由于巨像机的机密性质,ENIAC常被视为第一台计算机。

  20世纪 50年代,IBM凭借大型机在计算机领域崛起并占据主导地位。这使他们在接下来的数十年间在科技领域保持了统治地位,而AT&T则是当时另一家主导性的科技公司。

  ARPANET(高级研究计划署网络),于1969年推出,是为了连接美国日渐增长的计算机数量而开发的。现在,它被认为是网络的最早版本。由于这是一个政府项目,其最密集的连接区域集中在华盛顿特区周围。

  这便是北弗吉尼亚计算领域称霸的根源。每当新一代数据中心拔地而起,他们总希望利用现有的基础设施。而这一基础设施恰好位于北弗吉尼亚地区,至今依然如此!

  20世纪90年代,随着网络的发展,我们迫切地需要更多的物理基础设施来处理日渐增长的海量网络数据。其中,数据中心作为互联节点应运而生。像AT&T这样的电信运营商早已铺设了通信基础设施,因此,向数据中心领域拓展对他们而言是顺理成章的事情。

  然而,这些电信公司与当今垂直整合的云服务提供商之间有类似的竞合动态。AT&T不仅拥有通过其基础设施传输的数据,还拥有基础设施本身。因此,在容量有限的情况下,AT&T 会优先处理自己的数据。这种动态使得企业对其保持警惕,从而催生了Digital Realty和 Equinix等数据中心公司的崛起。

  数据中心在互联网泡沫期间获得了大量投资,但泡沫破裂后投资显著放缓(我们在推断数据时应牢记这一教训)。

  2006年,随着亚马逊网络服务的发布,数据中心开始扭转颓势,自那时起,美国数据中心容量基本上稳步增长。

  这种稳步增长一直持续到2023年,那时人工智能热潮席卷而来。据估计,到2030年,数据中心容量将翻倍(

  AI训练的独特工作负载促使人们重新关注数据中心规模。计算基础设施越集中,性能就越优越。此外,当数据中心设计为计算单元而不单单是服务器时,公司能够获得额外的集成效益。

  当今AI数据中心的特点可以总结为:注重规模、性能和成本,并能灵活选址。

  计算服务提供商(如超大规模云服务企业、AI公司、GPU云服务商)将自行建设数据中心,或与 Vantage、QTS、Equinix等数据中心开发商合作,寻找具备能源容量的土地。

  接下来,他们会雇佣总承包商来管理施工全套工艺流程,而总承包商则会聘请分包商负责各项功能(如电力、管道、暖通空调)并采购原材料。工人们将在项目进行期间迁至施工区域。在建造完成“建筑外壳”后,下一步是安装设备。

  数据中心工业设施大致可分为电气设备和冷却设备。电气设备始于连接外部能源的主配电盘,随后连接至配电单元、不间断电源(UPS)以及连接至服务器机架的电缆。多数数据中心还配备柴油发电机,以应对断电情况。

  第二类是机械与冷却设备,包括冷水机组、冷却塔、暖通空调设备,以及直接连接到服务器本身的液体或空气冷却系统。

  计算基础设施包括运行AI训练和推理工作负载的设备。主要设备是GPU或加速器。除了英伟达、AMD和超大规模云服务提供商外,还有众多初创公司竞相争夺AI加速器市场的一席之地:

  CPU虽然不如过去重要,但其仍在完成复杂操作和“任务分配”中扮演着重要角色。存储设备将数据独立存储,而内存则存储需要频繁访问的数据。网络则连接服务器内外的所有组件。

  最终,这些组件被包装成一个服务器安装在数据中心内。下图展示了一台服务器的示意图(注:存储设备通常是外置的)。

  传输和分配通常被称为“电网”,由当地管理。根据地点不同,这两者中的任意一个可能成为能源交付的瓶颈。

  不幸的是,快速提高能源容量并非易事。数据中心有两个选择:电网供能和离网供能。电网供能通过电网分配,而离网供能则绕过电网,如现场太阳能、风能和电池系统。更理想的情况是,将一个吉瓦级数据中心建在2.5 吉瓦核电厂附近!

  电网供能的问题就在于扩大电网容量所需的时间。下图展示了从申请传输容量到商业运行的等待时间(这指的是从能源源头申请输电容量到实际投入使用的时间)。

  “超大型化”数据中心并非新趋势。 从2001年几兆瓦的数据中心,到2010年代50兆瓦的数据中心,再到2020年的“超大型120兆瓦”数据中心,如今已发展到千兆瓦级的数据中心。

  这些千兆瓦级数据中心也更为密集,其设计理念从单纯的服务器堆砌转向了系统化的整体设计。背后的核心问题就在于摩尔定律的放缓——即随着晶体管密度的增加,半导体性能将逐步的提升,但目前实现这种提升正变得愈发困难。因此,解决方案是让服务器,甚至整个数据中心更加紧密地结合在一起()。

  具体而言,这在某种程度上预示着数据中心正被设计为集成系统,而不是单纯的服务器堆积。 这些服务器也被设计为更紧密集成的系统,从而缩短组件之间的距离。

  因此,英伟达出售的不单单是服务器,还包括成套的POD和SuperPOD系统;超大规模计算公司正在建设系统化的数据中心();而AMD收购ZT系统也是出于同样的考虑。

  我们能够最终靠下图了解英伟达的DGX H100,这种设备能单独作为服务器使用,也能够最终靠POD连接其他GPU,还可以通过SuperPOD逐步扩大规模:

  英伟达还开创了“加速计算”的概念,将部分任务从CPU卸载到其他组件,这提高了GPU、网络和软件等其他组件的重要性。

  AI的独特需求还包括处理海量数据。 这使得存储更多数据(内存/存储)和更快地传输这一些数据(网络)的能力变得至关重要。可以将这一过程比作心脏泵血——GPU是心脏,数据是血液。(这也是怎么回事谷歌TPU架构被称为“脉动阵列”的原因。

  所有这些趋势汇聚在一起,构成了世界上最强大的计算机。这种强大的计算能力带来了更多的能源消耗、更多的热量产生,以及对每台服务器更高的冷却需求。这种能源消耗正在一直增长(与我们对计算能力的需求一同增加):

  这并非受益者的详尽清单,但却是目前我最关注的列表。整个供应链已极度紧张,我听闻各种瓶颈轶事,从缺乏熟练工人建造变压器,到自动化许可的审批难题。

  显然,我们的能源基础设施需要发展以支持这些建设。几乎每家科技公司都更倾向于使用电网电力:它更可靠且管理起来更省事。然而,当电网电力不可用时,超大规模公司开始亲自处理问题。例如,AWS正在印第安纳州投资110亿美元建设一个数据中心园区,并建设了四座太阳能发电站和一座风力发电站以供电(600 MW)。

  从中长久来看,我最看好核能和电池这两个领域来解决能源瓶颈,为数据中心提供更可持续的能源来源。

  核能的优势显而易见:清洁、可靠。然而,挑战在于如何以经济可行的方式建设核电站。一些初创企业正在努力解决这一问题。

  长时电池创新将是可再次生产的能源向前迈进的重要一步。太阳能和风能的问题就在于不稳定性;它们仅在有风或日照时提供能源。长时电池通过在能源过剩时存储能量,在能源短缺时释放能量,从而解决这一问题。

  在工业领域,我对审批自动化和液体冷却这两个趋势感到兴奋。在为本研究时,与我交谈的多位人士一致提到审批问题是这一建设中的瓶颈。

  对于数据中心和能源扩展,开发商需要获得建设、环保、分区、噪声等方面的许可。他们在大多数情况下要来自地方、州和国家机构的批准。此外,还需要应对因地而异的优先拒绝权法律。对于能源基础设施,这一过程更加痛苦。像PermitFlow这样的审批软件公司(

  新一代 AI 数据中心的一个显著变化是服务器产生的热量慢慢的变多。新一代数据中心将采用液体冷却技术,而下一代可能会使用浸入式冷却技术。

  我们不得不提到以下两点:(1) Nvidia在构建其生态系统方面所做的卓越工作;(2) AMD在巩固自己作为一个合法替代方案方面的努力。Nvidia在AI 领域的定位很出色,从应用到软件基础设施、云计算、系统和芯片。可以说,Nvidia完美地制定了迎接技术浪潮的脚本。

  Crusoe是另一家在这一领域非常有前景的公司,提供AI计算和能源服务。

  最后,那些涉足数据中心建设领域的计算公司应继续表现良好,因为收入在整个价值链中流转。从网络设备、存储设备到服务器,只要企业来提供一流的性能,它们就能蓬勃发展。

  关于数据中心建设,我的最后一点思考是:尽管这看起来像是一个新趋势,但它其实就是计算增长历史的一部分。我认为人工智能、数据中心和计算不应被割裂开来讨论。

  用一种狭义的方式来看人类历史:经过数千年的科学发现和技术进步的复利积累,我们终于学会了如何熔化沙子、加入一些杂质、以令人惊叹的精度在极小的尺度上排列成计算机芯片、通过它们传导能量,最终创建能够生成越来越强大的人工智能的系统。

  艾伦·图灵被誉为现代计算机、计算机科学及人工智能之父,这绝非偶然。过去一百年间,创造智能始终是科技发展的核心趋势,而如今,数据中心正是这一趋势的核心所在。

  美国经济凛冬将至?一季度GDP或萎缩2.8% ,今年前两月裁员已超22万人,消费者“末日囤货”,政府面临关门危机

  近期,亚特兰大联储GDPNow模型对美国经济的预测出现断崖式下滑,其对美国2025年第一季度实际GDP增长的估计为-2.8%,低于2月28日的-1.5%。

  珠海市紫荆中学党总支书记、紫荆中学教育集团总校长朱国旺接受纪律审查和监察调查

  珠海市紫荆中学党总支书记、紫荆中学教育集团总校长朱国旺涉嫌严重违纪违法,目前正接受珠海市香洲区纪委监委纪律审查和监察调查。

  菲律宾在我国南海海域非法坐滩军舰浓烟滚滚,系菲船员在船上燃烧生活垃圾,严重威胁附近海域生态环境。

  北京一别墅由9000万元降价到1500万元?业内:不可能,应该是“降了1500万元”

  【央视首次曝光!歼-20发射新型导弹 “超视距”打掉3架“敌机”】歼-20搭载某新型空空导弹,在超视距空战演习中一次击落3架“敌机”。

  同城女主播,单身白富美,感情受过伤,只要你打赏礼物,就会跟你谈恋爱,说不定还能……近日,山东临沂公安披露一起女主播诈骗案件,一名昵称为“思瑶”的女主播,以刷礼物谈恋爱为由,诈骗市民李先生19余万元,李先生报案时提供的聊天记录足有3500多页。

  江西一90后数学老师离职后在校门口卖火鸡面:学生见我比上课积极,遇到家长还是尴尬

  江西金溪市一所小学的孩子们放学后,惊喜地在学校门口看到了一个熟悉的身影。小陈和记者说,自己曾是一名数学老师,在学校做了三年合同教师,合同到期后便离开了岗位。

  近年来,伴随国家安全教育的不断深入,全民维护国家安全意识慢慢地加强,慢慢的变多的快递从业人员能够关注辨别禁寄物品、可疑人员,积极向国家安全机关反映,为及时遏止非法寄递,有效维护国家安全发挥了积极作用。

  刚刚,黄晓明在线辟谣输了十个亿。冲上热搜。3月10日,多家自媒体爆料称,某“超一线男星”在澳门连续七日豪赌。

  当地时间3月13日,乌克兰总统泽连斯基在晚间视频讲话中称,从目前俄罗斯总统普京的表态能够准确的看出,俄方为停火提议设置了多个先决条件,乌方认为这是俄方的操纵手段。泽连斯基说,乌方接受了美国的停火提议,美方可以组织控制与核查,美欧有能力保障停火提议的实施。


上一篇:海鸥股份股价暴跌1001%背后:深度解析冷却塔行业的未来与挑战
下一篇:菏泽今日阴转多云空气质量差建议减少外出