欢迎来访江苏帕卓管路系统股份有限公司 官方网站!

您的位置 : 首页>>解决方案
解决方案

AI大模型下的液冷发展趋势

帕卓管路 2024-04-02 09:54:13 175次 返回

刚刚过去的周末,光伏、储能行业迎来重磅利好消息:摩根士丹利调高宁德时代目标价,在黄仁勋、奥特曼两位大佬加持下“储能与AI”的故事发酵。

640.webp.jpg

图片来源网络

摩根士丹利调高宁德时代目标价

3月10日,摩根士丹利发布报告,将中国电池巨头宁德时代(CATL)的评级上调至“超配”,并设定目标价为210元人民币。在报告中,摩根士丹利分析师指出,宁德时代作为全球领先的电池制造商,受益于电动汽车市场的快速增长和电池需求的攀升。

摩根士丹利发布报告指出,随着价格战接近尾声,宁德时代准备通过新一代大规模生产线提高成本效率,并扩大在净资产收益率方面的优势,看到宁德时代在基本面上的多个拐点,上调公司评级至超配,并选为行业首选。

另外,据央视网10日报道,宁德时代董事长曾毓群在采访时谈到了近期多家欧美车企削减或推迟电动化的话题,“欧美车企没有回归燃油车,也没有停止(电动汽车),可能是因为不赚钱,所以往后延迟一阵。”

从储能业务来看,宁德时代是当之无愧的王者。国海证券预计,该公司2023年动力和储能电池的出货量达380GWh以上,同比增长31%以上。单2023年四季度看,公司的出货量达110GWh以上,同比增长14%以上,环比增长10%以上。按四季度中值计算,假设公司的电池业务利润贡献在90%,则测算公司单Wh盈利在1毛左右,与公司2023年前三季度的单位盈利基本保持相当。

黄仁勋、奥特曼:AI的尽头是光伏和储能

消息面上,在算力爆炒之后,“储能+AI”的故事在刚刚过去的这个周末发酵了。据报道,英伟达CEO黄仁勋在一次公开演讲中指出,AI未来发展与状和储能紧密相连。黄仁勋在演讲中明确表示:“AI的尽头是光伏和储能!我们不能只想着算力,如果只考虑计算机,我们需要烧掉14个地球的能源。”

早在2月27日,就有人在社交视频上讲“储能与AI”的故事,引用的也是所谓“黄仁勋的演讲”。与此同时,OpenAI的创始人山姆·奥特曼也提出了类似的看法。奥特曼表示,“未来AI的技术取决于能源,我们需要更多的光伏和储能。”

ChatGPT日耗电超50万度

人工智能技术的快速发展,带来了巨大的算力和能源消耗。据《纽约客》杂志报道,ChatGPT日耗电超50万度,相当于1.7万个美国家庭,以响应用户的约2亿个请求。

*近,在博世互联2024大会上,马斯克远程连线接受了博世CEO和董事长的采访。马斯克提到人工智能的发展速度前所未见,似乎每过6个月的时间,算力就会增加10倍,远远超出了摩尔定律每18个月翻番的速度。他预计,两年内年将由“缺硅”变为“缺电”,而这可能阻碍AI的发展。

“目前算力增长已经面临瓶颈,很明显,接下来变压器会陷入短缺,紧接着就是电力,等到2025年,我们将没有足够的电力来运行所有的芯片。”马斯克称。

事实上,马斯克对电力短缺的担忧也不是一天两天了,此前曾多次公开强调解决日益增长的电力需求的紧迫性。他认为,需要加快项目进度,以跟上不断增长的电力需求。

我国台湾地区4月电价调涨箭在弦上,“电价工作小组”3月12日起将连开4场讨论会。其中民生用电拟分三级距调涨,*小涨幅700度(或500度)以下约涨5%,701~1000度约涨7%,1001度以上涨约10%;产业用电依产业别分三级距调涨,但连二年用电成长、用电50亿度以上“超级大户”以公司别来看,调幅*高上看近3成,台积电首当其冲;但用电衰退面板、石化、钢铁,涨幅较小。4月电价方案平均涨幅在10~15%。

波士顿咨询公司就曾分析称,预计2030年左右,美国数据中心的电力消耗将较2022年增长三倍,相当于电力总需求的7.5%,会大幅提升社会用电量。

咨询公司Grid Strategies也曾发布过一项研究,认为美国未来五年的年度电力需求增长大约在1.5%左右。而根据EIA的数据,美国发电量近15年来才增加了不到3%。过惯了供需相对稳定日子的美国供电体系,和面临不少问题的电网,能否应对骤然增长的需求,尚有待观察。

从储能业务来看,宁德时代是当之无愧的王者。国海证券预计,该公司2023年动力和储能电池的出货量达380GWh以上,同比增长31%以上。单2023年四季度看,公司的出货量达110GWh以上,同比增长14%以上,环比增长10%以上。按四季度中值计算,假设公司的电池业务利润贡献在90%,则测算公司单Wh盈利在1毛左右,与公司2023年前三季度的单位盈利基本保持相当。



AI大模型下的液冷发展趋势

摘要

液冷是一种用液体来冷却电子设备的散热技术,能够显著提高数据中心散热效率。液冷技术根据冷却液与发热器件的接触方式不同,可以分为间接液冷和直接液冷,其中间接液冷主要包括冷板式液冷,直接液冷包括浸没式液冷和喷淋式液冷。冷板式液冷和浸没式液冷是目前主流的液冷形式,冷板式液冷应用*为广泛,在改造成本、可维护性、兼容性方面具备优势;浸没式液冷冷却效果*好,节能性上优势明显,但可维护性和兼容性一般,多用于高功率密度机柜。

控制当前数据中心温控方式仍以风冷为主,液冷方案中冷板式技术更为普及。2022年数据中心液冷技术的渗透率大概在5%~8%左右,风冷仍然占据90%以上的市场份额。按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例为90%左右,浸没式液冷渗透率为10%。

数据中心算力与能耗水涨船高,逐渐超出风冷散热阈值,液冷散热已是趋势所向。Chatgpt为代表的生成式人工智能模型拉升算力需求,百亿参数成为模型涌现门槛,算力成为大模型性能提升的关键。大模型带来大算力,大算力带来高功耗,Intel的多款CPU芯片的TDP已突破350W,NVIDIA 的H100系列GPU芯片TDP更是达到700W。这也导致单服务器和单机柜功率均显著上升,已经逐渐超出风冷散热的覆盖范围,液冷散热已成为必然趋势。

PUE限制是现阶段液冷技术发展的核心驱动力。PUE代表数据中心能源使用效率,等于数据中心总耗电/IT设备耗电,比值越接近于1,说明能源越接近全部都用于IT设备负载上。我国数据中心平均PUE为1.49,仍有半数区域的数据中心PUE位于1.5以上。近几年,国家与地方出台了一系列针对新建与老旧数据中心PUE的管控计划,明确要求东、西部枢纽节点数据中心PUE分别控制在1.25、1.2以下。而传统风冷方案的数据中心PUE一般在1.5左右,高于政策要求的范围;液冷方案能够有效降低冷却系统的能耗水平,从而将数据中心整体PUE降低到1.05-1.2左右,满足相关的政策要求。

数据中心TCO是液冷技术规模应用的关键因素。数据中心总成本(TCO)包括建设成本(Capex)和运营成本(Opex)。根据奕信通科技在2022年数据中心标准峰会发布的报告进行测算,以华东地区数据中心建设情况为例,现阶段冷板式液冷方案的TCO甚至Capex已经低于风冷,浸没式液冷方案的TCO也将在运行五年左右之后出现低于风冷方案的拐点。但是该测算结果依赖于一定的前提条件:如机柜功率达到30KW、不计算服务器折旧和服务器运营支出、水电费与房租等运营成本按华东地区情况计价、采用集中式大型IDC机房且IT设备在12个月线性上架后实现80%负载率、外界气温对制冷系统的能耗需求较高等。因此在西北部地区、较小型数据中心等场景下液冷技术的经济性尚没有完全体现。但在数据中心发展的大型化、集约化的趋势下,且液冷方案仍存在每年降本5-10%的空间,再考虑到液冷方案能够有效延长服务器使用寿命,未来液冷数据中心TCO的优势将更加明显。

控制数据中心液冷未来市场规模估算:到2025年,中国数据中心液冷市场规模将达到359亿元左右,CAGR达到72.4%;AI数据中心液冷市场规模将达到280亿元左右,CAGR达到71.4%;通用数据中心液冷市场规模将达到79亿元,CAGR达到76.2%。

1液冷技术详解

液冷是一种用液体来冷却电子设备的散热技术。液冷的工作原理是以液体作为冷媒,利用液体的高热容和高热传导性能,通过液体流动将IT设备的内部元器件产生的热量传递到设备外,使IT设备的发热器件得到冷却,以保证IT设备在安全温度范围内运行(本文主要讨论数据中心应用场景下的液冷技术)。根据冷却液与发热器件的接触方式不同,可以分为间接液冷和直接液冷。间接液冷是指服务器热源与冷却液之间没有直接接触的换热过程,以冷板式液冷技术为主。直接液冷是指将发热部件与冷却液直接接触的冷却方式,包括浸没式和喷淋式液冷技术。其中又可以根据冷却液是否会发生液态到气态的转变,将浸没式液冷分为单相浸没式液冷和双相浸没式液冷。当前,冷板式液冷和浸没式液冷为液冷的主要形式。

640.webp (1).jpg

液冷系统通用架构包括室外侧和室内侧两部分:室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、液冷机柜、ICT 设备、二次侧管网和二次侧冷却液。室外侧为外部冷源,通常为室外的冷水机组、冷却塔或干冷器,热量转移主要通过水温的升降实现;室内侧包括供液环路和服务器内部流道,主要通过冷却液温度的升降实现热量转移;两个部分通过CDU中的板式换热器发生间壁式换热。

640.webp (2).jpg

1.1 冷板式液冷

冷板式液冷属于间接液冷,冷却液不与服务器芯片直接接触。冷板式液冷也被称作芯片级液冷,技术原理是通过在服务器组件(如 CPU、GPU等高发热部件)上安装液冷板(通常为铜铝等导热金属构成的封闭腔体),服务器组件通过导热部件将热量传导到液冷板上,然后利用液冷板内部的液体循环将热量传递到远离服务器的散热单元;同时一般会增设风冷单元为低发热元件进行散热。

冷板式液冷系统主要由冷却塔、CDU、一次侧 & 二次侧液冷管路、冷却介质、液冷机柜组成;其中液冷机柜内包含液冷板、设备内液冷管路、流体连接器、分液器等。

640.webp (3).jpg

1.2 浸没式液冷

浸没式液冷属于直接液冷,将发热器件浸没在冷却液中进行热交换,依靠冷却液流动循环带走热量。

浸没式液冷系统室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、浸没腔体、IT 设备、二次侧管网和二次侧冷却液。使用过程中 IT设备完全浸没在二次侧冷却液中,因此二次侧循环冷却液需要采用不导电液体,如矿物油、硅油、氟化液等。

浸没式液冷根据冷却液换热过程中是否发生相变,可以进一步分为单相浸没式液冷和双相浸没式液冷技术。

1.2.1 单相浸没式液冷

在单相浸没式液冷中,冷却液在热量传递过程中仅发生温度变化,而不存在相态转变。单相浸没式液冷的技术原理为:CDU循环泵驱动二次侧低温冷却液由浸没腔体底部进入,流经竖插在浸没腔体中的IT设备时带走发热器件热量;吸收热量升温后的二次侧冷却液由浸没腔体顶部出口流回CDU;通过CDU内部的板式换热器将吸收的热量传递给一次侧冷却液;吸热升温后的一次侧冷却液通过外部冷却装置(如冷却塔)将热量排放到大气环境中,完成整个冷却过程。

640.webp (4).jpg

1.2.2 双相浸没式液冷

双相浸没式液冷的不同之处在于冷却液会发生相态转变。双相浸没式液冷的传热路径与单相浸没液冷基本一致,主要差异在于二次侧冷却液仅在浸没腔体内部循环区域,浸没腔体内顶部为气态区、底部为液态区;IT设备完全浸没在低沸点的液态冷却液中,液态冷却液吸收设备热量后发生沸腾,汽化产生的高温气态冷却液因密度较小,会逐渐汇聚到浸没腔体顶部,与安装在顶部的冷凝器发生换热后冷凝为低温液态冷却液,随后在重力作用下回流至腔体底部,实现对IT设备的散热。

640.webp (5).jpg

1.3  淋式液冷

喷淋式液冷属于直接液冷,将冷却液精准喷洒于电子设备器件进行散热。冷却液借助特制的喷淋板精准喷洒至发热器件或与之相连接的固体导热材料上,并与之进行热交换,吸热后的冷却液换热后将通过回液管、回液箱等集液装置进行收集并通过循环泵输送至CDU进行下一次制冷循环。

喷淋式液冷系统主要由冷却塔、CDU、一次侧 & 二次侧液冷管路、冷却介质和喷淋式液冷机柜组成;其中喷淋式液冷机柜通常包含管路系统、布液系统、喷淋模块、回液系统等。

640.webp (6).jpg

1.4 不同液冷方案的比较

640.webp (7).jpg

1.4.1 冷板式液冷目前应用*为广泛,在改造成本、可维护性、兼容性方面具备优势

冷板式液冷的优势主要在于:

1)兼容性:冷板式液冷的改造成本相对较低,不需要对数据中心现有的机房及机柜进行大规模改造,其适用的硬盘、光模块等服务器部件与风冷方案一致,运维模式、机房承重与风冷场景也基本一致;

2)散热效果与节能性:冷却效果和节能性要远好于风冷,PUE可以达到1.2左右;(据《绿色高能效数据中心散热冷却技术研究现状及发展趋势》数据显示,风冷散热下数据中心的 PUE 值通常在1.5左右)

3)可靠性:液体与设备不直接接触,可靠性更高;

4)维护性:易开展维护性设计,可实现在线维护方案;

5)噪声:风机转速大幅降低,噪声值可至 70dB 左右。

冷板式液冷的局限性主要在于:

1)液体没有与电子器件直接接触,而是通过金属管壁进行热交换,与直接接触的浸没式液冷相比冷却与节能效果欠佳;

2)IT设备、冷却液、管路、供配电等不统一,服务器多与机柜深耦合;

3)管路接头、密封件较多,漏液维护复杂。

1.4.2  浸没式液冷的散热效果和节能性优势明显,但兼容性和维护性一般,多用于高功率密度机柜

浸没式液冷的优势主要在于:

1)散热效果与节能性:与冷板式液冷相比,浸没式液冷中采用了直接接触式的热交换,传热系数高,冷却效果更好,节能性更强(双相浸没式液冷方案的PUE在1.04-1.07左右,单相浸没式为1.09左右)

2)紧凑:支持高密机柜,单柜散热量高达160kW;同时,机柜间无需隔开距离,机房不需要空调和冷冻机组、无需架空地板、无需安装冷热通道封闭设施;

3)可靠性:设备完全浸没在液体中,排除了温度、风机振动、灰尘等带来的可靠性问题;

4)噪声:100%液体冷却,无需配置风扇,实现**“静音”机房。

浸没式液冷的局限性主要在于:

1)兼容性较差:IT设备需要定制,光模块、硬盘等部件兼容性仍待验证;此外,双相浸没式液冷方案适配的服务器需改为刀片式,其专用机柜对于管路要求高,控制复杂;

2)维护复杂:浸没式液冷设备维护时需要打开Tank上盖,并配备可移动机械吊臂或专业维护车实现设备的竖直插拔,维护复杂度高,耗时长;且开盖维护过程有一定的冷却液挥发问题,增加运行成本;

3)承重要求高:因浸没式液冷系统Tank内充满冷却液,整柜重量大幅增加,对机房有特殊承重要求,普遍要求浸没式液冷机房地板承重应大于1500kg/m2;

4)国产冷媒待验证:单相浸没式液冷方案所使用的国产冷媒仍待验证。

浸没式液冷比较适用于对功率密度、节能性要求较高的大型数据中心,特别是地理位置较为特殊、空间有限的数据中心。

1.4.3 喷淋式液冷在安装便利性、空间利用等方面有优势,但是现阶段落地应用相对较少

喷淋式液冷不需要对数据中心基础设施进行大幅改动,安装便捷,空间利用率高,且喷淋方式能够节省冷却液,其不足在于服务器整体密封于气相柜中,排液、补液,维护时会破坏服务器原有密封结构。目前喷淋式液冷技术的应用场景有限,只有少量数据中心采用了喷淋式液冷技术。

2 数据中心液冷行业基本情况与竞争格局

2.1 基本情况:数据中心液冷行业如日方升,液冷技术有望加速导入

数据中心温控方式仍以风冷为主,液冷技术有望加速导入。目前数据中心的散热方式仍然以风冷为主,在算力设备以及数据中心机房的高热密度趋势和高能效散热要求的双重推动下,预计未来液冷将成为主流的数据中心温控方式。根据产业调研与曙光数创的信息,2022年数据中心液冷技术的渗透率大概在5%~8%左右,风冷仍然占据90%以上的市场份额;预计2025-2028年时液冷技术的渗透率有望达到30%。

液冷方式以冷板式为主,浸没式技术有望加速推广。当前主流的液冷技术包括冷板式液冷和浸没式液冷,由于冷板式液冷对于数据中心的改造难度较低,改造所需成本也较为可控,所以目前冷板式液冷的市场应用相对更加普及。根据IDC《中国半年度液冷服务器市场(2023上半年)跟踪》报告,按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例达到90%左右,浸没式液冷渗透率仅为10%。但随着国家对于数据中心PUE的政策要求的愈发严格,机柜功率密度的持续抬升以及浸没式液冷技术的逐渐成熟,浸没式液冷方案有望进入加速推广期。

2.2 产业链:涉及环节众多,存在较高进入壁垒

液冷产业链涉及环节众多,包括上游的液冷设备及产品零部件提供商、中游的液冷服务器及液冷基础设施提供商与下游的数据中心使用者。上游主要为产品零部件及液冷设备,包括快速接头、CDU、电磁阀、浸没液冷TANK、manifold、冷却液等产品,代表性厂商有英维克、3M、高澜股份、云酷、奕信通、广东合一、绿色云图、巨化股份等。中游主要为液冷服务器、芯片厂商以及液冷集成设施、模块与机柜等,代表性厂商有华为、中兴、浪潮、曙光、新华三、联想、超聚变、英特尔等。下游主要为数据中心的使用者,包括三家电信运营商,百度、阿里巴巴、腾讯、京东等互联网企业,数据港、光环新网等第三方IDC服务商以及政府、科研机构、金融、能源、交通等其他信息化需求客户。

640.webp (8).jpg

产业链存在较高的技术、人才、客户认证壁垒。

1)技术壁垒:液冷数据中心基础设施产品的研发和制造涉及冷却技术、制冷系统设计及仿真技术、温湿度解耦控制算法等多项技术领域,要求企业在液冷核心技术进行多年研究积累,深入掌握液冷技术的相关原理和应用。此外,液冷数据中心基础设施产品工艺流程复杂,需要掌握生产制造流程中的核心工艺,同时需具备成熟的控制体系,对产品质量进行把控,保证产品的合格率,因此数据中心液冷行业具有较高的技术壁垒。

2)人才壁垒:液冷数据中心基础设施领域属于新兴技术密集型产业,产品性能涉及材料化学、热力学、电子学、计算机科学等多学科,并且数据中心的制冷系统存在定制化特征,因此对研发技术人员的技术研发能力和行业经验要求较高。目前行业发展历程较短,技术与产品仍处于验证阶段,高端技术人才相对稀缺,且高端人才主要集中规模较大的企业以及***研究机构中,因此新进企业难以在短期内培养出一批具备技术开发实力并拥有丰富实践项目经验的专业技术队伍,由此数据中心液冷行业存在较高的专业人才壁垒。

3)客户认证壁垒:出于安全性、稳定性等考虑,企业客户在选择液冷数据中心基础设施供应商时通常需要进行严格的资质验证。尤其是金融、医药等机构出于数据安全、保密等要求,对液冷数据中心基础设施解决方案供应商挑选非常严格,需要对企业产品质量水平、项目经验、技术研发能力进行综合考察,因此认证过程复杂且耗时较长。液冷数据中心基础设施厂商应具备较强的产品研发能力、稳定的产品供应以及售后服务经验,同时具备丰富的技术储备,才能满足不同客户的需求。另一方面,由于更换液冷数据中心基础设施供应商会对产品的稳定性形成风险,客户在与液冷数据中心基础设施供应商建立生产配套关系后,倾向于维持与现有技术供应商的合作,不会轻易更换主要供应商,因此先进入者一旦建立起自身客户资源、形成先发优势,新进入企业将很难在短期内争夺市场份额、改变行业现有格局,因此数据中心液冷行业具有较高的客户认证门槛。

2.3 竞争格局:行业仍处于技术验证阶段,市场格局尚不明确

目前液冷行业仍处于技术验证阶段,技术路线、产品结构、行业标准等还无定数,国外厂商难以进入中国市场,市场竞争格局尚不明确。目前市场中主要厂商在液冷技术和产品方面还处于实验研究或初步应用阶段,产品结构与行业标准尚在演进,市场内还未形成具备较强核心竞争力的龙头厂商,市场竞争格局尚未稳定。此外,由于中国对数据安全的保护,在数据中心基础设施的供应方面存在一定的地域壁垒,因此,目前国外厂商的产品的应用主要以其本国市场为主,进入中国市场较为困难。

3 数据中心液冷行业未来看点

3.1 推理/训练服务器功耗有望达到10/2kW,液冷方案成为首选

生成式人工智能横空出世,助推AI算力景气度。受ChatGPT为代表的生成式人工智能大模型等新业态带动,全新的AI应用场景有望在未来3-5年爆发,百亿参数是大模型具备涌现能力的门槛,千亿参数的大模型将具备较好的涌现能力,AI算力成为大模型能力提升的核心驱动力。现阶段ChatGPT的总算力消耗达到了3640PF-day(每秒计算一千万亿次,需要计算3640天),需要7-8个投资规模30亿元,算力500P的超大数据中心才能支撑其训练过程,AI算力的重要性不言而喻。据IDC预测,全球AI算力市场规模将从2022年的195.0亿美元增长到2026年的346.6亿美元,其中生成式AI算力市场规模将从2022年的8.2亿美元增长到2026年的109.9亿美元,生成式AI算力占整体AI算力市场规模的比例将从4.2%增长到31.7%。

640.webp (9).jpg

大模型带来高算力,高算力带来高功耗。随着AI计算、HPC计算等高性能计算需求不断提升,CPU、GPU等计算芯片朝高算力、高集成方向演进,同时也导致单颗计算芯片功耗的大幅提升。对于CPU、GPU、ASIC等计算芯片而言,一方面可以通过增加计算核心数或提高单核心的主频等方式来提高算力,此举会显著增加芯片的TDP(热设计功耗);另一方面可以依靠先进制程技术来缩减单位算力对应的TDP(TDP/算力)。但是由于先进制程技术推进较慢等因素,单位算力对应TDP的下降幅度逐年减少,且远不及算力的增长速度,这也导致了AI芯片功耗的大幅攀升。当前,Intel的多款CPU芯片的TDP已突破350W,NVIDIA 的H100系列GPU芯片的TDP更高达700W。

640.webp (10).jpg

计算芯片高功耗造成单服务器功耗显著提高。单服务器功耗大部分源于计算芯片,服务器的核心组件包括CPU(中央处理器)、GPU(图形处理器)、内存芯片、SSD(固态硬盘)、网卡、PCB主板、RAID卡、HBA卡和电源等。CPU/GPU等计算芯片在通用服务器功耗中占比约为50%左右,而在AI服务器中,计算芯片的功耗占比高达80%以上。我们参考2022-2023年中国电信集采AI服务器配置与阿里云通用服务器配置进行功耗计算,服务器的功耗可以粗略估计为所有组件的功耗总和;选取超聚变FusionServer 2288 V7作为通用服务器的代表型号,超聚变FusionServer G5500 V6作为AI训练服务器的代表型号,超聚变FusionServer G8600 V7作为AI推理服务器的代表型号。

通过我们的测算,通用服务器的总功耗为595W,AI训练服务器的总功耗为7015W,AI推理服务器的总功耗为1615W。但是由于芯片超频,额外的NVLINK模组等因素的存在,计算芯片的实际满载功耗往往会高于官方标定的功耗。以上因素导致服务器的实际功耗可能会高于各组件的总功耗,具体的功耗还要以实际测试为准。根据超聚变服务器功耗计算器的测算,当前配置下的通用服务器的实际满载功耗为700W左右,AI训练服务器的实际满载功耗为9800W左右,AI推理服务器的实际满载功耗为2000W左右。(该过程仅为根据公开资料的估算,请以实际环境和负载下的测算为准)

640.webp (11).jpg

随着服务器功耗提高,单机柜功率上升趋势明显。根据Uptime Institute相关报告数据显示,2020年全球数据中心单机柜功率密度达到8.4kW/机柜,相比于2017年的5.6 kW/机柜有明显提升;其中71%的数据中心平均功率密度低于10 kW/机柜,17%的数据中心平均功率密度高于20kW/机柜,预计未来数据中心功率密度将继续上升,高密度数据中心占比将持续提高。

单机柜功率逐渐超出风冷散热阈值,液冷散热已是趋势所向。风冷散热一般适用于20Kw/机柜左右的功率密度以下,20Kw/机柜以上时液冷散热优势明显。通用服务器通常为2U,AI训练服务器通常为6U,AI推理服务器通常为4U,标准机柜为42U;考虑到电源模块、网络模块等因素,假设单机柜内可以放置18个通用服务器或6个AI训练服务器或9个AI推理服务器,根据之前对于服务器功耗的测算,则单机柜功率可以分别达到12.6kW(通用),58.8kW(AI训练)和18kW(AI推理);考虑到机柜中其他模块的散热情况,实际单机柜功率会更高。对于通用服务器机柜,其单机柜功率已经开始逐步靠近风冷散热阈值,随着通用服务器功耗的持续上升,液冷散热的优势有望逐步显现;对于AI训练与推理服务器机柜,其单机柜功率已经逼近或者超出了风冷散热所能覆盖的功率密度范围,液冷散热已成大势所趋。

3.2 PUE限制是现阶段液冷技术发展的核心驱动力

数据中心耗电量不断提升,绿色低碳成为必然趋势。数据中心是能耗大户,其包含大量的 IT 设备、供电与制冷设备。随着数据中心算力与功耗的不断增长,数据中心耗电量必将呈快速增长趋势,绿色低碳必将并且已经成为新型数据中心发展的重要基本原则之一。

我国数据中心平均PUE为1.49,仍有半数区域的数据中心PUE位于1.5以上。PUE 全称 “Power Usage Effectiveness(能源使用效率)”,是数据中心消耗的一切能源与 IT 负载运用的能源之比,比值越接近于1,说明能源越接近全部都用于 IT 负载上。目前我国一半以上区域的数据中心 PUE 值都在 1.5 以上,即消耗在冷却等非 IT 负载上的能源,占到了 IT 负载的一半以上。截至2021年全国数据中心平均PUE为1.49,还有华南、华东、西北和西南区域的数据中心PUE超过1.50,仅有东北、华北和华东区域的数据中心PUE在1.50以下。

640.webp (12).jpg

数据中心PUE管控日趋严格,针对老旧与新建数据中心均出台强力约束措施。国家与地方出台了一系列政策对数据中心能耗管理进行规范,不断强调数据中心绿色高质量发展的重要性。2021年7月,工信部印发《新型数据中心发展三年行动计划(2021-2023年)》,要求到2021年底,新建大型及以上数据中心PUE降低到1.35以下;到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区降低到1.25以下。2022年8月,工信部等七部门印发《信息通信行业绿色低碳发展行动计划(2022-2025年)》,要求到2025年,全国新建大型、超大型数据中心电能利用效率(PUE)降到1.3以下,改建核心机房PUE降到1.5以下。除此之外,地方也出台了一系列数据中心PUE要求相关的政策文件,其中北京针对数据中心的年能源消耗量设立了多层次PUE要求,年能源消耗量越高的数据中心PUE要求越高,此外还针对PUE超过1.4的数据中心实行电价加价措施。

640.webp (13).jpg

640.webp (14).jpg

冷却系统占据数据中心除IT设备负载外的能耗中的绝大部分,液冷技术能够有效降低冷却系统能耗,进而降低数据中心PUE,满足监管政策要求。PUE为1.92的数据中心下冷却系统能耗占总能耗的比例为38%左右,而PUE为1.3的数据中心下冷却系统能耗占比下降至18%,这意味着降低数据中心PUE的关键就在于降低冷却系统的能耗表现。在同等的散热水平下,传统风冷方案的数据中心PUE一般为1.5左右,液冷方案的PUE值可降至1.05-1.2左右,能够满足当前政策对于数据中心PUE的要求。

3.3 数据中心TCO是液冷技术规模应用的关键因素

数据中心总成本(TCO)包括建设成本(Capex)和运营成本(Opex)。Capex一般指建设成本,包括土地获取、勘察、规划设计、设备购置、建设、安装以及系统调测等费用;Opex一般指运营成本,主要包含电力、冷却散热等基础设施成本、维护成本及管理成本。低成本是数据中心建立竞争优势的关键,也是降低投资回收期和持续发展的关键。

我们基于华东地区、2N UPS、30kW每机柜等常见数据中心配置进行风冷、冷板式液冷和浸没式液冷等不同冷却方式下的TCO测算(本文关于TCO的讨论均不考虑服务器等IT设备成本)。市场普遍认为,风冷方案在Capex上更具经济性,液冷方案只在后续的Opex中有一定的优势。但是根据奕信通科技在2022年数据中心标准峰会(CDCC)发布的报告进行测算,现阶段选择冷板式液冷方案的Capex已经低于风冷方案,即便是浸没式液冷方案,也将在运行5年左右之后出现TCO低于风冷方案的拐点。(该过程仅为根据公开资料的估算,请以实际环境和负载下的测算为准)

但是该测算结果依赖于一定的前提条件:如机柜功率达到30KW、不计算服务器折旧和服务器运营支出、水电费与房租等运营成本按华东地区情况计价、采用集中式大型IDC机房且IT设备在12个月线性上架后实现80%负载率、外界气温对制冷系统的能耗需求较高等。因此在西北部地区、较小型数据中心等场景下液冷技术的经济性尚没有完全体现。但在数据中心发展的大型化、集约化的趋势下,且液冷方案仍存在每年降本5-10%的空间,再考虑到液冷方案能够有效延长服务器使用寿命,未来液冷数据中心TCO的优势将更加明显。

640.webp (15).jpg

机电部分包括制冷系统、配电系统、机柜系统、布线系统和监控管理系统的购置和安装成本,不考虑IT设备成本。

640.webp (16).jpg

液冷方案与风冷方案相比:1)其机电部分的Capex可以节省掉冷冻水机组/冷冻水精密空调,减少UPS和开关设备的容量等;2)需要增加密封机箱、冷却液、冷板、热交换器、防滴漏连接器和机架式分液器等液冷设备方面的成本;3)液冷方案下同样外电体量的数据中心内空间利用率更高,能承载更多IT设备,每ITkW(IT设备功率)下的分摊成本更低。根据假设条件测算,风冷、冷板式液冷、浸没式液冷方案的机电部分Capex分别为16000-18000元/ITkW、15000-17000元/ITkW和23000-28000元/ITkW左右。冷板式液冷方案下分摊到每ITkW下的机电部分Capex与风冷方案基本持平甚至更低;浸没式液冷方案所需增加的机电设备较多,分摊下来每ITkW的Capex相比于风冷仍有7000-10000元/ITkW左右的上升。

640.webp (17).jpg

土建部分主要包括建筑物成本。风冷和液冷方案的土建成本差异主要在于同样体量的数据中心内,液冷方案下建筑所需的建筑面积更小。根据奕信通科技测算,风冷、冷板式液冷、浸没式液冷的土建部分Capex分别为5000元/ITkW,3000元/ITkW和3500元/ITkW左右。

外电和能评部分主要包括获取外电资源,通过能评验收所需付出的成本。与风冷相比,液冷方案的PUE更低更节能,获取外电资源,通过能评验收的难度相对会小很多。根据奕信通科技测算,风冷、冷板式液冷、浸没式液冷的外电和能评部分Capex分别为4000元/ITkW,2000元/ITkW和2000元/ITkW左右。

640.webp (18).jpg

Opex中占比*高的是电力成本,液冷技术可以有效降低电力成本。数据中心的Opex主要包括电力成本、固定资产折旧、房租、人工费等等,其中电力成本占比*高,达到56.7%(风冷情况下)。

640.webp (19).jpg

浸没式液冷方案的Opex*具优势。根据奕信通科技测算,风冷方案的Opex为9360-9720元/ITkw/年左右,冷板式液冷方案的Opex为8040-8400元/ITkw/年左右,浸没式液冷方案的Opex是7800-8160元/ITkw/年左右。

640.webp (20).jpg

现阶段选择冷板式液冷的初始TCO已经低于风冷,浸没式液冷的TCO将在5-6年之后低于风冷。我们根据以上测算结果进行10年期的TCO测算,那么风冷的Capex和Opex分别为26000元/ITkW和9540元/ITkW/年,冷板式液冷的Capex和Opex分别为21000元/ITkW和8220元/ITkW/年,浸没式液冷的Capex和Opex分别为31000元/ITkW和7980元/ITkW/年。根据TCO测算,现阶段冷板式液冷方案的TCO从开始就已经低于风冷方案,浸没式液冷方案也将在5年左右之后出现TCO低于风冷方案的拐点。

640.webp (21).jpg

3.4 液冷技术能够有效延长服务器使用寿命,实现降本增效

传统电子设备普遍采用空气冷却方式,温度是电子设备产生故障的主要原因之一。环境的多样性包括温度、湿度、振动、灰尘等多个方面,在导致电子设备失效的因素中温度占了55%,过热是电子设备产生故障的主要诱因。随着温度的增加,电子、原子、分子的运动速度加快,使得电子设备的性能发生变化,当达到一定阶段时,就会引起严重的故障。在高于一般室内环境温度(约20°C~25°C)范围内条件下,故障率大致按指数规律随温度的升高而增加。同时,湿度、振动、灰尘等因素同样会对电子设备的工作性能和使用寿命产生负面影响。

640.webp (22).jpg

液冷能够有效降低服务器部件故障率,延长使用寿命。液体具有比空气更大的比热容,散热能力更强,使得服务器温度更加稳定,CPU和GPU计算部件可以长时间稳定工作在高性能频率状态。此外,浸没式液冷将IT设备浸入封闭的液体环境中,与空气完全隔离,并且不再需要高速风扇进行散热,消除了空气湿度、风扇振动以及灰尘带来的可靠性影响,从而优化了服务器的运行环境,延长了设备的使用寿命。根据阿里云的实验数据,与风冷服务器相比,液冷服务器整体部件故障率下降约53%,其中电源、网卡、风扇、网线等部件的故障率下降超过80%。随着单服务器价值量以及数据中心运营成本的与日俱增,服务器的可靠性与使用寿命显得尤为重要,液冷带来的附加经济价值有望逐步显现。

640.webp (23).jpg

3.5 解耦交付模式成为未来发展趋势,助力液冷产业规范化发展

目前冷板式液冷方案的交付模式可以分为两类,包括一体化交付与解耦交付两种。一体化交付是指液冷机柜的所有部分,包括机柜和服务器等,都按照厂商自行设定的标准进行集成设计开发,然后再作为一个整体进行交付。而解耦交付则要求液冷机柜与液冷服务器之间遵循用户预先制定的通用接口设计规范,机柜与服务器可以分别由不同厂商负责生产和交付。

640.webp (24).jpg

640.webp (25).jpg

解耦交付模式为大势所趋,助推冷板式液冷产业规范化发展。服务器与机柜解耦更有利于形成统一的技术标准及规范,能够促进行业竞争与技术推广,让更多厂商能够参与液冷行业,实现多厂家适配,也便于后续灵活部署,使得客户可以根据实际需求选择不同的服务器和机柜组合,不会受限于某一个供应商。目前华为、超聚变等液冷厂商已经实现了盲插快接,中国移动也已经着手研发新型机柜,并计划在完成测试后开源,推动更多的服务器和机柜厂商参与到盲插解耦液冷技术的研发与验证中,推动技术成熟与规范化。

640.webp (26).jpg

4 数据中心液冷未来市场规模估算

根据估算,到2025年,中国数据中心液冷市场规模将达到359亿元左右,CAGR达到72.4%;AI数据中心液冷市场规模将达到280亿元左右,CAGR达到71.4%;通用数据中心液冷市场规模将达到79亿元,CAGR达到76.2%。核心假设如下:

1)假设通用服务器的平均功率为0.7kW。以超聚变FusionServer 2288 V7(2U)作为通用服务器的代表型号,在超聚变服务器功耗计算器中测算得出其满载功率约为0.7kW。

2)假设AI服务器的平均功率为3.8kW,其中AI训练服务器平均功率为8kW,AI推理服务器为2kW。根据产业调研数据,假设AI服务器中训练与推理的数量关系约为3:7,训练服务器中H系列和A系列所占比例约为4:6,推理服务器均为T4系列。以超聚变FusionServer G5500 V6作为AI训练服务器的代表型号,超聚变FusionServer G8600 V7作为AI推理服务器的代表型号,根据超聚变服务器功耗计算器,H系列训练服务器满载功率约为10kW,A系列训练服务器满载功率约为6.8kW,T4系列推理服务器的功率约为2KW。结合以上数量比例关系,可以估算出AI服务器平均功率约为3.8kW。

3)假设通用服务器平均功率每年提升10%,AI训练与推理服务器平均功率未来三年提升30%/20%/15%。根据近几年CPU/GPU TDP的变化趋势,CPU TDP每年提升10%左右,GPU TDP每年提升20%左右,我们假设通用服务器平均功率未来三年保持10%左右的增速,AI训练与推理服务器平均功率未来三年的增速为30%/20%/15%。

4)至2025年,假设通用服务器液冷渗透率由5%提升到20%,AI训练服务器液冷渗透率由70%提升到100%,AI推理服务器液冷渗透率由40%提升至70%。根据产业调研与曙光数创的信息,2022年我国液冷渗透率为5%-8%左右,预计2025-2028年时液冷渗透率能达到30%左右。我们假设通用服务器2022年液冷渗透率为5%,至2025年液冷渗透率上升至20%;AI训练服务器2022年液冷渗透率为70%,至2025年液冷渗透率上升至100%;AI推理服务器2022年液冷渗透率为40%,至2025年液冷渗透率上升至70%;整体液冷渗透率由2022年的8%上升至2025年的25.7%。

5)至2025年,假设浸没式液冷渗透率由10%提升至30%,冷板式液冷渗透率由90%降低至70%。根据IDC《中国半年度液冷服务器市场(2023上半年)跟踪》报告,按照服务器出货量口径统计,2023H1我国冷板式液冷服务器比例为90%左右,浸没式液冷渗透率仅为10%。随着未来浸没式液冷技术逐渐成熟进入加速推广期,我们预计浸没式液冷的渗透率由2022年的10%上升至2025年的30%,冷板式液冷的渗透率由2022年的90%下降至70%。

6)考虑到大部分数据中心液冷厂商的产品只覆盖数据中心液冷基础设施中的制冷系统、机柜系统等核心部分,故估算数据中心液冷市场规模时只考虑数据中心液冷基础设施中制冷系统、机柜系统等核心部分的市场规模,不考虑布线系统、土建、外电、能评等其他配套部分。结合产业调研数据,假设冷板式液冷基础设施的价值量约为10000元/ITkW,浸没式液冷基础设施的价值量约为15000元/ITkW。

7)考虑到未来数据中心液冷市场竞争逐步加剧以及技术逐渐成熟,液冷方案价格将呈逐年下降的趋势;冷板式液冷技术目前更为成熟,未来价格的下降空间相对较小。我们假设冷板式液冷价值量逐年下降5%,浸没式液冷价值量逐年下降10%。

640.webp (27).jpg


以下是A股液冷服务器概念梳理:

中科曙光:公司的 ParaStor 液冷存储产品将液冷方案与存储技术结合, 有效降低 PUE 值;在应用层面,灵活配置多种场景, 针对高性能小规模应用场景,提供全闪存配置方案,而针对中大规模应用场景,则提供更高性价比的混闪配置方案,为客户释放更多的业务价值。此外,ParaStor 液冷存储产品与液冷服务器形成“存算一栈式” 液冷方案,在提高运维效率的同时,助力数据中心部署更便捷。(行业龙头)

浪潮信息:浪潮信息将“All in 液冷”纳入公司发展战略,全栈布局液冷,发布全栈液冷产品,实现通用服务器、高密度服务器、整机柜服务器、AI 服务器四大系列全线产品均支持冷板式液冷,并提供液冷数据中心全生命周期整体解决方案(行业龙头)

工业富联:公司研发基于开放平台联盟架构的 DC_MHS 数据中心模块化硬件系统,推出全球**台模块化服务器,同时产品应用于客户*新一代 HPC 加速器中;液冷技术方面,公司持续加大数据中心节能技术研发,通过沉浸式与机柜式液冷散热系统,实现成本节约及效率提升。(行业龙头)

紫光股份:2022年公司发布了H3C UniServer R4900LC G5液冷服务器及以其为核心的液冷系统、新一代超融合UIS8.0、全新绿洲平台2.0等产品和方案。(行业龙头)

中兴通讯:公司拥有全系列服务器及存储产品,包括通用服务器、GPU服务器、液冷服务器以及全闪存储产品、混闪存储产品等。(行业龙头)

光迅科技:公司是浸没液冷智算产业发展联盟会员单位,是相关标准、工艺研究和实践的重要参与者之一,目前已有相关产品发布。(行业新玩家)

飞龙股份:公司的数据中心液冷产品在芜湖飞龙、郑州飞龙已建有专门生产线。公司多个液冷项目正在进行中,部分项目已经量产。(行业新玩家)

网宿科技:公司全资子公司绿色云图自主研发的浸没式液冷技术,能够为企业提供更节能、高效的液冷数据中心建设及改造方案。经工业和信息化部电子第五研究所(中国赛宝实验室)数据中心能效评估,绿色云图自主研发的液冷数据中心PUE均值低至1.049。(行业新玩家)

润泽科技:公司已经开始批量交付液冷机柜,正在交付的以10kw左右的高密机柜为主,以及20kw以上的液冷机柜。公司将加快推进高密机柜和液冷机柜应用,快速实现整栋液冷数据中心正式投运,向智算中心和超算中心快速演进,形成数据中心、智算中心和超算中心融合的综合算力中心。(行业新玩家)

烽火通信:公司全新一代 FitNeo LCS 液冷解决方案,专为高热密度机柜绿色低碳运营而设计。FitNeo LCS 通过芯片级制冷,直接利用*大温差快速换热,实现超低 PUE,CLF 低至 0.04,功耗降低 5-20%;同时,具有环保无氟、低噪低耗、绿色节能等特点,机组管路通过工厂预制模块化配装实现快速交付,精减现场动火焊接环节;冷却液缓蚀抑菌、超低电导,连接部件超高承压,超低漏率,全链路漏液检测可自动上报。(行业新玩家)

锐新科技:公司铝合金散热器应用在液冷服务器中。在光模块的冷却中,通过对铝合金基座进行直接水冷散热的,而光学元件是装在基板上工作,所产生的热量是由基座吸收,从达到散热的目的。公司铝合金散热器应用在液冷服务器光模块的冷却。(液冷材料)

科华数据:目前公司自主研发的液冷技术已运用在公司数据中心及储能产品、解决方案中。领先的产品和技术是公司的长期核心竞争力,公司持续跟进客户的技术产品需求,做好相关技术储备,保持自身技术的领先性。(液冷零部件)

欧陆通:公司为阿里巴巴定制的新一代浸没式液冷集中式供电电源在云栖大会展出,应用于磐久服务器供电系统。该电源方案包括晨没式液冷的ATS 2.5KW PSU 和30kw Power Shef,由欧陆通子公司云电科技自主研发及生产,进入准量产阶段。该加工结合了浸没式液冷+集中式供电的双重优势,带ATS部件整机效率高达97%。(液冷零部件)

中石科技:公司宜兴子公司主营产品包括液冷模组等,建立相关技术储备和产品线,为国内外多家服务器企业提供液冷等全方位的管理综合解决方案。(液冷零部件)

科创新源:公司研发的数据中心服务器特种散热模组可满足客户在高算力场景下,高功耗半导体芯片的散热效能,该项目已完成样品试制并已通过验证。公司控股子公司苏州瑞泰克散热科技有限公司主要产品包括冷凝器、蒸发器以及散热液冷板等热管理系统产品。(液冷零部件)

高澜股份:公司服务器液冷业务拥有三种解决方案:冷板式液冷、浸没式液冷和集装箱式液冷,可有效降低大型数据中心的PUE(数据中心总设备能耗/IT设备能耗)。(液冷零部件)

康盛股份:公司新一代数据中心机房建设完成并投入使用,标志着康盛股份在液冷温控领域实现新突破,迈上新台阶。康盛股份标准化浸没式液冷机房IT设备功率130kW,可提供2P算力。液冷机房建设主要依据GB50174-2017和液冷数据中心技术规范(康盛股份参编行业标准)。康盛股份标准化浸没式液冷机房配3台30kW 42U高性能液冷机柜、2台20kW 21U高性能液冷机柜。目前运行服务器主要有新华三5315Y服务器和DELL R760服务器。(液冷零部件)

精研科技:公司可为消费电子、通信、激光投影、服务器等领域客户提供风冷模组、液冷模组、液冷板以及模组子件热管、VC等散热部品。(液冷零部件)

华勤技术:公司已于2021年取得液冷装置及设备的实用新型**,并在散热方面取得了数据产品散热核心技术。目前在部分的人工智能服务器上使用液冷散热技术。(液冷零部件)

锐捷网络:司在业界进行了NPO、液冷等创新技术的探索和市场实践。公司与头部互联网客户联合发布了在大型数据中心规模部署的浸没式液冷交换机,提升了数据中心网络的可靠性和能源效率;去年,公司发布了同时应用NPO硅光和冷板式液冷技术的 51.2T NPO硅光交换机,推动数据中心网络建设更加绿色低碳化。(液冷零部件)

飞荣达:公司针对服务器上的散热需求还开发了轴流风扇,特种散热器,单相液冷冷板模组,两相液冷模组等产品。(液冷零部件)

强瑞技术:公司CDU(液冷分配单元)单机已通过客户测试并生产。(液冷零部件)

申菱环境:公司致力于紧跟客户步伐,通过高能效,可靠的新一代温控产品如DPC相变冷却系统,新型高效蒸发冷却系统,液冷温控系统等产品和解决方案服务客户。(液冷零部件)

英维克:公司在算力行业应用的液冷全链条解决方案已有成熟、完整布局,未来由于AI算力的增长势必拉动相关的业务增长。(液冷零部件)

同方股份:公司目前有基于华为昇腾的AI服务器可提供液冷解决方案。(华为)

朗威股份:公司是一家数据中心机房及综合布线设备提供商,主营业务是服务器机柜、冷热通道、微模块、T-block机架等数据中心机柜和综合布线产品的研发、生产、销售及服务。2022年公司液冷机柜产品销售收入占数据中心机柜销售总额的比例为3.79%。(液冷零部件)

神州数码:公司目前正在进行液冷整机柜产品的需求设计和开发。目前液冷共有两种主流的技术方案,分别是浸没方案和冷板方案,分别适用于不同的数据中心场景,公司当前规划的液冷整机柜产品会基于冷板开发。(液冷零部件)

双良节能:公司CDM液冷换热模块涉及全浸没式液冷服务器换热模块与尾端冷却塔设备,近年来一直获有优质客户的订单。(液冷零部件)

[声明]文章系本网编辑转载,转载目的在于传递更多行业新闻信息,文章仅作交流学习使用,也并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在**时间删除内容!

本站文章版权归原作者所有 内容为作者个人观点 本站只提供参考并不构成任何投资及应用建议。本站拥有对此声明的*终解释权。