登录 注册 返回主站
F10资料 推荐产品 炒股必读

AI算力基础设施共振

  • 作者:中流击水666
  • 2023-04-19 14:15:17
  • 分享:

一、

策略

“AI+”奇点,类比13年“移动互联网+”

(一)本轮“AI+”判断行情三阶段走,当前首推上游算力

复盘13年“移动互联网+”行情,我们发现有两条明确的主线一方面存在两大贯穿整个行情阶段的主线行情;另一方面,市场行情又大体沿着“移动互联网”产业链,呈现“自上而下”的轮动行情。

主线行情方面,能够贯穿整个行情的主线行情需要同时具备三大要素: 内生产业发展催化、外部政策持续刺激、盈利印证。但我们进一步研究发现①同时具备内部产业催化和外部政策刺激,但盈利印证缺席的行业,往往也能够实现较高的涨幅(超过120%);②而具备业绩增速印证,但内部产业催化和外部政策刺激要素缺席的行业,虽仍有一定涨幅(60%左右),但显著跑输主线行情。

产业链行情轮动方面,我们发现2013年“移动互联网+”行情大致可以分为三个阶段第一阶段行情以上游硬件为主,第二阶段扩散到中游软件、服务,第三阶段进一步下沉至下游应用。进一步的,如何判断行情即将出现切换?我们认为需要关注三大指引指标外部政策、行业内在催化因素,阶段性回调。但与投资者直觉不相符的是,市场赔率和交易指标——市场拥挤度与估值——并不能为行情的轮动切换提供指引号。

借鉴13年“移动互联网+”行情,我们认为本轮“AI+”行情也将分三阶段走上游算力→中游软件服务→下游应用。当前行情仍在第一阶段,我们重点首推“上游算力”;同时投资者需要关注向第二阶段“中游软件服务”和第三阶段“下游应用”的切换号。

(二)AIGC产业链通行业重点涉及上游基础设施

目前AIGC产业链可分为上游(数据)、中游(算法)、下游(应用),上游主要包括数据平台——提供数据和算力层——提供底层支持;中游为算法层,在原始数据的基础上进行模型的训练与二次开发;下游则为应用层,包括内容的生产与分发两个方面,涉及营销、推荐等多个应用场景,未来有望在更多行业铺开。

目前上游算力和中游大模型需求率先爆发,下游应用需求尚未被挖掘,处于雏形概念阶段。通行业主要涉及上游算力基础设施,尤其受益ChatGPT带来的大量高性能计算算力需求,当前处于需求增长阶段。

二、

对话通

六问六答,“AI+”哪些环节受益?

(一)Q1在通行业中,算力基础设施产业链哪些细分环节目前最为受益?

GPT-4多模态大模型将引领新一轮AI算力需求的爆发,超大规模数据中心及超算数据中心作为泛AI领域的重要基础设施支持,其数量、规模都将相应增长,带动整个算力基础设施产业链(如高端服务器/交换机、CPO技术、硅光、液冷技术)的渗透加速。同时在应用侧,Copilot的推出加速AI在办公领域的赋能,看好办公场景硬件配套厂商机会。

1. 服务器/交换机

AIGC带动算力爆发式增长,全球进入以数据为关键生产要素的数字经济时代。从国内三大运营商资本支出结构上看,加码算力基础设施投资成重要趋势。

重点推荐中兴通讯。公司作为运营商板块算力投资的核心受益标的,持续在服务器及存储、交换机/路由器、数据中心等算力基础设施领域加强布局,将作为数字经济筑路者充分受益我国数字经济建设。

算力需求带动上游硬件设备市场规模持续增长,高规格产品占比提升。伴随着数据流量持续提升,交换机作为数据中心必要设备,预计全球数据中心交换机保持稳定增长。2021年全球数据中心交换机市场规模为138亿美元,预计到2031年将达246亿美元,2022年至2031年复合年增长率为5.9%。多元开放的AI服务器架构为可以人工智能发展提供更高的性能和可扩展性的AI算力支撑,随着AI应用的发展,高性能服务器数量有望随之增长,带动出货量及服务器单价相应提升。根据IDC报告,2022Q3,200/400GbE交换机市场收入环比增长25.2%,100GbE交换机收入同比增长19.8%,高速部分呈现快速增长。

我们建议关注在配套互联网云计算基础设施建设中提供交换机的白牌交换机核心供应商锐捷网络,以及国产网络设备解决方案商菲菱科思、智微智能、兆龙互连等。

2. 光模块/光芯片

算力需求提升推动算力基础设施升级迭代,传统可插拔光模块技术弊端和瓶颈开始显现。(1)功耗过高,AI技术的加速落地,使得数据中心面临更大的算力和网络流量压力,交换机、光模块等网络设备升级的同时,功耗增长过快。以博通交换机芯片为例,2010年到2022年交换机芯片速率从640G提升到51.2T,光模块速率从10G迭代到800G。速率提升的同时,交换机芯片功耗提升了约8倍,光模块功耗提升了26倍,SerDes功耗提升了25倍。(2)交换机端口密度难以继续提升,光模块速率提升的同时,自身体积也在增大,而交换机光模块端口数量有限。(3)PCB材料遭遇瓶颈,PCB用于传输高速电号,传统可插拔光模块号传输距离长、传输损失大,更低耗损的可量产PCB材料面临技术难题难以攻克。

NPO/CPO技术有望成为高算力背景下的解决方案。CPO(光电共封装技术)是一种新型的高密度光组件技术,将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装。CPO可以取代传统的插拔式光模块技术,将硅光电组件与电子晶片封装相结合,从而使引擎尽量靠近ASIC,降低SerDes的驱动功耗成本,减少高速电通道损耗和阻抗不连续性,实现更高密度的高速端口,提升带宽密度,大幅减少功耗。

CPO技术的特点主要有(1)CPO技术缩短了交换芯片和光引擎之间的距离(控制在5~7cm),使得高速电号在两者之间实现高质量传输,满足系统的误码率(BER)要求;(2)CPO用光纤配线架取代更大体积的可插拔模块,系统集成度得到提升,实现更高密度的高速端口,提升整机的带宽密度;(3)降低功耗,根据锐捷网络招股说明书,采用CPO技术的设备整机相比于采用可插拔光模块技术的设备,整机功耗降低23%。

高算力背景下,数据中心网络架构升级带动光模块用量扩张及向更高速率的迭代。硅光、相干及光电共封装技术(CPO)等具备高成本效益、高能效、低能耗的特点,被认为是高算力背景下的解决方案。CPO将硅光电组件与电子晶片封装相结合,使引擎尽量靠近ASIC,减少高速电通道损耗,实现远距离传送。目前,头部网络设备和芯片厂商已开始布局硅光、CPO相关技术与产品。

建议关注天孚通、中际旭创、新易盛、源杰科技。

3. 数据中心

IDC数据中心“东数西算”工程正式全面启动一周年,从系统布局进入全面建设阶段。随着全国一体化算力网络国家枢纽节点的部署和“东数西算”工程的推进,算力集聚效应初步显现,算力向规模化集约化方向加速升级,同时数据中心集中东部的局得到改善,西部地区对东部地区数据计算需求的支撑作用越发明显。我们认为政策面推动供给侧不断出清,AI等应用将带动新一轮流量需求,有望打破数据中心近两年供给过剩的局面,带动数据中心长期发展。

建议关注奥飞数据、数据港、润泽科技。

液冷温控随云计算、AI、超算等应用发展,数据中心机柜平均功率密度数预计将逐年提升,高密度服务器也将被更广泛的应用于数据中心中。数据中心液冷技术能够稳定CPU温度、保障CPU在一定范围内进行超频工作不会出现过热故障,有效提升了服务器的使用效率和稳定性,有助于提高数据中心单位空间的服务器密度,大幅提升数据中心运算效率,液冷技术有望在超高算力密度场景下持续渗透。

建议关注英维克、佳力图、依米康。

4. 运营商

通运营商自身拥有优质网络、算力、云服务能力的通运营商,同时具备天然的产业链优势,依靠5G+AI技术优势,为下游客户提供AI服务能力,是新型息服务体系中重要的一环,助力千行百业数字化转型。作为算力基础设施建设的主力军已经进行前瞻性的基础设施布局。中国移动打造九天人工智能平台,推进AI商业化,赋能中国移动内外部数智化转型;中国电全面布局大模型技术,积极探索产业版“ChatGPT”的商业化应用;中国联通全力升级算力网络,推动5G和AI技术的融合。

建议关注中国移动、中国电、中国联通。

5. 企业通

3月16日晚微软正式宣布推出Microsoft 365 Copilot,将大型语言模型(LLMs)的能力嵌入到Office办公套件产品中。基于GPT-4的Copilot以其视频+图文的多模态分析以及更强大生成与理解能力,可更深度、全面发挥视频会议AI助理功能,比如可以确定目标捕捉发言总结某人谈话要点、全面理解会议主要内容并自动整理及发送会议纪要等。随着Copilot更强大功能对微软办公套件的加持,有望带动Teams需求的增长,中国企业通终端厂商将作为微软重要的硬件合作伙伴有望深度受益。

建议关注亿联网络(由广发计算机组覆盖)。

(二)Q2从通公司视角看,海内外的云商/运营商在AI算力基础设施上投入如何?

北美云厂商资本支出向技术基础设施和新数据中心架构倾斜。22Q4亚马逊资本支出主要用于技术基础设施的投资,其中大部分用于支持AWS业务增长与支持履行网络的额外能力。预计未来相关投资将延续,并增加在技术基础设施方面的支出。谷歌指引2023年资本开支与2022年基本持平,其中技术基础设施有所增加,而办公基础设施将减少。

Meta2022年资本开支为314.3亿美元,同比增长69.3%,但同时Meta略微调低其2023年资本开支预期至300-330亿美元(此前预期为340-370亿美元),主要原因系减少数据中心建设的相关支出,转向新的更具成本效益的、同时支持AI和非AI工作量的数据中心新架构。

亚马逊亚马逊是几大云厂商中自研芯片技术最为深厚的厂商。在2022年11月举办的re:Invent论坛上,亚马逊推出了用于加速机器学习训练的Trainium芯片,应用Trainium的AI专用实例Trn1是第一个具有800 Gbps网络带宽的EC2实例,能够提供3.4PFlops算力。在超大规模集群EC2 UltraClusters中,用户最多可以扩展到多达3万块Trainium,相当于使用一台6.3 EFlops算力的超算。推理芯片侧,公司最新自研Inferentia2推理芯片应用于Inf2实例,相比前一代Inf1实例,提供了4倍以上的吞吐量,延迟降低为原来的十分之一,有效降低了机器学习推理成本。

谷歌Transformer模型是AI大模型的核心技术。谷歌作为Transformer模型的开创者和AI领域长久的引领者,建立了世界上参数量最大的通用语言生成模型PaLM,并拥有对话模型LaMDA、图像生成模型Imagen、音乐生成模型MusicLM等,但在业务落地上稍显疲软。ChatGPT热潮掀起后,谷歌向OpenAI竞争对手Anthropic投资约3亿美元,获得该公司10%股份。Anthropic由前OpenAI研究人员于2021年创立,目前正在开发名为“Claude”的生成式AI聊天机器人。

微软ChatGPT的巨大成功帮助微软在人工智能赛道有了良好的卡位。2022年12月底,微软在对外声明中表示会继续和OpenAI保持“数年数十亿美金”规模的合作关系。在下一阶段的合作关系中,双方将继续加强AI基础设施、模型和工具链方面的建设。2023年2月2日,微软CEO Satya Nadella透露,计划将ChatGPT等人工智能工具整合到旗下搜索引擎、Office、云服务等产品当中。2023年2月8日,微软发布了拥有GPT-4系统加持的Bing和Edge浏览器,新版浏览器除了显示传统搜索展示,还会应用GPT系统在网页右侧直接给出答案。

国内三大运营商积极布局算力网络,资本支出向新兴业务倾斜。电运营商作为数字基座打造者,运营商数字业务板块成为收入增长的主要引擎,近几年资本支出由主干网络向新兴业务倾斜。中国移动计划2022年全年算力网络投资480亿元,占其总资本开支的39.0%。2022Q3,中国移动算力规模达到7.3EFLOPS,并计划在2025年底达到20EFLOPS以上。中国电产业数字化资本开支占比同比上升9.3pc,算力总规模计划由2022年中的3.1EFLOPS提升至2025年底的16.3EFLOPS。中国联通2022年预计算力网络资本开支达到145亿,同比提升43%,云投资预计提升88%。

作为算力基础设施建设的主力军,三大运营商目前已经进行前瞻性的基础设施布局。通运营商自身拥有优质网络、算力、云服务能力的通运营商,同时具备天然的产业链优势,依靠5G+AI技术优势,为下游客户提供AI服务能力,是新型息服务体系中重要的一环,助力千行百业数字化转型。在移动网络方面,中国运营商已建设覆盖全国的高性能高可靠4/5G网络;在固定宽带方面,光纤接入(FTTH/O)端口达到10.25亿个,占比提升至95.7%;在算力网络方面,运营商在资本开支结构上向算力网络倾斜,提升服务全国算力网络能力。在AI服务能力方面,加快AI领域商业化应用推出,发挥自身产业链优势,助力千行百业数字化转型。

中国移动打造九天人工智能平台,推进AI商业化,赋能中国移动内外部数智化转型。中国移动从2013年开始,打造数智化核心引擎—九天人工智能平台。九天人工智能能够提供从AI基础设施、AI能力到AI应用的平台集中化服务,目前能够在中国移动内部网络、市场管理以及外部行业数字化转型方面形成规模化应用。(1)在网络领域,九天将AI技术全流程体系化融入网络生产系统中,打造网络智能投诉处理、基站智能节能、天线智能优化等多个应用,提质降本增效显著。(2)在市场领域,面向个人市场,智能客服已服务9.5亿用户。面向家庭市场,魔百盒电视大屏业务中运用多种AI技术精准推荐。面向新兴市场,在2022年卡塔尔世界杯上,中国移动推出的数智手语主播弋瑭,实现大型国际赛事AI直播字幕规模化商用及数字手语主播的“音”“字”“人”三位一体实时同步呈现。(3)在面向外部垂直行业领域,中国移动九天人工智能构建了丰富的智慧行业解决方案,服务产业的数智化升级,覆盖数字政府、智慧教育、医疗、工业、城市、司法、金融、航空等领域。

中国电全面布局大模型技术,积极探索产业版“ChatGPT”的商业化应用。中国电联合浦江国家实验室,在2022天翼生态博览会上发布了业内首个十亿参数量级城市治理领域的大模型。中国电从2022年中开始将AIGC列为重点研发方向,目前已初步建立针对电、政务等垂直领域的数据积累、语义大模型训练经验及各类下游模型的蒸馏能力,摸索基于预训练模型的低资源ASR多方言模型算法能力,可支撑包括通助理、智能外呼、数字人客服等多个高并发To C产品系统。在语义生成式模型方面,公司已具备相关技术研发基础,初步具备文章续写、主题写作、同义句生成、多轮对话和长文本摘要等能力,旨在打造面向电领域的产业版生成式技术的端到端产品化能力。公司未来将加快人工智能科技成果商业化应用,在场景应用方面,将实现全面的AI核心能力自主研发,并推动大模型由城市级模型库向产业级模型库延展,聚焦数字人、元宇宙,拓展智能客服、聊天机器人等领域。

中国联通全力升级算力网络,推动5G和AI技术的融合。中国联通基于5G和AI技术的融合,通过用户通话前中后的场景覆盖,为用户打造更高清的通,更安全的通,打造一体现实与虚拟的互动和通与AI融合的沉浸式的体验。同时作为网络安全产业链“链长”,公司或将在针对类似ChatGPT等新型数字技术的安全问题,从技术、伦理、产业、监管等维度开展协同研究,以保护我国的网络安全、息安全和文化安全。

(三)Q3从通行业视角看GPT大模型底层技术升级,如何促进行业基本面改善?

由于OpenAI并没有提供关于GPT-4用于训练的数据、算力成本、训练方法、架构等细节,故我们主要讨论ChatGPT模型的技术路径。

ChatGPT模型从算法分来上来讲属于生成式大规模语言模型,底层技术包括Transformer架构、有监督微调训练、RLHF强化学习等,ChatGPT通过底层技术的叠加,实现了组合式的创新。

GPT模型采用了由Google提出的Transformer架构。Transformer架构采用自注意力机制的序列到序列模型,是目前在自然语言处理任务中最常用的神经网络架构之一。相比于传统的循环神经网络(RNN)或卷积神经网络(CNN),Transformer没有显式的时间或空间结构,因此可以高效地进行并行计算,并且Transformer具有更好的并行化能力和更强的长序列数据处理能力。

ChatGPT模型采用了“预训练+微调”的半监督学习的方式进行训练。第一阶段是Pre-Training阶段,通过预训练的语言模型(Pretrained Language Model),从大规模的文本中提取训练数据,并通过深度神经网络进行处理和学习,进而根据上下文预测生成下一个单词或者短语,从而生成流畅的语言文本;第二阶段是Fine-tuning阶段,将已经完成预训练的GPT模型应用到特定任务上,并通过少量的有标注的数据来调整模型的参数,以提高模型在该任务上的表现。

ChatGPT在训练中使用了RLHF人类反馈强化学习模型,是GPT-3模型经过升级并增加对话功能后的最新版本。2022年3月,OpenAI发布InstructGPT,这一版本是GPT-3模型的升级版本。相较于之前版本的GPT模型,InstructGPT引入了基于人类反馈的强化学习技术(Reinforcement Learning with Human Feedback,RLHF),对模型进行微调,通过奖励机制进一步训练模型,以适应不同的任务场景和语言风格,给出更符合人类思维的输出结果。

RLHF的训练包括训练大语言模型、训练奖励模型及RLHF微调三个步骤。首先,需要使用预训练目标训练一个语言模型,同时也可以使用额外文本进行微调。其次,基于语言模型训练出奖励模型,对模型生成的文本进行质量标注,由人工标注者按偏好将文本从最佳到最差进行排名,借此使得奖励模型习得人类对于模型生成文本序列的偏好。最后利用奖励模型输出的结果,通过强化学习模型微调优化,最终得到一个更符合人类偏好语言模型。

(四)Q4GPT-4模型能力升级,对算力基础设施哪些细分环节要求提高?

多模态大模型GPT-4是OpenAI的里程碑之作,是目前最强的文本生成模型。ChatGPT推出后的三个多月时间里OpenAI就正式推出GPT-4,再次拓宽了大模型的能力边界。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本),相比上一代,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力更具创造性和协作性;能够处理超过25000个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。

1. GPT-4具备更高的准确性及更强的专业性。GPT-4在更复杂、细微的任务处理上回答更可靠、更有创意,在多类考试测验中以及与其他LLM的benchmark比较中GPT-4明显表现优异。GPT-4在模拟律师考试GPT-4取得了前10%的好成绩,相比之下GPT-3.5是后10%;生物学奥赛前1%;美国高考SAT中GPT-4在阅读写作中拿下710分高分、数学700分(满分800)。

2. GPT能够处理图像内容,能够识别较为复杂的图片息并进行解读。GPT-4突破了纯文字的模态,增加了图像模态的输入,支持用户上传图像,并且具备强大的图像能力—能够描述内容、解释分析图表、指出图片中的不合理指出或解释梗图。在OpenAI发布的产品视频中,开发者给GPT-4输入了一张“用VGA电脑接口给iPhone充电”的图片,GPT-4不仅可以可描述图片,还指出了图片的荒谬之处。

3. GPT-4可以处理超过25000字的文本。在文本处理上,GPT-4支持输入的文字上限提升至25000字,允许长文内容创建、扩展对话以及文档搜索和分析等用例。且GPT-4的多语言处理能力更优,在GPT-4的测评展示中,GPT-4可以解决法语的物理问题,且在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中,有24种语言下,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能。

4. 具备自我训练与预测能力,同时改善幻觉、安全等局限性。GPT-4的一大更新重点是建立了一个可预测拓展的深度学习栈,使其具备了自我训练及预测能力。同时,GPT-4在相对于以前的模型已经显著减轻了幻觉问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高 40%;在安全能力的升级上,GPT-4明显超出ChatGPT和GPT3.5。

(五)Q5从通视角测算,AI大模型驱动多少算力基础设施需求?

数据、算力及模型是人工智能发展的三要素。以GPT系列为例

1. 数据端自OpenAI于2018年发布GPT-1,到2020年的GPT-3,GPT模型参数数量和训练数据量实现指数型增长。参数数量从GPT-1的1.17亿增长到GPT-3的1750亿,训练数据量从5GB增长到的45TB;

2. 模型端ChatGPT在以往模型的基础上,在语料库、计算能力、预训练、自我学习能力等方面有了明显提升,同时Transformer架构突破了人工标注数据集的不足,实现与人类更顺畅的交流;

3. 算力端根据OpenAl发布的《Language Models are Few-Shot Learners》,训练13亿参数的GPT-3 XL模型训练一次消耗的算力约为27.5 PFlop/s-dav,训练1750亿参数的完整GPT-3模型则会消耗算力3640 PFlop/s-dav(以一万亿次每秒速度计算,需要3640天完成)。

在人工智能发展的三要素中,数据与算法都离不开算力的支撑。随着AI算法突飞猛进的发展,越来越多的模型训练需要巨量算力支撑才能快速有效实施,同时数据量的不断增加也要求算力配套进化。如此看来,算力成为AI突破的关键因素。

AI大模型的算力需求主要来自于预训练、日常运营和模型微调。

1. 预训练在完成完整训练之前,搭建一个网络模型完成特定任务,在训练网络过程中不断调整参数,直至网络损失和运行性能达到预期目标,此时可以将训练模型的参数保存,用于之后执行类似任务。根据中国通院数据,ChatGPT基于GPT3.5系列模型,模型参数规模据推测达十亿级别,参照参数规模相近的GPT-3 XL模型,则ChatGPT完整一次预训练消耗算力约为27.5 PFlop/s-dav。

2. 日常运营满足用户日常使用数据处理需求。根据Similarweb的数据,23年1月份ChatGPT月活约6.16亿,跳出率13.28%,每次访问页数5.85页,假设每页平均200 token。同时假设模型的FLlops利用率为21.3%,与训练期间的GPT-3保持一致;完整参数模型较GPT-3上升至2500亿;以FLOPs为指标,SOTA大型语言在在推理过程中每个token的计算成本约为2N。根据以上数据及假设,每月日常运营消耗算力约为6.16亿*2*(1-13.28%)*5.85*200*2500亿/21.3%=14672PFlop/s-day。

3. 模型微调执行类似任务时,使用先前保存的模型参数作为初始化参数,在训练过程中依据结果不断进行微调,使之适应新的任务。

ChatGPT引发新一轮AI算力需求爆发。根据OpenAI发布的《AI and Compute》分析报告中指出,自2012年以来,AI训练应用的算力需求每3.4个月就会翻倍,从2012年至今,AI算力增长超过了30万倍。据OpenAI报告,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7-8个算力500P的数据中心才能支撑运行。上海新兴息通技术应用研究院首席专家贺仁龙表示,“自2016年阿尔法狗问世,智能算力需求开启爆发态势。如今ChatGPT则代表新一轮AI算力需求的爆发”。

全球算力规模将呈现高速增长态势。根据国家数据资源调查报告数据,2021年全球数据总产量67ZB,近三年平均增速超过26%,经中国息通研究院测算,2021年全球计算设备算力总规模达到615EFlops,增速达44%。根据中国通院援引的IDC数据,2025年全球算力整体规模将达3300EFlops,2020-2025年的年均复合增长率达到50.4%。结合华为GIV预测,2030年人类将迎来YB数据时代,全球算力规模达到56ZFlops,2025-2030年复合增速达到76.2%。

(六)Q6数据中心升级需求有多大?对哪些细分通行业有最强的投资指引?

1. 数据中心呈现超大规模发展趋势

超大规模数据中心,即Hyperscale Data Center,与传统数据中心的核心区别在于超大规模数据中心具备更强大的可扩展性及计算能力。(1)规模上,超级数据中心可容纳的规模要比传统数据中心大得多,可以容纳数百万台服务器和更多的虚拟机;(2)性能上,超级数据中心具有更高的可扩展性和计算能力,能够满足数据处理数量和速率大幅提升的需求。

具体来讲,相较于传统数据中心,超大规模数据中心的优势在于

(1)可扩展性超大规模数据中心的网络基础架构响应更迅速、扩展更高效且更具成本效益,并且提供快速扩展存储和计算资源以满足需求的能力,超大规模数据中心通过在负载均衡器后水平扩展,快速旋转或重新分配额外资源并将其添加到现有集群,可以实现快速向集群添加额外资源,从而在不中断操作的情况下进行扩展;

(2)定制化超大规模数据中心采用更新的服务器设计,具有更宽的机架,可以容纳更多组件并且允许定制化设计服务器,使得服务器能够同时接入多个电源和硬盘驱动器;

(3)自动化服务超大规模数据中心提供自动化服务,帮助客户管理高流量网站和需要专门处理的高级工作负载,例如密码学、基因处理和三维渲染;

(4)冷却效率更高超大规模数据中心对其电源架构进行了优化,并将冷却能力集中在托管高强度工作负载的服务器,大大降低了成本和对环境的影响,电源使用效率和冷却效率远高于传统数据中心;

(5)工作负载更平衡超大规模数据中心有效地将工作负载分布在多台服务器上,从而避免单台服务器过热。避免了过热的服务器损坏附近的服务器,从而产生不必要的连锁反应。

Statista数据显示,全球超大规模数据中心的数量从2015年的259个,提升到2021年的700个。根据PrecedenceResearch的报告显示,全球超大规模数据中心市场规模在2021年为620亿美元,到2030年将达到5930亿美元,预计在2022-2030年间以28.52%的复合增长率(CAGR)增长。

海内外云商均具备自己的超大规模数据中心。Structure Research在其报告中估计,到2022年全球超大规模自建数据中心总容量将达到13177兆瓦(MW)。全球四大超大规模数据中心平台——AWS、谷歌云、Meta和微软Azure——约占该容量的78%。全球占主导地位的超大规模数据中心企业仍然是亚马逊、谷歌、Meta和微软,在中国,本土企业阿里巴巴、华为、百度、腾讯和金山云都是领先的超大规模数据中心企业。

2. IB网络技术将更广泛应用于AI训练超算领域

超级数据中心是具有更大规模和更高计算能力的数据中心。随着对数据处理数量和速率需求的提升,数据中心的可扩展性需求也在迅速提升。超级数据中心在规模和性能上较传统数据中心都有了大幅升级,能够满足超高速度扩展以满足超级需求的能力。

泛AI应用是超算中心的重要下游。自20世纪80年代以来,超级计算主要服务于科研领域。传统超算基本上都是以国家科研机构为主体的超算中心,如气象预测、地震预测、航空航天、石油勘探等。截止2022年底,国内已建成10家国家超级计算中心,不少省份都建立起省级超算中心,服务于当地的中科院、气象局以及地震爆炸模型。一方面,行业头部企业将超算应用于芯片设计、生物医疗、材料测试等工业应用场景;另一方面,自动驾驶训练、大语言模型训练、类ChatGPT等AI训练的需求,也推动超算应用场景延伸至图像识别、视频识别定位、智能驾驶场景模拟以及对话和客服系统等,成为超算中心的重要下游。

超级数据中心成为算力储备的重要方向,中美加速算力基建布局。凭借其在算力能力及能耗效率的巨大提升,超级数据中心在算力储备中的地位日渐凸显。根据Synergy Research Group数据,全球超级数据中心数量从2017年的390个增长至2021年二季度的659个,增长近一倍,预计2024年总数将超1000个。份额方面,中美持续加强超级数据中心的布局,占全球市场份额持续提升。

InfiniBand网络满足大带宽和低时延的需求,成为超算中心的主流。InfiniBand(简称IB)是一个用于高性能计算的计算机网络通标准,主要应用于大型或超大型数据中心。IB网络的主要目标是实现高的可靠性、可用性、可扩展性及高性能,且能在单个或多个互联网络中支持冗余的I/O通道,因此能够保持数据中心在局部故障时仍能运转。相比传统的以太网络,带宽及时延都有非常明显的优势。(一般InfiniBand的网卡收发时延在600ns,而以太网上的收发时延在10us左右,英伟达推出的MetroX-3提升长距离InfiniBand系统带宽至400G)。作为未来算力的基本单元,高性能的数据中心越来越多的采用InfiniBand网络方案,尤其在超算中心应用最为广泛,成为AI训练网络的主流。

“数字经济”系列报告

23.4.13 【广发证券】策略对话传媒迎接新一轮场景革命

23.4.7 【广发策略】“AI+”堪比13年的“移动互联网+”

23.4.3 【广发策略】与风共舞从经典科技牛看AI奇点时刻

23.3.30【广发策略】AI第四次场景革命—“数字经济”系列(五)

23.3.28【广发策略】如何看当前数字经济的“位置感”?——“数字经济”系列(四)

23.3.17【广发策略】数字经济两大基石稳增长作用几何?——“数字经济”系列(三)

23.3.8【广发策略】国家数据局组建在即,数字中国迎提速契机——“数字经济”系列(二)

23.3.2【广发策略】三大预期差把握数字经济投资线索——“数字经济”系列(一)


温馨提醒:用户在赢家聊吧发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。本文中出现任何联系方式与本站无关,谨防个人信息,财产资金安全。
点赞8
发表评论
输入昵称或选择经常@的人
聊吧群聊

添加群

请输入验证信息:

你的加群请求已发送,请等候群主/管理员验证。

时价预警 查看详情>
  • 江恩支撑:
  • 江恩阻力:
  • 时间窗口:

数据来自赢家江恩软件>>

本吧详情
吧 主:

虚位以待

副吧主:

暂无

会 员:

1人关注了该股票

功 能:
知识问答 查看详情>