登录 注册 返回主站
F10资料 推荐产品 炒股必读

AI模型乘风起,GPU掌舵算力大时代

  • 作者:雾霭
  • 2023-04-18 06:45:56
  • 分享:

(报告出品方/作者财通证券,张益敏)

1 行业概况GPU 掌舵 AI 算力大时代,千亿级市场再迎增量

1.1 GPU提供大规模并行计算解决方案

GPU,专注图像处理。GPU(图形处理器)最初是为了解决 CPU 在图形处理领域性能不足的问题而诞生。CPU 作为核心控制计算单元,高速缓冲存储器 (Cache)、控制单元(Control)在 CPU 硬件架构设计中所占比例较大,主要为实现低延迟和处理单位内核性能要求较高的工作而存在,而计算单元(ALU)所占比例较小,这使得 CPU 的大规模并行计算表现不佳。GPU 架构内主要为计算单元,采用极简的流水线进行设计,适合处理高度线程化、相对简单的并行计算,在图像渲染等涉及大量重复运算的领域拥有更强运算能力。

GPGPU,脱胎于 GPU,通用性提升。GPU 计算单元既可运用于图形渲染领域,也能够进行通用计算。传统 GPU 应用局限于图形渲染计算,而面对非图像显示领域并涉及大量并行运算的领域,比如 AI、加密解密、科学计算等领域则更需要通用计算能力。随着 GPU 可编程性的不断提高,去掉或减弱 GPU 的图形显示部分能力,全部投入通用计算的 GPGPU(通用计算处理器)应运而生。

CPU+GPU 异构计算解决多元化计算需求。使用不同的体系架构的计算单元组成混合系统,GPU 作为协处理器负责并行加速计算,CPU 作为控制中心的异构计算面对复杂场景可实现更优性能。

1.2 “AI+汽车+游戏”三驾马车驱动行业发展

大语言模型开启 AI 元年。2022 年 11 月,OpenAI 推出基于大型语言模型 GPT-3 的 AI 对话机器人 ChatGPT,其可以与用户进行富有逻辑和创造力的自然语言对话。2017 年由 Google 提出的 Transformer 模型是大型语言模型发展的里程碑, Transformer 是一种基于注意力(Attention)机制构建的神经网络模型,克服了传统的递归神经网络(RNN)和卷积神经网络(CNN)在自然语言处理时容易被无关息干扰的缺点,能够更好的理解长序列和上下文的关系。

国内 AI 巨头持续跟进,大模型产业迎发展契机。腾讯、阿里、百度以及华为等厂商都已布局大模型产业,以“通用大模型+专精小模型”的层次化协同发展模式持续发力。 百度是国内最早进行大模型研发的科技企业之一,立足文心 NLP 大模型推出 “文心一言”对话机器人(Ernie Bot)。百度在 2019 年 3 月率先发布中国首个正式开放的预训练模型文心大模型(Ernie)1.0,2021 年 12 月,文心大模型 3.0 参数突破千亿,升级为全球首个知识增强千亿大模型,成为目前为止全球最大的中文单体模型,根据 IDC 发布的《2022 中国大模型发展白皮书》,文心大模型在国内市场格局中处于第一梯队,产品能力、生态能力、应用能力均处于行业领先地位。2023 年 3 月 16 日,百度正式发布“文心一言”对话机器人,拥有文学创作、商业文案创作、数理逻辑推理、中文理解和多模态生成五大能力,表现出对文本语义的深度理解。

阿里达摩院推通义大模型,打造国内首个 AI 统一底座。2022 年 9 月 2 日,阿里达摩院在世界人工智能大会大规模预训练模型主题论坛上发布了最新的“通义” 大模型,其打造了国内首个 AI 统一底座,构建了通用与专业模型协同的层次化人工智能体系,“统一学习范式”是通义大模型的最大亮点,通过多模态统一模型 M6-OFA 完成了架构、模块与任务的三大统一,赋予模型不新增结构即可处理包括图像描述、文档摘要、视觉定位等单模态和跨模态任务的能力。“模块化设计”也是模型特点之一,其借鉴了人脑“能力模块”结构,采用模块化 Transformer Encoder-Decoder 结构,切分出基础层、通用层、任务层、功能性四大模块,每个模块间相互解耦,分工合作。该设计便于对不同板块进行微调与继续训练,以实现大模型的轻量化。

阿里巴巴集团董事会主席兼 CEO、阿里云智能集团 CEO 张勇在 4 月 11 日阿里云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造,未来有望重塑产品格局。

华为盘古大模型基于其 ModelArts 平台开发,模型泛化有望多场景落地。 ModelArts 平台为机器学习与深度学习提供海量数据预处理及交互式智能标注、 大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力。盘古大模型基于 ModelArts 开发,由 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型多个大模型构成,通过模型泛化可在不同部署场景下抽取出不同大小的模型,动态范围可根据需求调整,从特定的小场景到综合性的复杂大场景均能覆盖。目前,盘古大模型已经在能源、零售、金融、工业、医疗、环境、物流等 100 多个行业场景完成验证。

参数数量是决定模型表现的最重要因素。大语言模型的特点是拥有强大的自学习能力,随着训练数据集和模型参数的增加,可以显著提高模型的泛化能力和通用能力,模型规模的扩大已经成为了大语言模型的发展趋势。以 OpenAI 为例,其初代 GPT 模型参数量仅有 15 亿,而基于 GPT-3 的 chatGPT 参数量已经达到了 1750 亿,目前主流 AI 厂商都进入了“千亿参数时代”。模型表现改善的同时, 不断增长的参数量对硬件算力提出了更高的要求。据 OpenAI 研究表明,最大的 AI 训练模型所需的算力每 3-4 个月翻倍,而 2012-2018 年间这个指标增长超过 300,000 倍。

GPU 已成为 AI 加速芯片通用性解决方案,提供大语言模型推理训练所需的海量算力。为构建有效的 AI 部署方案,CPU 和加速芯片结合的异构计算是经典的计算框架,目前最常见的 AI 加速芯片主要为 GPU、FPGA 和 ASIC,而 GPU 凭借其高性能、高灵活度特点成为 AI 加速方案首选。

自动驾驶升级推动边缘计算需求增加,GPU 车载领域价值逐步显现。在云计算架构中,数据通过高速网络传输至拥有大规模高性能计算设备的云计算中心进行计算,而边缘计算则将数据计算与储存集中在靠近数据源头的本地设备上,能够更快的响应计算需求。自动驾驶是边缘计算架构最前沿的应用场景之一,目前大多数自动驾驶处于 L2-L3(部分自动驾驶)级别,而要实现 L4-L5 级别高度自动驾驶,则需要人工智能短时、高频地处理大量路况息并自主完成大部分决策, 因此需要 GPU 为汽车芯片提供更多计算能力来处理复杂数据。根据地平线对 OEM 厂商需求情况的分析,更高级别的自动驾驶意味着更高的算力需求,L2 级别需要 2 TOPS、L3 级别需要 24 TOPS、L4 级需要 320 TOPS,L5 级则需要 4000+ TOPS。

GPU 提供核心计算能力,是自动驾驶算力升级趋势关键。目前,市面上主流的自动驾驶芯片采用 NVIDIA 推出的 Orin 系统级芯片(SoC),Orin 集成 NVIDIAAmpere 架构 GPU 和 Arm Hercules 内核 CPU 以及全新深度学习加速器 (DLA)和计算机视觉加速器(PVA),可以提供每秒 254TOPS 的计算能力,几乎是 NVIDIA 上一代系统级芯片 Xavier 性能的 7 倍。而根据英伟达公告,其预计在 2024 年发布下一代车载系统级芯片 Thor,通过更新芯片内含的 GPU 架构,Thor 预计可以为自动驾驶汽车提供约 2000 TOPS 的计算能力。

游戏市场画质升级驱动 GPU 显卡性能升级需求。GPU 最初作为图形处理器而诞生,在游戏显卡市场伴随玩家对游戏品质的追求不断提升,以光线追踪算法 (Ray Tracing)为代表的特殊渲染算法更多的应用到游戏显卡以提升显示画质。2018 年,NVIDIA 联合 Microsoft 共同发布了 RTX(Ray Tracing X)标准, NVIDIA 也在其同年发布的 Turing 架构 GPU 中引入了加速光线追踪计算的 RT Core,实现了光线追踪的实时化。光追通过在场景中发射光线并跟踪每个像素的光线路径来模拟真实的光传播,在提供更具真实感的画面效果的同时对于计算复杂度以及计算量需求大幅增加,整体游戏市场画质升级将驱动 GPU 显卡性能持续升级。

1.3 大语言模型助推 GPU 算力需求增长

市场对 3D 图像处理和 AI 深度学习计算等需求不断增加,GPU 市场保持高增速。据 Global Market Insights 的数据,全球 GPU 市场预计将以 CAGR 25.9%持续增长,至 2030 年达到 4000 亿美元规模。在 GPU 市场中,NVIDIA 依靠在深度学习、人工智能等领域布局的先发优势并凭借其优异产品性能以及成熟的生态平台长期处于领导地位,根据 JPR 数据,2022 年 Q1,NVIDIA 的在独显市场份额约为 78%。

大语言模型有望拉动 GPU 需求增量,我们测算 23/24/25 年大模型有望贡献 GPU 市场增量 69.88/166.2/209.95 亿美元。具体假设测算如下

训练端,近年来各大厂商陆续发布大模型,我们假设 23/24/25 年新增 5/10/15 个 大模型,根据 OpenAI 团队于 2020 发表的论文《Scaling Laws for Neural Language Models》提出的计算方法,对于以 Transformer 为基础的模型,假设模型参数量为 N,单 Token 所需的训练算力约为 6N。参考 OpenAI 团队 2020 同年发表的论文《Language Models are Few-Shot Learners》,GPT-3 模型参数量约为 1750 亿个,Token 数量约为 3000 亿个,近年发布的模型均在千亿级参数级别, 因此我们中性假设 23 年新增大模型平均参数量约为 2000 亿个,Token 数量约为 3000 亿个,两者后续每年以 20%增速增加。另外假设单次训练耗时约 30 天,算力效率为 30%,后续伴随算法精进,算力效率预计逐渐提升。以目前主流的训练端 GPU 英伟达 A100 测算,假设 ASP 为 1 万美元,23/24/25 年全球训练端 GPU 需求市场规模预计分别为 0.74/2.00/4.07 亿美元。

推理端,基于训练端的假设,根据论文《Scaling Laws for Neural Language Models》,单 Token 所需的推理算力开销约为 2N。则对于 GPT-3 模型,其单 Token 所需的推理算力开销为 3500 亿 FLOPs-S。假设单次最大查询 Tokens 数为 1000(对应汉字约 300-500 字,英文约 750 词),每人每天查询 20 次。在并发用户数的估计上,我们参考国际主流社交媒体日活用户数进行测算,根据 Dustin Stout 统计,Facebook、WhatsApp、Instagram 全球日活用户数分别为 16 亿、10 亿、6 亿,考虑到目前(类) GPT 平台仍处于发展早期,我们预计全球大模型日活用户数在 23/24/25 分别为 2/6/10 亿,按照所有用户平均分布于 24 小时,并以 10 倍计算峰值并发数量。以目前英伟达用于推理端计算的 A10 测算,假设 ASP 为 2800 美元,23/24/25 年全球推理端 GPU 需求市场规模预计分别为 69.14/164.2/205.88 亿美元。

2 微架构和平台生态共筑竞争壁垒

2.1 微架构统一计算单元解锁通用计算时代

GPU 的微架构是用以实现指令执行的硬件电路结构设计。以 Nvidia 第一个实现统一着色器模型的 Tesla 微架构为例,从顶层 Host Interface 接受来自 CPU 的数据,藉由 Vertex(顶点)、Pixel(片元)、Compute(计算着色器)分发给各 TPC (Texture Processing Clusters 纹理处理集群)进行处理。

流处理器、特殊函数计算单元构成计算核心。在单个 TPC 中主要的运算结构为 SM(Streaming Multiprocessor 流式多处理器),其内在蕴含 I Cache(指令缓存)、C Cache(常量缓存)以及核心的计算单元 SP(Streaming Processor 流处理器)和 SFU(Special Function Unit 特殊函数计算单元),外加 Texture Unit(纹理单元)。

解耦计算单元,拥抱通用计算。由于图形渲染流管线相对固定,Nvidia 在 Tesla 架构中将部分重要环节剥离并实现可编程,解耦出 SM 计算单元用于通用计算, 即可实现根据具体任务需要分配相应线程实现通用计算处理。

计算核心、纹理单元增加, GPC 功能更加完整,Nvidia Fermi 架构奠定完整 GPU 计算架构基础。在 Tesla 之后,Nvidia 第一个完整的 GPU 计算架构 Fermi 通过制程微缩增加更多计算核心、纹理单元,并且通过增加 PolyMorph Engine (多形体引擎)和 Raster Engine(光栅引擎)使得原来 TPC 升级成为拥有更加完整功能的 GPC(Graphics Processing Clusters 图形处理器集群)。Fermi 架构共 包含 4 个 GPC,16 个 SM,512 个 CUDA Core。

2.2 架构迭代与制程升级是 GPU 性能的生命线

不同的微架构设计会对 GPU 的性能产生决定性的影响,因此保持架构升级节奏以及制程升级速率是保证产品竞争力的关键。 英伟达 GPU 架构演进从最初 Fermi 架构到最新的 Ampere 架构和 Hopper 架构。每一阶段都在性能和能效比方面得到提升,引入了新技术,如 CUDA、GPU Boost、RT 核心和 Tensor 核心等,在图形渲染、科学计算和深度学习等领域发挥重要作用。最新一代 Hopper 架构在 2022 年 3 月推出,旨在加速 AI 模型训练, 使用 Hopper Tensor Core 进行 FP8 和 FP16 的混合精度计算,以大幅加速 Transformer 模型的 AI 计算。与上一代相比,Hopper 还将 TF32、FP64、FP16 和 INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍。

AMD 作为全球第二大 GPU 厂商,亦通过持续的架构演进保持其市场领先地位。从 2010 年以来,AMD 相继推出GCN 架构、RDNA 架构、RDNA 2 架 构、RDNA 3 架构、CDNA 架构和 CDNA 2 架构。最新一代面向高性能计算和人工智能 CDNA 2 架构于架构采用增强型 Matrix Core 技术,支持更广泛的数据类型和应用,针对高性能计算工作负载带来全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU FP64 双精度运算算力最高可达 95.7 TFLOPs。

2.3 成熟的平台生态是 GPU 厂商的护城河

成熟且完善的平台生态是 GPU 厂商的护城河。相较于持续迭代的微架构带来的技术壁垒硬实力,成熟的软件生态形成的强大用户粘性将在长时间内塑造 GPU 厂商的软实力。以英伟达 CUDA 为例的软硬件设计架构提供了硬件的直接访问接口,不必依赖图形 API 映射,降低 GPGPU 开发者编译难度,以此实现高粘性的开发者生态。目前主流的开发平台还包括 AMD ROCm 以及 OpenCL。 CUDA(Compute Unified Device Architectecture),是 NVIDIA 于 2006 年推出的通用并行计算架构,包含 CUDA 指令集架构(ISA)和 GPU 内部的并行计算引擎。该架构允许开发者使用高级编程语言(例如 C 语言)利用 GPU 硬件的并行计算能力并对计算任务进行分配和管理,CUDA 提供了一种比 CPU 更有效的解决大规模数据计算问题的方案,在深度学习训练和推理领域被广泛使用。

CUDA 除了是并行计算架构外,还是 CPU 和 GPU 协调工作的通用语言。在 CUDA 编程模型中,主要有 Host(主机)和 Device(设备)两个概念,Host 包含 CPU 和主机内存,Device 包含 GPU 和显存,两者之间通过 PCI Express 总线进行数据传输。在具体的 CUDA 实现中,程序通常划分为两部分,在主机上运行的 Host 代码和在设备上运行的 Device 代码。Host 代码负责程序整体的流程控制和数据交换,而 Device 代码则负责执行具体的计算任务。一个完整的 CUDA 程序是由一系列的设备端函数并行部分和主机端的串行处理部分共同组成的,主机和设备通过这种方式可以高效地协同工作,实现 GPU 的加速计算。

CUDA 在 Host 运行的函数库包括了开发库(Libraries)、运行时(Runtime)和驱动(Driver)三大部分。其中,Libraries 提供了一些常见的数学和科学计算任务运算库,Runtime API 提供了便捷的应用开发接口和运行期组件,开发者可以通过调用 API 自动管理 GPU 资源,而 Driver API 提供了一系列 C 函数库,能更底层、更高效地控制 GPU 资源,但相应的开发者需要手动管理模块编译等复杂任务。

CUDA 在 Device 上执行的函数为内核函数(Kernel)通常用于并行计算和数据处理。在 Kernel 中,并行部分由 K 个不同的 CUDA 线程并行执行 K 次,而有别于普通的 C/C++函数只有 1 次。每一个 CUDA 内核都以一个声明指定器开始, 程序员通过使用内置变量__global__为每个线程提供一个唯一的全局 ID。一组线程被称为 CUDA 块(block)。CUDA 块被分组为一个网格(grid),一个内核以线程块的网格形式执行。每个 CUDA 块由一个流式多处理器(SM)执行,不能迁移到 GPU 中的其他 SM,一个 SM 可以运行多个并发的 CUDA 块,取决于 CUDA 块所需的资源,每个内核在一个设备上执行,CUDA 支持在一个设备上同时运行多个内核。

CUDA 的存储结构中,全局内存是所有线程都可以访问的存储区域,共享内存是位于线程块内部,多个线程可以共同访问的存储空间,寄存器是每个线程都有一组用于保存局部变量和中间值的寄存器,而局部内存则是当存储需求超过寄存器和共享内存容量时,分配给当前线程的存储空间。这些存储层次结构的访问速度和容量各不相同,需要在应用时进行合理使用和管理。GPU 的内存层次结构与 CUDA 的存储结构密切相关,比如,在一个 SM 上运行的多个线程块将共享该 SM 的寄存器和共享内存资源,同时也访问全局内存和局部内存资源。这些不同层级的存储在 GPU 中形成了逐层递进的内存架构,使得数据在计算过程中能够以最快的速度流动到被需要的位置,从而实现更高效、更快速的计算任务执行。

丰富而成熟的软件生态是 CUDA 被广泛使用的关键原因。(1)编程语言 CUDA 从最初的 1.0 版本仅支持 C 语言编程,到现在的 CUDA 12.0 支持 C、 C++、Fortran、Python 等多种编程语言。此外,NVIDIA 还支持了如 PyCUDA、 ltimesh Hybridizer、OpenACC 等众多第三方工具链,不断提升开发者的使用体验。(2)库NVIDIA 在 CUDA 平台上提供了名为 CUDA-X 的集合层,开发人员可以通过 CUDA-X 快速部署如 cuBLA、NPP、NCCL、cuDNN、TensorRT、 OpenCV 等多领域常用库。(3)其他NVIDIA 还为 CUDA 开发人员提供了容器部署流程简化以及集群环境扩展应用程序的工具,让应用程序更易加速,使得 CUDA 技术能够适用于更广泛的领域。

ROCm (Radeon Open Compute Platform )是 AMD 基于开源项目的 GPU 计算生态系统,类似于 NVIDIA 的 CUDA。ROCm 支持多种编程语言、编译器、库和工具,以加速科学计算、人工智能和机器学习等领域的应用。ROCm 还支持多种加速器厂商和架构,提供了开放的可移植性和互操作性。ROCm 支持 HIP(类 CUDA)和 OpenCL 两种 GPU 编程模型,可实现 CUDA 到 ROCm 的 迁移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器,包括 TensorFlow 1.x、PyTorch 1.8、MXNet 等,同时改进了 ROCm 库和工具的性能和稳定性,包括 MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND 等。

OpenCL(Open Compute Language),是面向异构系统通用并行编程、可以在多个平台和设备上运行的开放标准。OpenCL 支持多种编程语言和环境,并提供 了丰富的工具来帮助开发和调试,可以同时利用 CPU、GPU、DSP 等不同类型的加速器来执行任务,并支持数据传输和同步。此外,OpenCL 支持细粒度和粗粒度并行编程模型,可根据应用需求选择合适模型提高性能和效率。而 OpenCL 可移植性有限,不同平台和设备的功能支持和性能表现存在一定差异,与 CUDA 相比缺少广泛的社区支持和成熟的生态圈。

3 国内外发展现状海外龙头领跑,国产持续发力

3.1 海外龙头深耕多年,技术引领行业

3.1.1 英伟达

英伟达(NVIDIA)加速计算的先驱者,创立于 1993 年,公司于 1999 年发明的 GPU 推动了 PC 游戏市场的增长,重新定义了现代计算机显卡,并对并行计算进行了革新。目前,英伟达的产品应用领域包括数据中心和云计算、游戏和创作、 高性能计算、自动驾驶汽车、计算机开发和边缘计算等,已逐渐转型为计算机平台公司。长久以来,英伟达是加速计算的先驱者。

英伟达 GeForce RTX™ 40 系列 GPU 为游戏玩家和创作者提供了高性能游戏体验。这一系列 GPU 由更高效的 NVIDIA Ada Lovelace 架构提供动力支持, 可在性能和 AI 驱动图形领域实现质的飞跃。得益于光线追踪和更高的 FPS 游戏分辨率,玩家和创作者能够以更低的延迟体验栩栩如生的虚拟世界,探索革新的创作方式和远胜以往的工作流程加速技术。

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎,其性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。 A100 提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。 NVIDIA H100 Tensor Core GPU 作为 A100 的迭代产品,可进一步在每个工作负载中实现出色性能、可扩展性和安全性。H100 使用 NVIDIA® NVLink® Switch 系统,可连接多达 256 个 H100 来加速百亿亿级 (Exascale) 工作负载,另外可通过专用的 Transformer 引擎来处理万亿参数语言模型。与 A100 相比,H100 的综合技术创新可以将大型语言模型的速度提高 30 倍,从而提供业界领先的对话式 AI。

受行业周期下行影响,公司净利润大幅下降。公司 2022 年实现营业总收入 269.7 4 亿美元,与去年基本持平,净利润为 43.68 亿美元,同比大幅下降 55.21%,主要缘于游戏显卡需求疲软,资产减值损失较大。

3.1.2 AMD

AMD(超微半导体公司),自 1969 年创立以来,专注于处理器及相关技术设计研发。AMD 2009 年将自有晶圆厂拆分为现今的格芯后,从 IDM 厂商转型为 Fabless 公司,目前 AMD 主要产品为 CPU(包括嵌入式平台)、GPU、主板芯片组以及 2022 年收购赛灵思而扩充的 FPGA 业务。AMD 是目前除了英特尔以外,最大的 x86 架构处理器供应商,自 2006 年收购 ATI 后,成为同时拥有 CPU 和 GPU 技术的半导体公司。

AMD 最新于 2022 年推出 AMD Radeon RX 7000 系列显卡,采用 AMD 最新 RDNA 3 计算单元,具有光线追踪和人工智能加速功能。7900 系列创新性地采用了小芯片技术的游戏 GPU,其 AMD Radiance Display 引擎和 DisplayPortTM 2.1 的强强联合可以带来 12 位 HDR 和 REC2020 色彩空间的完全覆盖,最高可达 8K 165Hz。

AMD 于 2016 年推出 Instinct 计算加速器,旨在加速深度学习、人工神经网络和高性能计算 GPGPU 的应用。AMD Instinct 系列加速器采用创新性的 AMD CDNA 架构、AMD Infinity Fabric 技术以及先进的封装技术。对于高性能计算工作负载,AMD Instinct MI250X 的 GPU 双精度 (FP64)结合全新 FP64 Matrix Core 技术更可实现最高达 95.7 TFLOPs 峰值理论性能。

数据中心业务快速增长,推动公司整体营收提升。公司 2022 年实现营业总收入 236.01 亿美元,同比上升 43.61%,净利润为 13.2 亿美元,同比大幅下降 58.25%,主要缘于收购赛灵思后,无形资产摊销数额较大致使净利润下滑。

3.1.3 高通

高通(Qualcomm)创立于 1985 年,是全球领先的无线科技创新公司。高通变革了世界连接、计算和沟通的方式,高通的基础科技赋能整体移动生态系统,开启了移动互联时代。2009 年,高通收购了 AMD 的移动 GPU Imageon 系列,开始发展移动端自研 GPU 业务。

高通 Adreno GPU(原 Imageon)为采用骁龙处理器的移动终端提供游戏机品质的 3D 图形处理能力,为游戏、用户界面和高性能计算任务提供更快的图形处理。作为骁龙异构计算的关键组件,Adreno GPU 为无缝配合骁龙 CPU 和 DSP 而设计,可以帮助支持处理密集型 GPGPU 计算任务。2022 年底,高通已发布全新 4nm 级 GPU Adreno 740。

营业收入和盈利能力均稳定增长。公司 2022 年度实现营业收入 442 亿美元,同比上升 31.68%,净利润为 129.36 亿美元,同比上升 43.05%。

3.1.4 Imagination

Imagination 成立于 1985 年,移动端 GPU 设计领域的领军企业。Imagination 业务主要包括设计 PowerVR 移动图形处理器,网络路由器(基于 MIPS CPU)和其他纯消费电子部门。 此外还提供无线电基带处理、网络、数字号处理器、 视频和音频硬件、IP 语音软件、云计算以及芯片和系统设计服务。

2020 年 10 月,Imagination 发布 IMG B 系列高性能 GPU IP。此款多核架构 GPU IP 包括 BXE、BXM、BXT、BXS 4 个系列, 分别代表入门级、中端、高端以及汽车安全。其中 BXT 主要应用于移动设备、数据中心,浮点算力 6TFlops,每秒可处理 1920 亿像素,AI 算力达 24Tops。

3.1.5 ARM

ARM(安谋控股公司),成立于 1990 年,是全球龙头半导体 IP 供应商。公司主要产品有 CPU、GPU 和 NPU 等处理器 IP。目前,总共有超过 100 家公司与 ARM 公司签订了技术使用许可协议,其中包括 Intel、IBM、LG、NEC、SONY 等。

ARM 最新 GPU 产品 Mali-G7 系列中 Immortails-G715 GPU 采用 10 个及以上内核,支持硬件级光线追踪技术。Mali-G715 旨在通过一系列新的图形功能和升级 (包括可变速率着色)来满足高端移动市场的需求,适用于移动设备上的复杂 AAA 游戏。

3.2 兼容主流生态对标行业龙头,国内厂商持续发力

国产 GPU 持续发力,对标行业龙头缩小差距。GPU 有两条主要的发展路线分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 GP GPU,近年来,国产 GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端导入。

3.3 高端芯片进口遭限制,国产厂商替代迎契机

美国对中国高端芯片出口进行管制。据英伟达于 2022 年 8 月 31 日发布的公告, 美国政府通知公司在未来将 A100 和即将推出的 H100 等人工智能芯片出口到中国大陆、中国香港和俄罗斯时须获得许可证。 2023 年 3 月 3 日,美国商务部以“国家安全”和“外交政策利益”为由,将浪潮集团等 28 个中国实体列入所谓的“实体清单”,限制其从美国进口产品和技术。未来在人工智能芯片,特别是 GPU 上对中国的制裁将对中国 AI 产业提出极大的挑战。挑战伴随着机遇,高端 GPU 的限售给予了国产厂商替代空间。 在国产替代的背景下,政策支持推动国产 GPU 行业高速发展。2020 年以来,国家及各省市陆续出台了若干政策,通过税收减免、财政补贴等方式支持半导体与集成电路产业发展。

4 重点公司分析

4.1 寒武纪

寒武纪自 2016 年成立以来一直专注于人工智能芯片产品研发与技术创新,致力于打造人工智能领域的核心处理器芯片。公司主要提供云端智能芯片及加速卡、 训练整机、边缘智能芯片及加速卡、终端智能处理器 IP 及配套基础软件开发平台,产品广泛应用于消费电子、数据中心、云计算等诸多场景。

2022 年 3 月 21 日,公司正式发布新款训练加速卡 MLU370-X8,搭载双芯片四芯粒思元 370,集成寒武纪 MLU-Link™多芯互联技术,在业界广泛应用于 YOLOv3、Transformer 等训练任务中。 MLU 370-S4、MLU370-X4 和 MLU370-X 均基于思元 370 智能芯片的技术,通过 Chiplet 技术灵活组合产品的特性,可满足更多市场需求。凭借其优异竞争力,公司已就思元 370 系列与部分头部互联网、银行、服务器厂商实现了深度合作和互利共赢。

公司克服宏观经济、疫情反复等因素影响,在 2022 年实现度营业总收入为 7.2 亿元,比上年同期增长 1.11%。归属于母公司股东的净利润为-11.66 亿元,较上年同期亏损增加 41.4%,主要系研发费用、资产减值损失、用减值损失增长所致。

4.2 海光息

海光息主要从事高端处理器、加速器等计算芯片产品和系统的研发、设计和销售。公司的产品包括海光通用处理器(CPU)和海光协处理器(DCU),具有成熟而丰富的应用生态环境,内置专用安全硬件,可满足互联网、金融、能源等行业的广泛应用需求。

公司 DCU 系列产品海光 8100 采用先进的 FinFET 工艺,以 GPGPU 架构为基础,兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件,可充分挖掘应用的并行性,发挥其大规模并行计算的能力,快速开发高能效的应用程序,在典型应用场景下性能指标可以达到国际同类型高端产品的同期水平。

公司营业收入增势可观,2020-2022 年公司分别实现营收 10.22 亿元、23.1 亿 元、51.2 亿元,同比增长保持在 120%以上。归母净利润于 2021 年扭亏为盈后持续增长,2022 年达到 8.02 亿元,同比上升 145.3%。

4.3 景嘉微

景嘉微致力于息探测、处理与传递领域的技术和综合应用。公司产品涵盖集成电路设计、小型雷达系统、无线通系统、电磁频谱应用系统等方向,广泛应用于有高可靠性要求的航空、航天、航海、车载等专业领域。 公司先后自研制成功 JM5 系列、JM7 系列、JM9 系列高性能 GPU 芯片,其中最新的 JM9 系列两款图形处理芯片皆已完成阶段性测试工作,并进入放量阶段。JM9 系列芯片应用领域广泛,可满足个性化桌面办公、网络安全保护、轨交服务终端、多屏高清显示输出和人机交互等多样化需求。

公司营收和归母净利润持续上升,2021 年全年实现营收 10.93 亿,同比增长率达 67.1%,实现归母净利润 2.93 亿元,同比上升 40.9%。

4.4 芯原股份

芯原依托自主半导体 IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体 IP 授权服务,拥有独特的“芯片设计平台即服务”经营模式。公司可提供高清视频、物联网连接、数据中心等多种一站式芯片定制解决方案,拥有自主可控的图形处理器 IP、神经网络处理器 IP 等五类处理器 IP 及 1400 多个数模混合 IP 和射频 IP,可快速打造出从定义到测试封装完成的半导体产品,业务范围覆盖消费电子、汽车电子、物联网等多种应用领域。据 IPnest 在 2021 年的统计,芯原的半导体 IP 销售收入排中国大陆第二,全球第七,其中公司的图形处理器 IP 排名全球前三。

公司的 GPU IP 已被众多主流和高端的汽车品牌所采用,同时,公司基于约 20 年 Vivante GPU 的研发经验,所推出的 Vivante 3D GPGPU IP 还可提供从低功耗嵌入式设备到高性能服务器的计算能力,满足广泛的人工智能计算需求。

公司营收持续增长,归母净利润保持高增速。2020-2022 年公司营业收入分别为 15.06 亿元、21.39 亿元、26.79 亿元,归母净利润在 2021 年扭亏为盈后持续增长,于 2022 年达 0.74 亿元,同比上升 469.2%。

4.5 龙芯中科

龙芯中科主要产品与服务包括处理器及配套芯片产品与基础软硬件解决方案业务。公司基于息系统和工控系统两条主线,秉承独立自主和开放合作的运营模式,面向网络安全、工控及物联网等领域与合作伙伴保持全面的市场合作,产品广泛应用于电子政务、能源、交通、金融等行业领域,相关软硬件开发人员数万人,已经形成强大的产业链与生态支撑能力。在通用图形处理器及系统研发方面,龙芯中科于 2017 年开始研发 GPU,已掌握 GPU 研发的关键技术,第一款 GPU IP 核已经在龙芯 7A2000 桥片样片中流片成功。

受周期下行和疫情反复影响, 公司营收增速持续下降,2022 年全年实现营收 7.39 亿元,同比下跌 38.5%,归母净利润由 2021 年的 2.37 亿下跌至 0.51 亿元, 同比下跌 78.5%。

4.6 壁仞科技

壁仞科技创立于 2019 年,在 GPU、DSA(专用加速器)和计算机体系结构等领域具有深厚的技术积累。公司致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。

2022 年 8 月公司发布的通用 GPU 芯片 BR100 创下全球通用 GPU 算力记录,峰值算力达到国际厂商在售旗舰产品 3 倍以上。BR100 率先采用 Chiplet 技术、新一代主机接口 PCIe 5.0、支持 CXL 互连协议,确立了公司在国内厂商间的技术领先地位。公司坚持自主研发,同步推出原创架构“壁立仞”和自研 BIRENSUPA 软件平台,实现了 BR100 性能的大幅提升。以壁仞科技于 2022 年 8 月发布的首款 GP GPU BR100 为例,该芯片采用 Chiplet 技术,16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上,单芯片峰值算力达到 PFLOPS 级别,是国际厂商在售旗舰产品的 3 倍以上,创造了全球通用 GPU 的算力记录。

4.7 摩尔线程

摩尔线程专注于设计高性能通用 GPU 芯片,提供图形计算和 AI 计算的元计算平台的集成电路高科技公司。公司高管团队来自英伟达、AMD、ARM 等知名芯片公司,拥有丰富的 GPU 研究经验,致力于创新面向元计算应用的新一代 GPU,构建融合视觉计算、3D 图形计算、科学计算及人工智能计算的综合计算平台,建立基于云原生 GPU 计算的生态系统。

2022 年 11 月,公司推出基于第二代 MUSA 架构的处理器“春晓”,并基于“春晓”GPU 发布面向消费领域的国产芯片显卡 MTT S80 和面向服务器应用的 MTTS3000 显卡。同时,公司围绕 MUSA 发布了系列 GPU 软件栈与应用工具, 包括 MUSA 开发者套件、云原生 sGPU 技术及元宇宙平台 MTVERSE 等。

4.8 芯动科技

芯动科技是国内一站式 IP 和芯片定制及 GPU 领军企业,聚焦计算、存储、连接等三大赛道,提供从 55 纳米到 5 纳米全套高速 IP 核以及高性能定制芯片解决方案。公司拥有经验丰富的技术团队,成立 16 年来已赋能全球数百家知名客户,授权逾 80 亿颗高端 SoC 芯片进入规模量产,拥有过十亿颗 FinFET 定制芯片成功量产经验。

公司瞄准商用市场推出芯动风华系列 GPU。该系列 GPU 性能强劲、跑分领先、 功耗低、自带智能计算能力,且全面支持国内外 CPU/OS 和生态,包括 Linux、 Windows 和 Android。

4.9 兆芯

兆芯成立于 2013 年,提供高效、兼容、安全的自主通用处理器和芯片组等产品,公司掌握自主通用处理器及其系统平台芯片研发设计的核心技术,全面覆盖其微架构与实现技术等关键领域,拥有较为完整的知识产权体系,截至目前已获权约 1300 件专利。 2020 年,兆芯将自身 GPU 业务进行切分独立,建立了格兰菲智能科技有限公 司。公司目前已推出 Arise-GT10C0 芯片及 Glenfly Arise-GT-10C0 显卡。芯片内置完全独立自主研发的新一代图形图像处理引擎,兼容银河麒麟 KOS、统软件 UOS、Windows 等主流操作系统,同时可在 X86、ARM、MIPS 等主流硬件平台操作运行,支持多种图形和图像的 API 接口标准。

4.10天数智芯

天数智芯致力于开发自主可控、国际领先的高性能通用 GPU 产品并提供解决方案,是国内头部通用 GPU 高端芯片及超级算力系统提供商。公司以“成为智能社会的赋能者”为使命,立足客户、市场的需求,加速 AI 计算与图形渲染融合,探索通用 GPU 赶超发展道路,产品广泛应用于智算重心、智慧医疗、互联网、智能制造等领域。

12 月 20 日,天数智芯推出通用 GPU 推理产品“智铠 100”及其丰富的 AI 应用案例。智铠 100 计算性能高、应用覆盖广、使用成本低,支持 FP32、FP16、INT8 等多精度混合计算,可提供最高 384TFlops、96TFlops、 24TFlops 的峰值算力,800GB/s 的理论峰值带宽以及 128 路并发的多种视频规格解码能力。

4.11沐曦

沐曦于 2020 年 9 月成立于上海,致力于为异构计算提供全栈 GPU 芯片及解决方案,可广泛应用于人工智能、智慧城市、自动驾驶、数字孪生、元宇宙等前沿领域。公司拥有技术完备、设计和产业化经验丰富的团队,核心成员平均拥有近 20 年高性能 GPU 产品端到端研发经验。 公司拥有完全自主研发的 GPU IP、指令集和架构,以及兼容主流 GPU 生态的完整软件栈(MXMACA),产品具备高能效、高通用性。目前已推出 MXN 系列 GPU(曦思)用于 AI 推理,MXC 系列 GPU(曦云)用于 AI 训练及通用计算, 以及 MXG 系列 GPU(曦彩)用于图形渲染,可满足数据中心对高能效和高通用性的算力需求。


温馨提醒:用户在赢家聊吧发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。本文中出现任何联系方式与本站无关,谨防个人信息,财产资金安全。
点赞5
发表评论
输入昵称或选择经常@的人
聊吧群聊

添加群

请输入验证信息:

你的加群请求已发送,请等候群主/管理员验证。

时价预警 查看详情>
  • 江恩支撑:6.61
  • 江恩阻力:7.44
  • 时间窗口:2024-07-27

数据来自赢家江恩软件>>

本吧详情
吧 主:

虚位以待

副吧主:

暂无

会 员:

16人关注了该股票

功 能:
知识问答 查看详情>