登录 注册 返回主站
F10资料 推荐产品 炒股必读

今年的雪球最后一帖,留给寒武纪!国货必雄起!自强不

  • 作者:旺财风水
  • 2022-09-05 13:01:40
  • 分享:
今年的雪球最后一帖,留给寒武纪!国货必雄起!自强不息!

断供事件回顾
美国芯片厂商 AMD、Nvidia 相继收到美国总部通知,对中国区客户断供高端 GPU 芯片。
AMD 通知内容为1)暂停对中国区所有数据中心 GPU 卡 MI100 和 MI 200 发货;2)统计中国区 MI 100 已发货量;3)统计中国区 MI 200 已发货客户清单和发货明细。
Nvidia 通知内容为1)暂停对中国区所有客户所有代理商的数据中心 GPU 卡A100 和 H100 的发货,其他 GPU 卡不受影响;2)各服务器 OEM 厂商的下游库存 A100 GPU 卡,目前可以对各自的行业客户继续交付,Nvidia 中国区目前没有对 OEM 厂商发任何书面通知。
断供事件解析
1、这次美国断供的用于高性能计算(主要包括 AI 模型训练及科学计算)的GPU,是集成到大型服务器甚至是超算中心里的 GPU,而非普通意义上的显卡(用于图形描绘及图像显示)。美国的目的是对最先进制程、最强算力芯片、最新高端芯片等对中国进行限制。美国担忧的是,中国将这些高性能芯片1)用于提升军事实力;2)用于人工智能技术的快速发展和应用;3)用于其他尖端技术的研究。
2、目前全球范围内,GPU 市场都是以 NV 和 AMD 的产品为主,据媒体的数据,2021 年 Q4,NV 的市占率约 83%,AMD 的市占率约17%,基本由这两家瓜分完毕!
3、中国的智能终端普及率及大数据的积累在全球领先,为中国人工智能技术的大范围应用奠定了良好的基础。中国的 AI 公司及互联网巨头都在如火如荼地进行研发,但就 AI 训练及推理芯片方面,Nvidia 的 GPU 仍处于绝对主导地位。
4、GPU 已经存在了几十年,它并不是为 AI 计算而诞生的,只是由于它的并行计算能力强,而可以满足 AI 计算的需求。同时,它的功耗是非常高的,成本也更高。
突发事件对国内的意义
1、寒武纪做的不是 GPU,是专门为 AI 计算而设计的芯片,它属于 ASIC 芯片,ASIC 芯片在功耗和成本上具有先天优势。同时,由于寒武纪自己设计的架构保持了相当大的通用性并有自研的指令集和算子库来支持各种算法的实现,故寒武纪的芯片有很强的通用性(这里指在 AI 计算领域的通用性)。所以,寒武纪的芯片,并不是普通人理解的那样有了新的算法它就不能用了。
2、寒武纪是最有可能冲出 NV 和 AMD 围剿的中国公司。目前,寒武纪的芯片及加速卡产品系列已然完备,配套基础软件也已完备,在 AI 加速计算这一领域,具备了对 NV 和 AMD 产品进行彻底替代的条件。
目前,国内也有其他一些公司在研发云端 AI 专用芯片,但进度都明显落后于寒武纪,真正实现量产、批量出货的只有寒武纪。根据寒武纪发布的 2022 年半年报来看,上半年云端芯片收入 1.3 亿元,在疫情影响下,实现同比大幅增长,得到了互联网、AI、安防等领域重要客户的认可。
同时,国内也有一些研发 GPGPU 的初创公司,融资也是如火如荼,但截至目前,仍然没有一家拿的出可以量产的产品出来。
3、至于生态建设,这是一个宏大的命题,确实难度很大。从技术上来讲,寒武纪的软件栈支持 GUDA 程序的重新编译,只需要花费很少的精力即可完成代码的迁移,来适配寒武纪的芯片。但即使只需要这么一点点投入,也有很多厂家犹豫。这里面,更大的难度还是在于如何改变人的固有认识、如何改变对于成熟事物的依赖性以及提高对新事物的接受度。
4、冰冻三尺非一日之寒。NV 和 AMD 都是存在了几十年的国际巨头,而寒武纪作为成立 6 年多的初创公司,对标的就是国际巨头,这条路注定道阻且长。
5、但现在,突发事件造成了重大转变,曙光已经来临。原来,摆在寒武纪面前的难以翻越的大山就是 NV,现在美国政府帮忙把这座大山给移走了,寒武纪将像一匹挣脱缰绳、冲出马厩的千里马,在广阔天地间恣意驰骋。
寒武纪的现状
寒武纪团队的执行力非常强,每年都发布新产品进行迭代(5 年8 款),研发团队接近 1000 人。
目前,寒武纪的产品从 IP 到芯片到加速卡到智能计算终端一体机,已经形成完整的系列,另外还有全套自研的、完整的基础软件平台(包括指令集、编译器、开发语言、开发环境、算子库及配套工具)。
⚫ 边缘端芯片MLU220(加速卡M.2);
⚫ 云端推理芯片MLU100、MLU270(加速卡 S4、F4);
⚫ 云端训练+推理一体化芯片MLU290(加速卡 M5)、MLU370(加速卡 S4、X4、X8);
⚫ 高性能计算终端一体机玄思 1000(搭载 4 颗 MLU290 芯片);
⚫ 即将推出的新产品MLU390、两颗车载智能芯片(由子公司行歌研发,一颗针对 L4 级自动驾驶且预计峰值性能将达到200TOPS、另一颗针对 L2-L3 辅助驾驶且预计 2022 年 Q4 推出)、玄思 2000 等。
寒武纪重点芯片介绍
1、思元 290 芯片(2020 年底发布)
思元 290 芯片是寒武纪首颗训练芯片,采用创新性的 MLUv02扩展架构,使用台积电 7nm 先进制程工艺制造,在一颗芯片上集成了高达460亿的晶体管。芯片具备多项关键性技术创新,MLU-Link™多芯互联技术,提供高带宽多链接的互连解决方案;HBM2 内存提供AI 训练中所需的高内存带宽;vMLU 帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助 AI 计算应对性能、效率、扩展性、可靠性等多样化的挑战。

玄思 1000(2020 年底发布)玄思 1000 训练整机在 2U 机箱内集成了 4 颗思元 290 芯片,NVMe 高速本地闪存、InfiniBand 网络,提供对外连接的高速 MLU
Link™接口,打破了传统数据中心横向扩展架构,将 AIDC 构建为节点、POD 乃至超大规模混合扩展架构(Hybrid Scale-out),实现 AI 算力计算中心级纵向扩展,满足高性能、高扩展性、灵活性、高鲁棒性的要求。
2、思元 370 芯片(2021 年 11 月发布)
基于 7nm 制程工艺,思元 370 是寒武纪首款采用 chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新智能芯片架构 MLUarch03,思元 370 实测性能表现更为优秀。
思元 370 也是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。搭载MLU-Link™多芯互联技术,在分布式训练或推理任务中为多颗思元370 芯片提供高效协同能力。全新升级的 Cambricon NeuWare 软件栈,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
思元 370 采用 chiplet(芯粒)技术,在一颗芯片中封装 2 颗 AI计算芯粒(MLU-Die),每一个 MLU-Die 具备独立的 AI 计算单元、内存、IO 以及 MLU-Fabric 控制和接口,通过 MLU-Fabric保证两个 MLUDie 间的高速通讯,可以通过不同 MLU-Die 组合规格多样化的产品,为用户提供适用不同场景的高性价比 AI 芯片。
MLU370-X8 加速卡(2022 年 3 月发布)
MLU370-X8 补全了思元 370 系列产品线。寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。MLU370-X8 提供两倍思元 370 的内存带宽,结合 MLUarch03 架构和 MLU-Link 多芯互联技术,将思元 370 芯片在训练任务的优势充分发挥。MLU370-X8 定位中高端,与高端训练产品思元 290、玄思 1000 相互结合,进一步丰富了寒武纪的训练算力交付方式;并与基于思元 370 芯粒(chiplet)技术构建的 MLU370-X4、MLU370-S4 智能加速卡协同,形成完整的云端训练、推理产品组合。
Nvidia 的主流产品介绍在高性能计算(AI 训练)领域,Nvidia 目前主打的产品是 A100,H100 虽然在今年上半年已发布,但仍处于研发期,尚未量产。A100仍是 NV 目前性能最强的 AI 计算加速芯片。
A100(2020 年 5 月发布)
2017 年,英伟达发布的 V100 用 300W 的功率提供了 7.8TFLOPS的推断算力,有 210 亿个晶体管,而 2020 年发布的 A100 的算力直接是前者的 20 倍。A100 采用台积电(TSMC)7nm 工艺,拥有 540亿个晶体管,它是一块 3D 堆叠芯片,面积高达 826 m^2,GPU 的最大功率达到了 400W。这块 GPU 上搭载了容量 40G 的三星HBM2 显存,第三代 Tensor Core。同时它的并联效率也有了巨大提升,其采用带宽 600GB/s 的新版 NVLink,几乎达到了 10 倍 PCIE互联速度。最终在跑 AI 模型时,如果用 PyTorch 框架,相比上一代V100 芯片,A100 在 BERT 模型的训练上性能提升 6 倍,BERT 推断时性能提升 7 倍。
第三代 DGX (搭载 A100,2020 年 5 月发布)
DGX A100 单节点包含 8 块 GPU,可以输出 5PetaFLOPS 的 FP16算力(比 TFLOPS 又多了三个零,10 的 15 次方),今天就已开卖,售价 19.9 万美元。该价格和上一代 DGX-2 基本持平(DGX-2 首发价 39.9 万美元,但内含 16 块 V100 GPU)

温馨提醒:用户在赢家聊吧发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。本文中出现任何联系方式与本站无关,谨防个人信息,财产资金安全。
点赞7
发表评论
输入昵称或选择经常@的人
聊吧群聊

添加群

请输入验证信息:

你的加群请求已发送,请等候群主/管理员验证。

时价预警 查看详情>
  • 江恩支撑:172.81
  • 江恩阻力:184.29
  • 时间窗口:2024-06-23

数据来自赢家江恩软件>>

本吧详情
吧 主:

虚位以待

副吧主:

暂无

会 员:

1人关注了该股票

功 能:
知识问答 查看详情>