登录 注册 返回主站
F10资料 推荐产品 炒股必读

高密度 ARM 服务器如何引领“数智时代”发展,打通“智变质变”正循环之二

  • 作者:何秋风
  • 2023-02-02 17:16:35
  • 分享:

大模型成为 AI 规模应用重要途径

一、宏观趋势

1、“大算力+大数据”正在催生大模型的快速发展,孵化系列行业新应用

当前人工智能领域,大规模预训练模型得到长足发展和广泛关注,以大数据和大算力优势取代了一些小的算法模型,“大模型+大数据+大算力”成为迈向通用人工智能的一条可行路径。以GPT-3为代表的超大规模预训练模型,展示了一条通向通用人工智能的可能方向。

在此背景下,我国超大规模预训练模型的发展如火如荼。2021年以来,国内相继发布了一系列大模型,华为与鹏城实验室联合发布了“鹏程盘古”系列超大规模预训练稠密模型,中科院自动化所发布了全球首个三模态大模型“紫东太初”,以及北京智源人工智能研究院发布了“悟道2.0”稀疏模型等。

人工智能大模型可以实现在众多场景通用、泛化和规模化复制,减少对数据标注的依赖。随着超大规模预训练模型系统的开放,预训练基线智能水平大幅提升,行业人工智能应用不必从零开始开发,只需结合某个行业的领域数据进行调整,即可生成某个领域的相关模型,且得到良好的精度和性能。华为云发布的盘古预训练大模型已经在多个行业、100多个场景成功验证,包括能源、零售、金融、工业、医疗、环境、物流等等。其中,在能源领域,盘古预训练大模型帮助行业客户实现设备能耗的智能控制,可以节约电力成本50%;在金融行业中的异常财务检测,让模型精度提升20%以 上;在尘肺检测中,病例识别准确率提升22%等等。行业应用和算法高效流通可以让人工智 能应用和场景快速复制。

2、科学计算正在从传统HPC进入科学智能新阶段 

科学计算是继大模型之后,AI 发展的另一重要方向。此前,借助HPC高性能计算技术,科学计算对基础科学研究和国计民生行业发展起到重大推动作用。但是,随着求 解问题不断复杂化、高维化,科学计算仍然面临着维数灾难、计算尺度受限、理论突破与工程方法创新缓慢三大挑战。 

因此,越来越多的科学家正在将AI技术引入到科学计算,科学计算正在从传统HPC进入到科学智能的新阶段。科学智能同时覆盖HPC与AI 两大技术领域,包含AI赋能机理计算、数据驱动AI计算、机理计算与AI计算相融合三大计算场景。

第一个场景是AI赋能机理计算,它是将AI计算嵌入到机理计算中,实现AI对机理计算的加速。 第二个场景是数据驱动的AI计算,它则不依赖于数学机理,通过大量的数据输入,获得AI模型,通过AI计算获得结果。 第三个场景则是机理计算与AI计算相结合,它提升了科学计算的准确率和计算效率。 

目前,科学计算已经进入科学智能新阶段,其创新技术已经在气象、新材料研发、生物息等领域中得到应用。

二、建议

1、汇聚大模型发展要素,使能大模型从规划到落地

当前人工智能技术趋势正朝着通用大模型方向发展,大模型具备更强泛化能力、可覆盖多业务场景,发展大模型也成为产学研各界共识。为了更好的推动大模型的发展,倡议汇聚大模型的发展要素,构建从规划、开发到产业化的大模型全流程使能体系,与产业界共筑中国大模型生态。 

1)以大模型地图,统筹大模型有序发展

首先,建议统筹规划大模型发展布局,汇聚大模型发展要素,在算力方面加强发展人工智能计算中心和算力网络,塑造我国人工智能大模型人才培养体系,同时以自主创新的人工智能根技术发展我国大模型;其次,强化场景创新,提升大模型的活跃度和影响力;最后,强化政府支持,鼓励产学研各界携手在产业条件具备的行业和区域加速大模型的产业落地。 

2)打造大模型开发使能平台,让大模型易开发、易适配、易部署

针对基础模型开发,建议打造大模型开发套件,通过算法开发、并行计算、存储优化等能力,实现大模型的高效开发;此外,建议开发大模型微调组件来适配行业应用,实现一键式微调和调优功能;在模型推理部署方面,还需要提供大模型部署套件,以实现分布式推理服务化、模型轻量化和动态加密部署功能。 

3)成立大模型产业联盟,推动大模型应用落地

技术维度端到端打通后,大模型下一个最为关键的问题是产业化落地。为了打通科研创新和产业应用的断点、促进大模型产业化落地,建议围绕大模型打通产学研用,建立大模型产业联盟,促进产业伙伴直接基于大模型孵化行业应用,实现产业聚集,让大模型真正赋能产业。 

同时,产业联盟模式可以加速大模型从科研创新到行业落地的进程,在这样的大模型产业化落地过程中,各行业领域可以以更为丰富的数据和参数、更泛化的应用场景,来反哺大模型基础能力,让大模型更智能、场景适用性更好,从而迭代升级,为行业应用提供更大的支持,从而形成大模型创新-应用-迭代创新的产业正循环,开启了“炼大模型”的新范式。

2、打造科学智能基础平台、携手产学研构筑科学智能生态,加速产业闭环

过去单一、烟囱状的软硬件平台已无法满足科学智能需求。因此,华为建议打造原生科学智能基础软硬件平台,以实现极致性能、极简开发。华为认为,该基础平台在硬件方面应当拥有面向多样性算力的液冷整机柜,在软件方面包含业界领先的融合编程语言、编译器和操作系统,在开发使能方面则需要全场景统一的工具链,应用使能方面需要AI与HPC融合的框架和调度器。从底层硬件到上层应用协同创新,为科学研究提供“AI范式”。

对于科学智能的产业生态建设,华为倡议成立科学智能创新联合体,汇聚政策、科研和产业优质资源,携手产学研伙伴,以科学智能新范式,拓展科学边界,助力技术创新,加速科研创新到产业落地进程,加强交叉学科建设和人才培养,构筑中国科学智能领先格局。

三、解决方案

1、基于大模型全流程使能体系, 使能大模型规划、开发、产业化 

华为的人工智能大模型全流程使能体系,包含从大模型规划、大模型开发到大模型产业化的全流程,可端到端加速大模型产业落地,是以大模型产业化推动AI产业化的新范式。 

1)规划大模型沙盘,与产业界共筑中国大模型创新高地

从2020年开始,国内外顶尖公司的AI技术发展,越来越像一场比拼资金与人才的军备竞赛,推动AI竞争从2018年前后兴起的“大炼(小)模型”,进入到今天的“炼大模型”时代。大模型的优势不言而喻,但动则上百亿的大参数,也带来了训练成本太昂贵,模型修正不容易等难题,导致本来定位于“不再重复造 轮子”的大模型,面临重新陷入粗放式发展的境地。华为看到这一问题,积极联合产业界规划大模型沙盘,牵引产业界建设真正需要的大模型,共筑中国大模型创新高地。

昇腾大模型沙盘

从任务和应用类别两个维度出发,过去的一年,华为携手产业界伙伴基于昇腾AI先后推出 了各个领域有影响力的大模型,形成了基础大模型+行业大模型的整体布局。基础大模型面向多行业领域通用需求,行业大模型面向特定行业多应用场景,类似“新基建”中的息基 础设施+融合基础设施,形成既有横向,也有纵深的立体支撑。 

值得一提的是,考虑到“炼大模型”对大算力的强需求,华为与产业界在规划大模型沙盘的同时,全国20多个城市也都规划和建设了人工智能计算中心,并已开始将部分算力中心连点成片构建中国算力网——智算网络,以便基于它们的超强算力孵化AI大模型,大幅缩短大模型的训练时间。鹏程、武汉、秦岭、金陵系列大模型的快速推出,正得益于这一布局的强力支持。反过来,这些带有一定地域特色的大模型,又能够结合本地AI算力更好地服务产业。 

2)打造大模型开发使能平台,让大模型易开发、易适配、易部署 

依托长期的根技术积累,华为建立起了完整的大模型开发使能平台,加速从基础模型开发到推理部署的全流程,让大模型易开发、易适配、易部署。 

首先,在基础模型开发方面,华为推出大模型开发套件,通过算法开发、并行计算、存储优化、断点续训重磅特性支撑大模型的高效开发。这其中,作为人工智能之“魂”,昇思 MindSpore自诞生起就有着鲜明的产业导向,可以在云、边、端等不同环境下进行开发部署,是并行维度业界最多、模型切分支持结构最全、单机容纳模型参数业界最强的的AI框架,这使其原生支持AI大模型训练,具备实现开发并行代码量降低80%、系统调整时间下降60%、仅用512卡就能完成十万亿模型参数训练的超强能力。 

其次,在行业应用适配方面,华为推出基于MindX的大模型微调组件,其预置典型行业任务微调模板,通过小样本学习等手段,实现一键式微调和低参数调优,可以快速适配各种行业应用。目前紫东太初大模型就基于微调套件,提供了开放服务平台,已有40多个企业在平台上孵化了近60个产品解决方案,可以快捷的完成场景适配。 

最后,在推理部署方面,推出基于MindStudio的大模型部署套件,其提供量化、剪枝、蒸馏等模型小型化能力,实现10倍级模型压缩率,同时分布式推理服务化能力还大幅提高吞吐率,此外模型动态加密技术,可在保证模型性能的同时对部署的模型进行加密,保护开发者的模型资产。

3)从科研创新到行业落地,开创人工智能产业聚集新模式

技术维度端到端打通后,大模型下一个最为关键的问题是产业化落地。去年底,基于全球首个智能遥感框架及数据集武汉LuoJia和全球首个三模态大模型紫东太初,产业各界成立了智能遥感开源生态联盟和多模态人工智能产业联盟,如今60余家伙伴已陆续孵化出多个行业解决方案。

千博息与中科院自动化所、华为三方联手, 基于昇腾AI基础软硬件平台以及紫东太初三模态大模型,打造出手语多模态模型并发布手语教考一体机,大幅改善了特殊人群的学习环境。此外,长安汽车、新华社技术局、浙江移动、爱奇艺等多模态人工智能产业联盟成员也分别打造了自己的多模态+智能座舱、多模态+新媒体内容检索平台、多模态+南宋御街数字人、多模态+视频摘要智能平台等场景化大模型及行业应用。智能遥感开源生态联盟下,基于武汉LuoJia的自然资源大脑、全场景类脑遥感矩阵、耕地保护自然监测平台、智能遥感解译平台等创新成果也不断涌现。

大模型是AI产业加快发展的必然,也是科研创新走向产业应用的关键。华为联合产业界基于昇腾AI开启的“炼大模型”新范式,首次从大模型规划、开发到产业化构建了大模型全流程使能体系,拉通了技术生态与商业生态之间的桥梁,将加速我国大模型产业化发展,进而推动AI产业化和产业AI化,加速智能世界到来。

2、打造原生支持科学智能的基础软硬件平台,原生构建科学智能新生态

华为基于鲲鹏和昇腾AI,融合HPC和AI两大技术优势,通过创新的计算架构,打造原生科学智能基础软硬件平台,以全栈的创新实现科学智能基础设施的极致性能、极简开发。

在硬件方面,华为推出科学智能全场景液冷“天成”多样性算力平台,其支持多样性算力灵活弹性部署,可实现液冷级能效,整系统 TCO降低20%,性能提升20~30%;在基础软件方面,华为发布毕昇C++编程语言并全面升级毕昇编译器,实现系统开发效率提升一倍,系统性能提升30~50%;在开发使能方面,华为升级全场景统一工具MindStudio,实现软件融合编程、编译和调优,可使科学智能全场景开发效率提升50%;在应用使能方面,昇思MindSpore 2.0升级为AI融合框架,原生支持科学智能以及多瑙融合调度器,其内嵌科学智能套件,让科学智能应用的开发、部署和调度更 高效,应用性能提升10~20倍,系统资源利用率提升15%。

目前,科学智能基础软硬件平台已在新材料研发、大飞机设计、蛋白质结构预测等领域中应用。科学智能要实现产业化落地,还需要突破科研理论,创新工程方法,并构建产业生态,聚焦产业价值场景,打通科研创新、应用示范到产业推广的通道。在华为全联接大会2022中,华为倡议成立科学智能创新联合体,呼吁产学研各方共同携手,为大力发展科学智能生态奠定基础。

科学智能基础软硬件平台

绿色高效成为算力基础设施建设的关键诉求

一、产业趋势

1、在双碳目标下,算力基础设施的建设更加注重能耗

未来算力将爆炸式增长,而数据中心是算力的主要载体,是新型基础设施节能降耗的关键环节,也是促进全社会降碳增效的有力抓手。传统数据中心能耗高、算力利用率低,在“3060 双碳”目标牵引下,国家对数据中心能耗提出更严格的要求,各省也出台了能耗指标及PUE要求,算力爆发式增长和降低碳排放的矛盾愈发突出,数据中心绿色化转型升级势在必行,算力基础设施的建设更加注重绿色高效。 

2、从单领域创新走向系统级创新,实现绿色高效

传统数据中心能耗控制往往是单领域创新优化,比如材料优化、供配电优化、空调制冷优化等,但提升效果有限,因此需要通过系统工程的创新,包括提升集成度、多领域全栈协同优化,比如通过AI技术对设备功率进行动态控制、IT设备与供配电及制冷设备全栈协同联动等,解决大规模数据中心建设能耗的难题,降低能耗,提高能效比和系统性能,实现绿色高效。

二、建议

1、建设模式从传统的部件堆叠逐步走向集群全栈一体化

传统的数据中心都是分层建设、部件堆砌,导致建设周期长、能耗高、算力利用率低;集群计算中心为代表的新建数据中心,采用全栈一体化设计,从L0到L3整系统创新和协同优化,集中化建设、集约化使用,达到多样算力融合、模块化快速部署、液冷绿色高效,实现DC as a Computer。

数据中心建设从部件堆叠走向全栈一体化

2、散热方式逐步从传统风冷走向风液混合或全液冷

数字经济时代,对高性能、高密度的计算需求逐渐增多。芯片和单机柜功率密度不断增大,传统散热方式难以为继,房间级空调方案,受限于物理空间和空气比热容低,难以支持每柜12KW以上机柜;行级空调方案,单机柜超过12KW时,需冗余配置空调以增加换热量,影响机房出柜率和TCO;超过15KW,风冷换热效率不足,难以支撑高功率元器件散热负荷,无法满足散热需求,液冷技术逐渐普及。液冷提供了高能效、高可靠、低碳环保的散热技术,逐渐成为算力基础设施的主流散热方式。 

3、算力评估逐步从面向硬件的裸算力,走向面向业务的有效算力

传统算力度量采用裸算力或部件级算力评估,如规格算力(芯片标称的算力规格)指标,单机或单服务器的性能评测,只关注IT计算设备的单台设备理论性能,无法完全体现集群系统或者算力中心整体性能。算力中心的真实性能需要综合考虑芯片、存储、网络以及平台软件各层协调所呈现的综合业务性能,也就是“有效算力”。有效算力通过评测真实业务性能表现,来衡量算力基础设施对业务的支撑效果,也就是业务实际可获得的算力水平。通过有效算力的模式来牵引算力基础设施的建设,提升算力的利用率,推动算力建设绿色高效诉求的落地,更好地支撑当地产业的发展。

三、解决方案

1、集群计算全栈协同优化,实现 DC as a computer

集群计算解决方案,通过系统级工程创新,采用软硬件协同设计,包括应用软件与平台软件的协同优化,基础硬件平台及供电散热系统与平台软件的协同优化,实现从应用到平台到基础硬件平台、供电散热系统的纵向业务联动,数据中心全栈优化DC基础架构;采用数据中心整体设计,包括计算、存储、互联等各子系统协同优化,结合基础架构及通网络优化使能平台及中间件持续提升,CPU/NPU/xPU多样性算力平台及融合调度,实现横向资源整合,突破硬件基础算力瓶颈。

通过上述措施,软硬协同、纵向业务联动;整体优化、横向资源整合,提升数据中心的有效算力,提高能效比,实现DC as a Computer。

集群计算解决方案整体架构

算力网络将成为

重要的算力供给方式

一、产业趋势

1、算力建设从分散化走向集约化

在“东数西算”“网络强国”等战略的牵引下,在“3060双碳”目标牵引下,原来传统的分散化算力建设的弊端也越来越突出,建设周期长、能耗高、利用率低,不符合绿色高效的算力发展趋势。以人工智能计算中心、超算中心、一体化大数据中心等为代表的算力基础设施,成为国家新基建的重要组成,算力建设走向集约化,建设周期短、能耗低、算力利用率高。各地集中进行算力中心的建设,让算力像水和电一样,成为城市新型基础设施和公共资源。就像过去每个核心城市标配有机场、有高铁站,未来数字经济发展、智能化发展,核心城市都将标配一个公共算力中心,来以算力赋 能科研创新和产业发展。

2 从算力中心,走向算力网络

各地算力中心、算力基础设施陆续建成后,结合网络基础设施,就可以连成一张算力网络。像过去有电力网、通网一样,在数字世界也一定会有一张算力网。以人工智能算力为例,2021年,中国科学技术息研究所、新一代人工智能产业技术创新战略联盟(AITISA)、鹏城实验室共同发布《人工智能计算中心发展白皮书2.0》,指出了人工智能中心发展的新阶段——从人工智能计算中心走向人工智能算力网络。2021年底,在科技部的指导下,鹏城实验室牵头成立了人工智能算力网络推进联盟, 推进各地上线的人工智能计算中心连接成网上线运行。2022年6月,“中国算力网—智算网 络”一期正式上线,这是中国算力网络建设迈出的关键一步。各地的算力建设,开始从单独的算力中心,走向全国范围内的算力网络。

二、行动建议

1、加速算力基础设施的建设

集约化建设绿色高效的算力基础设施,既是响应国家产业政策的需要,也是区域社会经济发展的需要。算力基础设施建设,需要结合当地的产业布局、科研实力及数字经济发展情况,以应用为导向,以息技术与制造等传统技术深度融合为主线,推动人工智能计算、超级计算等先进技术的产业化与集成应用,发展高端智能产品,夯实核心基础,提升智能制造水平。促进算力服务相关各基础设施的建设,完善公共支撑体系,促进产业发展,推动制造强国和网络强国建设,助力实体经济转型升级。 

结合各地实际情况,联合高校、科研院所、企业等行业技术力量,适度超前、加速建设算力基础设施,可以服务于千行百业,满足高校、 科研院所、企业不断增长的算力需求,以充沛算力,促进本地各行各业发展的诉求;同时,承担国家和区域里涉及国际民生的关键行业科研诉求,带来良好的经济效益和社会效益。 

2、积极加入中国算力网,实现算力汇聚共享

2022年6月,在科技部指导下,由鹏城实验室牵头的“中国算力网-智算网络”正式上线,伴随各地算力基础设施的不断建设。截止2022年11月,鹏城云脑、北京、成都、中原、合肥、 武汉、西安、济南、青岛、沈阳、广州、重 庆、昆明、福州、长沙、河北(廊坊)等20多个节点已接入中国算力网。多个人工智能计算中心间的AI算力调度与协同训练已完成初步验证,全国AI算力一张网初具雏形。 

未来,各地的人工智能计算中心、超算中心、一体化大数据中心、算力枢纽、以及社会泛在云算力中心都可以接入中国算力网,共同构建一个支撑中国数字经济发展的强大算力底座,汇聚多种社会算力,实现绿色高效布局、泛在算力协同和全网交易流通,以东数西存、东数西算、东数西训为牵引,将逐步形成绿色集约的算力布局;汇聚多种社会算力,形成更加泛在的算力协同,并通过全网的算力交易流通, 弹性满足全网范围内的算力需求。让算力成为与水电一样,可“一点接入、即取即用”的社会级服务。

三、解决方案

1、算力网络架构创新,打造全网一台计算机

算力网络需要以终为始,站在最终用户使用者的角度,打造全网一台计算机的架构,实现全程全网的社会级算力服务。算力网络的参考架构包括算网大脑及运营层、算网基础设施及使能层。

1)单域自治

使能层通过算力使能、网络使能和数据使能实现算力、网络和数据的单域管理与调度,确保单域独立交付与演进

2)跨域编排

实现跨域跨厂家的业务编排与调度,负责多云管理

3)北向接口

制定统一接口标准,各单域使能以服务化形式(云服务或Restful API)对外,供上层调用

4)以云调算

云纳管算,通过云服务来调度各种算力,重用云在大规模、跨域和异构算力的统 一调度能力

非云化资源池由云管纳管,不参与全局调度;通过单域自治、跨域编排、北向接口、以云调算,实现“全网一台计算机”,为用户提供无所不在的算力服务。

算力网络架构创新,打造全网一台计算机

面向未来,华为将坚持围绕鲲鹏和昇腾,携手产业伙伴共建计算产业生态;坚持“硬件开 放、软件开源、使能伙伴和发展人才”,和产业伙伴共同构筑坚实的算力底座。 共建计算产业,共赢数智时代。


温馨提醒:用户在赢家聊吧发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。本文中出现任何联系方式与本站无关,谨防个人信息,财产资金安全。
点赞1
发表评论
输入昵称或选择经常@的人
聊吧群聊

添加群

请输入验证信息:

你的加群请求已发送,请等候群主/管理员验证。

时价预警 查看详情>
  • 江恩支撑:
  • 江恩阻力:
  • 时间窗口:

数据来自赢家江恩软件>>

本吧详情
吧 主:

虚位以待

副吧主:

暂无

会 员:

1人关注了该股票

功 能:
知识问答 查看详情>