注册返回主站

计算机孟灿|计算机行业深度研究大模型时代，AI技术向效率提升演进

作者：转运卿
2023-02-28 08:56:57
分享：

金选·核心观点

投资逻辑

我们2022年12月发布的报告《深度学习算法从多样到统一》中，阐述了自Google 2017年提出Transformer以来，深度学习开始进入大模型时代。大模型时代的前沿技术发展围绕着提升效率而展开，包括1）提升训练方法效率向无监督和半监督学习发展；2）提升数据效率从追求数据规模向追求数据质量发展；3）提升开发效率通过“预训练基础模型+微调”，挖掘现有大模型潜力，降低具体下游任务的开发成本；4）提升算力效率从稠密机构向稀疏结构发展；5）提升训练的工程化效率向并行训练和混合精度训练发展。

训练方法AI模型的训练方法主要包括监督学习和无监督学习两种典型方式，后随模型训练数据量的增加，衍生出使用大量未标注数据+少量标注数据的半监督学习方法。AI训练方法的发展历经“监督-无监督-监督-无监督/半监督”4个阶段，在目前的大模型阶段，无监督/半监督训练再次成为主流。

数据效率随参数规模的增加，大模型在知识密集型任务中的效果提升显著。此外，当模型参数超过特定阈值后，模型会对特定任务表现出“涌现”现象。目前学界和业界已意识到数据质量的重要性或高于数据数量，AI大模型需要在保证数据质量的前提下进行数据数量和参数规模的扩充。

开发效率AI大模型的流行提出了“基础模型+微调”的AI开发新范式。相较于过去“一场景、一任务、一模型”的开发模式，“基础模型+微调”具有数据需求量小、训练时间短、落地边际成本低等优点。微调技术的发展带动大模型由“以参数规模取胜”向“以高质量学习取胜”转变。

算力效率AI架构可分为稠密结构和稀疏结构，其中稀疏结构可有效降低大模型对算力的消耗。2017年Google提出了混合专家方法MoE，使得模型在计算过程中只需激活部分神经网络；2022年6月Google发布的基于稀疏结构的多模态模型LimoE，已经在降低算力消耗的同时取得不亚于稠密结构的成绩。

工程化效率伴随AI大模型参数量的不断提升，并行训练、混合精度训练等技术发展迅速。其中，国产AI框架百度PaddlePaddle提出的4D混合并行策略在MLPerf发布的稠密结构AI训练性能榜单中位列第一；通过使用16位浮点数代替32位浮点数进行训练，能够在同等模型表现的情况下实现训练时间减半。

投资建议

建议关注受益于AI算法进步，并能成功进行商业化应用的科大讯飞、商汤科技等公司；以及受益于AI算力需求、微调技术发展的海光息、浪潮息、海天瑞声等公司。

风险提示

海外基础软硬件使用受限；骨干网络创新放缓；应用落地不及预期。