注册返回主站

还在一个个造大模型？商汤直接开了个“大模型超市”｜甲子光年

作者：晚梦忆往昔
2023-04-13 17:37:20
分享：

商汤冲击AGI。

作者｜武静静

编辑｜刘景丰

素有“亚洲最大AI公司”之称的商汤，放出了自己在AI基础大模型上的大招。

4月10日，商汤在上海的技术交流日上发布了基础大模型“日日新SenseNova”，并推出了一系列基于“日日新”的生成式AI模型及应用，具体包括

对标ChatGPT的大语言模型“商量SenseChat”；

对标Midjourney的AI文生图创作平台“秒画SenseMirage”；

AI数字人视频生成平台“如影SenseAvatar”；

分别针对大场景、小物体生成的3D内容生成平台“琼宇SenseSpace”和“格物SenseThings”。

日日新大模型核心能力

当别人还在一个一个地造大模型产品时，商汤竟直接开了个“大模型超市”。

而且“超市”里的产品还能上手即用。在活动现场，商汤科技董事长兼CEO徐立实时演示了这些产品的功能。目前，B端企业用户和开发者可以通过申请商汤的API接口使用“日日新SenseNova”大模型体系中的图片生成、自然语言对话、视觉推理和数据标注等服务。

对C端用户来说，想要体验这些功能还要等一等。据商汤透露，相关产品正在备案，不日将面向大众开放。

和大厂一样，商汤在大模型生态中的定位是基础设施提供商，为上层应用公司提供AI基础设施。发布会上商汤的大模型即服务（MaaS，Model-as-a-Service）模式也正式亮相，商汤面向开发者开放了自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多项能力。

“AI正进入大模型时代，商汤已深耕多年，期待更多合作伙伴来接入‘日日新SenseNova’大模型体系，携手共赴AGI之路。”商汤科技董事长兼CEO徐立说。

大模型掀起的AI技术热潮正在打开新的生产力工具可能性，作为一家此前以计算机视觉技术能力获得公众关注的AI公司，商汤新推出的这一系列产品具体表现如何？它又凭什么参与这场国内大模型战役？

「甲子光年」在现场体验了新产品，并采访了商汤联合创始人陈宇恒，一探其中究竟。

1.开一家“大模型超市”

徐立在现场把“日日新SenseNova”比作一个大模型超市。

“‘日日新’这个名字听起来就像一个超市，商汤就是在提供一个大模型超市。我们的大模型超市里，更多不同能力的大模型会源源不断地产生，更多的生产可能性会持续涌现。”

末了，他又解释了这个名字的由来“‘日日新SenseNova’，寓意‘苟日新、日日新、又日新’，希望模型的迭代速度及处理问题的能力可以日日更新，不断解锁AGI的更多可能。”

日日新SenseNova大模型体系中

包含的各类模型

基于“日日新SenseNova”，一系列产品应运而生。

现场，最受观众追捧的非“商量”莫属。

这个和ChatGPT、百度“文心一言”、阿里“通义千问”类似的大语言模型，不仅可以在对话中写诗、讲故事，还能分析文档、写代码，以及线上问诊。

活脱脱一个多面手。

当然，针对编程这个当下极度热门的技能，商汤基于“商量”专门研发了AI辅助开发工具“AI代码助手”，来帮助开发者完成测试代码生成、代码翻译、代码修正等任务。

根据商汤内测的数据，一个程序员可以借助“AI代码助手”将代码编写效率提升62%，而HumanEval测试集一次通过率仅为39%，效率提升可见一斑。

现场演示“AI代码助手”写代码

让人惊艳的是，工作人员在现场实时演示中，让“AI代码助手”编写一段“手写文档OCR”的程序，最后竟跑通了代码。

除写代码外，针对医疗领域，商汤打造的中文医疗大语言模型叫“大医”，可以线上导诊、问诊、健康咨询、辅助决策。

目前，商汤已经和专业医院在推进“大医”落地的相关合作。

现场演示了“商量”的线上问诊能力

对普通用户来说，最好玩的莫过于可以几秒作画的“秒画”。

我们可以把“秒画SenseMirage”理解成一个文生图模型超市，有商汤自研的模型，也汇聚了海内外10000+个开源模型。「甲子光年」从商汤处了解到，昨天流传的商汤秒画生成的图片非自研是一则乌龙，当天发布会演示内容中，精选模型就是秒画汇集其他开源大模型的示例，且商汤在展示中也已经注明来源。

据了解，“秒画SenseMirage”这个大模型超市“应有尽有”——不仅包含商汤自研AIGC大模型和便捷的LoRA训练能力，还能提供第三方社区开源模型加速推理。其背后是超10亿参数的商汤自研文生图生成模型，且还能支持一键导入多个平台的开源模型，用户也可以上传本地模型并对其进行特异性推理加速优化。“我们希望为创作者提供更加便利、完善的内容生产创作工具”，徐立表示。

现场演示文生图生成模型“秒画”

作为中国的AI大模型，怎么能不懂国画风呢？当工作人员在现场输入“跑车，水墨风”的指令，用商汤自研作画模型，“秒画”便生成了下面几幅图。

“秒画”生成的图片

「甲子光年」了解到，“秒画”于去年10月即在公司内部启动立项。创作者和企业都可以借助“秒画”进行自训练，企业用户可以通过API的方式调用“秒画”的能力。

接下来是“如影”，它是一个可以低门槛、快速打造数字人的AI数字人视频生成平台，主要面向企业用户，可以帮助电商直播企业、短视频营销企业、教培机构、娱乐企业等快速生成视频内容，让线上营销和品牌更快、更高效、更沉浸。

有意思的是，“如影”和“商量”的自然语言能力是打通的，创作者可以直接通过对话生成文案，连自己写文案的过程都省了。

现场演示AI数字人视频生成平台“如影”功能

“琼宇”“格物”则分别是基于空间和物体的3D内容生成平台。

“琼宇”大空间3D内容生成应用主打场景生成，复刻和还原超真实感的场景，支持实时交互和编辑，可用于城市及园区的数字孪生、影视创作。

“琼宇”大空间3D内容生成应用

“格物”小物体3D内容生成应用可实现各品类物体超细节的复刻还原，带来400%的综合效率提升，实现95%的综合成本降低。它适用于商业广告、商品营销等应用场景。

格物小物体3D内容生成应用

除以上产品之外，商汤还发布了自动标注服务产品“明眸”，内置10余个通用大模型和行业专用大模型，支持智能驾驶、智慧交通、智慧城市等多种场景的2D分类、检测和3D检测的智能标注。

自动标注服务“明眸”

现场工作人员告诉「甲子光年」，“‘明眸’此前一直是商汤内部的一项自用技术能力，在很多客户场景都已经有实践，此次开放API也是一次技术产品化的新尝试。之后，商汤也将持续释放新的技术能力。”

总体来看，商汤发布的“日日新”大模型体系囊括了基础层平台、中间层AI工具和直接面向场景的应用层产品三个层面，商业化的重心瞄准的还是之前有优势的to B场景。

此次，商汤的系列产品组合拳不仅是为了响应市场，也是基于公司大装置路线的进一步延伸。

商汤做大模型可以追溯到2019年，一开始是CV（计算机视觉）大模型；2020年，公司逐步开始涉猎大语言模型，彼时还只是内部研发的一项新技术；从2021年开始，公司开始探索多模态大模型和决策智能大模型，并进行了一系列AIGC的落地尝试。

作为国内CV行业的“头号大哥”，这次商汤日日新大模型中展现出的自然语言大模型能力和多模态大模型能力，可以说是一次不一样的“跨界”行为。

2.算力的领先优势在细处，在实处

从大语言模型到图片生成模型，再到3D内容生成模型、行业专用模型，看上去迥异的技术能力，商汤能一口气全部发布的底气在哪儿？

答案藏在商汤此前一直重点强调的大装置中。

大装置并不是一个新事物。2017年，为了突破算力瓶颈带来的AI落地难题，商汤开始探索AI落地的另一种可能性——变身“AI工厂”，走AI平台的路径。

这是一条“几乎没有人走的路”。对创业公司而言，不仅意味着长期的巨额投入，也要面临缓慢的商业化进程。徐立自己也坦言“先有持续的大规模技术投入带来创新，再有商业模式发展，处处是难题，商业不确定性极高。”

但这条路一旦走通，就可以让AI变得足够通用，成为数字时代的“水电煤”。

商汤选择孤注一掷，大装置因此而生。徐立把大装置比作“人工智能的粒子对撞机”——大算力，海量数据，一通“暴力”计算，最后给出结果。

算力是商汤首要攻克的难题。2018年开始，商汤在自建算力中心的基础上，打造了SenseCore商汤AI大装置的“原型机”。2020年7月，商汤斥资56亿元，开始在上海临港建设AIDC智算中心。2022年1月，AIDC智算中心正式开始运营。此次，「甲子光年」在现场参观了该超算中心的其中一个机房。据商汤联合创始人陈宇恒介绍，商汤大装置上总共有2.7块GPU芯片卡，可以并行训练 20 个亿参数量超大模型，是亚洲目前为止最大的智能计算平台之一。

上海临港建设AIDC智算中心

算力也是大模型的关键要素之一，浙商证券的一份研报指出，支撑ChatGPT算力基础设施至少需要上万颗英伟达GPU A100（AlphaGO只需要8块GPU）。

据悉，商汤AI大装置可输出的5000P算力远高于业内平均水平，且最大能支持4000卡并行单任务训练，还能持续7天以上不间断稳定训练，公司也预计明年将达到万卡级的并行训练水平。

这种算力实践经验才是大模型的关键壁垒之一，在国内更是一种稀缺的能力。过去10年，AI算法对于算力的需求增长超过了100万倍。“目前业界训练模型对基础算力、基础设施的需求非常旺盛，随着大模型技术不断发展，人工智能算力会供不应求，更高质量的算力、更系统化的软硬件工程化能力，将成为商汤的核心优势能力。”陈宇恒提到。

在他看来，这种算力的难题在细节的工程化上，在具体的场景实践中。“只要买了大量GPU就可以搭建超大规模的训练集群，这是一个很大的误区。”

SenseCore 商汤 AI 大装置

陈宇恒谈道，难题主要在两个层面。首先是硬件可靠性上，如何把上千张甚至上万张GPU高效地连接，并获得较高的并行效率，是需要在实践中持续积累的真功夫。

“从经济学的角度，需要在集群规模越来越大的过程中，保证并行效率。如果1万张卡只能达到1000张卡2倍的训练效率，就是严重不合理的。目前，商汤千卡并行训练中可以达到90%的线性度，处于行业领先水平。”他说道。

另一个算力的技术难点是软件容错率，让上千张、上万张GPU长时间无故障地运行，需要结合场景，通过复杂的分布式系统设计和网络架构设计来完成。

商汤克服这些技术难题，依靠的是大模型+大算力融合创新的研发体系，以及针对大模型底层训练实施的各种系统性优化，具体包括数据运行、模型并行的优化混合精度优化以及模型设计、模型训练、模型优化、模型服务等。

“这些细节处的功夫，是支撑商汤未来万卡级人工智能大模型能够达成高效并行训练的前提。”陈宇恒说。

对于商汤而言，此次“SenseNova日日新”大模型体系的推出，是一次技术成果的集中输出，既是意料之外，也属于情理之中。

在AI大装置的基础上，一系列大模型生产服务也顺理成章地诞生，前述提到的数据标注，以及大模型推理部署、大模型增量训练对于商汤而言，都是此前已经在场景中落地的一次能力分享和展示。资料显示，商汤大模型的推理部署可以将推理的效率提升100%以上；基于大装置，商汤将大模型微调的成本降低至原来的1/10。

对于此刻的商汤而言，当前大模型的火热正是一个新的机会，让自己的多年的技术投入成果被更多人看见。

3.打开全新的商业可能

最核心的算力之外，商汤做大模型的更大底气是算力+算法+数据的场景闭环实践。

验证一个大模型能力最好的方法就是让它接受多样场景和开放性任务的检验。商汤在这条路上走了多年，从决定要做大装置之后，商汤的目标就是“赋能百业，让AI能力足够通用”。

高质量的数据是大模型能力涌现的动力之一，多年的行业实践让商汤积累了丰富的高质量数据。此前，商汤的大装置已经在智慧城市、智慧商业、智能汽车和智慧生活四大板块的20多个场景中实现落地。

在商汤的展区，我们看到了各种产业案例，比如帮助城市进行车路协同管理，帮助汽车公司升级自动驾驶能力，帮助医疗机构提升检测效率，帮助文创行业打造数字化体验等。财报数据显示，2022年，商汤实现营业收入38亿元，其中智慧生活板块收入同比增长130%，智能汽车板块收入同比增长59%。

智能汽车板块，目前，商汤旗下的智能产品商汤绝影智能车舱和智能驾驶产品完成了27款车型的适配和实际投产，全年量产交付数超50万辆，合作品牌包括蔚来、广汽、比亚迪、长安、极氪、哪吒等，持续领跑行业。

这些场景实践让商汤源源不断地获得了大量数据，基于大算力的基础，通过算法，实现了技术的闭环。

“有真实的行业落地和用户反馈的闭环，是商汤技术路线的核心。模型不仅要越做越大，还要越做越有用。”陈宇恒强调。

为此，商汤也在持续探索各类不同的新应用场景，目前发布会上我们看到的智慧生活AI内容生成（AIGC）就是商汤在去年开始探索的新方向。商汤的一些数字人产品已经融合了文本生成图像，融合了大语言模型的一系列技术，落地在一些具体的客户场景中。比如在2022年初，商汤就给宁波银行打造了数字员工“小宁”，作为虚拟人客服，为银行的客户提供各类业务知识，还能帮忙办理服务。

发布会上，徐立展示了一幅数字世界的全新图景——把“日日新SenseNova”系列产品都搬到直播间，用“商量SenseChat”实时生成直播内容，用“如影SenseAvatar”打造一名虚拟主播，用3D内容生成平台“琼宇SenseSpace”和“格物SenseThings”呈现线上场景和产品，“一个直播间里面可以有各种各样的AIGC 相关的内容和产品。比如说，我们一个直播间的物件、场景都可以是数字化生成的。”

从产品生成，到内容互动，这不仅是一种体验的升级，更打开了全新的商业可能，比如对于电商直播而言，就可以实现直播间24 小时不停播。

新的图景正在铺开。

“AI大模型会带来新的生产范式，也将会为我们带来无限的可能性，商汤会将AGI作为核心的发展目标，在未来几年持续推动大模型和AGI技术的突破。”徐立说。

国产大模型军备竞赛还在持续，开往AGI的列车徐徐向前，更多人在陆续上车，更多公司在争相成为决定方向的关键角色。这条AGI之路上，商汤会带来什么？又将改变什么？让我们拭目以待。

END.

受微改版影响，没有标星的朋友可能会错过「甲子光年」的推送或是看不到封面，欢迎各位新老朋友给「甲子光年」点个星标⭐️，以便及时收到我们的每篇新推文。