登录 注册 返回主站
F10资料 推荐产品 炒股必读

全球生成式AIGC产业链前瞻

  • 作者:C丶cc
  • 2023-02-10 15:47:24
  • 分享:


技术助力 AIGC 发展,长期看大模型+多模态成趋势,AI 由分析转向创造,22 年 AIGC 产品集中发布

AI 技术逐渐实现从分析到创造的迭代。AI(Artificial Intelligence)即人工智能,传统的 AI 技术被称为分析式 AI(Analytical AI),偏向于分析数据并总结规律,同时将规律运用到其 他用途,比如运用 AI 技术进行垃圾邮件检测、向用户推荐感兴趣的短视频等。

但随着技术 的迭代,AI 已经不仅仅局限于分析已有事物,而是开始创造有意义、具备美感的东西,即 完成感知世界到创造世界的变迁,这种新型的技术被称为生成式 AI(Generative AI)。

从定义上看,AIGC 既是一种内容形态,也是一种内容生成的技术合集,即生成式 AI。

从 狭义上看,AIGC(AI Generated Content)是继 PGC(Professional Generated Content) 与 UGC(User Generated Content)之后的一种内容形式,即利用人工智能技术生成的内 容。

从广义上看,AIGC 指的是自动化内容生成的技术合集,基于生成算法、训练数据、 芯片算力,生成包括文本、音乐、图片、代码、视频等多样化内容。

AIGC 起源于 20 世纪 50 年代,经过多年发展,在 2022 年 AIGC 产品集中发布,多款产 品出圈,引发社会广泛关注。

据中国通院,AIGC 起源于 20 世纪 50 年代,莱杰伦·希 勒和伦纳德·艾萨克森完成历史上第一只由计算机创作的音乐作品《依利亚克组曲》,但 受制于技术水平,截至 1990 年,AIGC 均仅限于小范围实验。

1990-2010 年是 AIGC 的沉 淀积累阶段,AIGC 逐渐从实验向实用转变,但受限于算法瓶颈,效果仍有待提升。

2010 年以来,伴随着生成算法、预训练模型、多模态技术的迭代,AIGC 快速发展,2022 年多 款产品出圈。

2022 年 8 月,Stabilty AI 发布 Stable Diffusion 模型,为后续 AI 绘图模型的发展奠定基础, 由 Midjourney 绘制的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类 别的冠军,引发社会广泛关注。

2022 年 11 月 OpenAI 推出基于 GPT-3.5 与 RLHF ( Reinforcement Learning from Human Feedback , 人 类 反 馈 强 化 学 习 ) 机 制 的 ChatGPT,推出仅 2 月日活超 1,300 万。

据 Forbes,2023 年 1 月 OpenAI 的估值从 2021 年的 140 亿美元提升到 2023 年 1 月的 290 亿美元。

科技巨头亦加码布局 AIGC, 如微软表示将自己的消费者和企业产品中部署 OpenAI 的模型,宣布将 OpenAI 语言模型 整合到 Bing 引擎和 Edge 浏览器中;

谷歌在 ChatGPT 发布后亦加快 AI 自研,2023 年 2 月 7 日正式发布下一代 AI 对话系统 Bard,此外谷歌还投资 ChatGPT 的竞品 Anthropic。

国内方面,据百度官网,2023 年 2 月 7 日,百度公布了大模型新项目文心一言(ERNIE Bot),据彭博社,百度计划在 2023 年 3 月将最初的版本将内嵌到搜索服务中。

生成算法、预训练模型、多模态技术成为 AIGC 发展的关键

从技术上看,生成算法、预训练模型、多模态技术是 AIGC 发展的关键。从流程上看,算 法接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。长期 看大模型+多模态将成为趋势

生成算法持续优化

算法即解决问题的策略和机制,2014 年伊恩·古德费洛提出的 GAN(Genrative Adversarial Network,生成对抗网络)成为最早的 AI 生成算法。

随后 Diffusion、 Transformer、基于流的生成模型(Flow-based models)、CLIP(Contrastive LanguageImage Pre-Training)等深度学习算法相继被推出。

其中 Diffusion 逐渐代替 GAN 成为图 像生成的主流模型,Transformer 的推出为预训练模型奠定了基础,CLIP 则广泛应用在多 模态技术中。

预训练模型持续完善

2015 年以前,小模型一度被认为是行业发展的方向,但这些小模型更偏向处理分析性任 务 , 生成 能 力较 弱。

2017 年 谷 歌 研究 院 在《 Attention is All You Need 》中提出 Transformer 算法的概念。Transformer 能够有效提取长序列特征,具备较高的计算效 率和可扩展性,大大降低训练时间。

2018 年谷歌发布基于 Transformer 的 NLP(Natural Language Processing,自然语言处理)预处理模型 BERT,标志着人工智能进入预训练 模型时代。

从流程上看,预训练模型采用两阶段学习法,即首先在大量的通用数据上训练并具备基础 能力,再结合多样的垂直行业和场景对预训练模型进行微调,从而有效提升开发效率。

随 着参数规模的扩大,预训练模型在语言理解,图像识别等领域迅速取得突破,所需的计算 量也急剧增长。据红杉资本,2015-2020 年,用于模型训练的计算量增加了 6 个数量级。

据腾讯研究院,按照类型分类,预训练模型包括NLP(自然语言处理)模型,使得 人与计算机能够用自然语言有效通,包括 OpenAI 的 GPT 系列,Facebook 的 M2M100;

CV 模型(Computer Vision,计算机视觉),运用计算机及相关设备对生物视觉 进行模拟,比如微软的 Florence;

多模态预训练模型,包含图像、文字、视频等多种 形式,如谷歌的 Image、Stability AI 的 Stable Duffusion 等。

多模态技术快速发展

多模态技术(Multimodal Technology)即将图像、语音、视频、文字等多模态融合的机器 学习技术,而 CLIP(Contrastive Language–Image Pre-training)的推出成为跨模态应用 生成的重要节点。

CLIP 在 2021 年由 OpenAI 开源推出,能够将文字和图像进行关联且关 联特征丰富,后续“CLIP+其他模型”成为跨模态生成领域的较通用的做法。

如 Disco Diffusion 便是将 CLIP 与 Diffusion 模型进行关联,用户输入文字指令便能够生成相关的图 片。在多模态技术的加持下,预训练模型已经从早期单一的 NLP、CV 向多模态、跨模态 的方向发展。

AIGC 产业链基础层/中间层/应用层,中外差距约 3 年

从产业链结构来看,AIGC 主要包括基础层、中间层和应用层,中外差距在 3 年左右。由 于技术与投资环境差异,AIGC 在我国大多作为公司的部分业务进行开发。

独立的初创公 司数量较少,导致 AIGC 实际的场景开发较国外仍有差距。据量子位,中外公司的整体差 距在 3 年左右,底层技术是核心原因。

基础层

基础层即预训练模型,构成了 AIGC 的基础。随着预训练模型参数的增加,预训练所需要 的数据量同样快速提升,带来较高的成本投入。

据中国通院与京东探索研究院发布的 《人工智能生成内容白皮书 2022》,模型参数量已从最初的千万级发展到了千亿级别,训 练代价也从数十天增长到几十万天(按在单张 V100 GPU 计算)。

据北京智源人工智能研 究院,2020 年 OpenAI 发布的 NLP 模型 GPT-3 的参数量约 1,750 亿,训练数据量达 45TB,模型训练成本近 1,200 万美元。

因此该领域的参与者主要是科技巨头与头部的研究 机构,如 OpenAI、谷歌、微软、Meta、百度等。

中间层

中间层即垂直化、场景化、个性化的模型。在预训练模型的基础上,能够快速生成垂直化 的小模型,实现流水线式的开发,降低开发成本,提升效率。

如 Stable Diffusion 开源后 多个绘画模型基于 Stable Diffusion 开发,二次元绘画领域包括知名的 NovelAI,而昆仑万 维的天工巧绘 SkyPaint 模型则采用全球第一款多语言 Stable Diffusion 分支模型,兼容 Stable Diffusion。

据腾讯研究院,随着大模型+多模态加速成长为通用性技术平台,模型 即服务(Model-as-a-Service,MaaS)逐渐实现,通过 API 授权有望助力 AIGC 变现。

应用层

应用层即面向 C 端的 AIGC 应用。从模态上看,应用层包括图像、音频、文本、视频等。

其中图像领域代表产品包括 MidJourney、Dream Studio 等;音频包括 DeepMusic 等;文 本包括 ChatGPT、Sudowrite 等;视频包括 Runway 等。

从形式上看,应用层包括 App、 网页、小程序、聊天机器人等,将 C 端用户与模型联通,已经逐渐渗透到生活中的各个领 域。

如 MidJourney 搭载在聊天软件 Discord 中推出,ChatGPT 则支持网页直接登录,国 内的如昆仑万维的天工巧绘 SkyPaint 能够通过微小程序登录,满足用户的多样化需求。

AIGC 颠覆传统生产模式,掀起全场景内容生产力革命,AIGC 从效率、质量、多样性为内容生产带来革命

AIGC 技术的突破性进展引发内容生产方式变革,内容生产由 PGC(专业制作)和 UGC (用户创作)时代逐渐步入 AIGC 时代。

AIGC 顺应了内容行业发展的内在需求,一方面 内容消费量增加,急需降低生产门槛,提升生产效率;另一方面用户端表达意愿明显上升, 消费者对内容形态要求更高,内容生成个性化和开放化趋势明显。

AIGC 通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者,在内容行业 的应用场景不断增加和拓展,将在内容生产中产生变革性影响。

具体来看主要有以下三点 自动内容生成,提升内容生产效率,降低内容生产门槛和内容制作成本。

当前大量文 本、图像、音频、视频等内容都可以通过 AIGC 技术自动生成,高效的智能创作工具可以 辅助艺术、影视、广告、游戏、编程等创意行业从业者提升日常内容生产效率。

自 动内容生成可以降低内容生产门槛和内容制作成本,例如,借助 AI 编曲软件可以自动生成 编曲,而人为创作大概需要 7-10 年的经验积累。

提升内容质量,增加内容多样性。AIGC 生成的内容可能比普通的人类创建的内容质量 更高,大量数据学习积累的知识可以产生更准确和息更丰富的内容,谷歌的 Imagen 生 成的 AI 绘画作品效果已经接近中等画师水平。

AIGC 可以帮助企业和专业人士创建更多样化、更有趣的内容,VQGAN 可以生成抽象绘画作品,不咕剪辑 Cooclip 内置丰富的 贴纸、音频、经典“梗”素材等,可以增加视频本身的玩法与乐趣。

助力内容创新,实现个性化内容生成。AIGC将内容创作中的创意和实现分离,替代创 作者的可重复劳动,可以帮助有经验的创作者捕捉灵感,创新互动形式,助力内容创新。

例如 AICG 在设计初期生成大量草图可以帮助美术创作者生成更多创作灵感。根据个人用 户的喜好生成个性化内容,也有利于多种创意落地。

AIGC 发展中仍面临法律、安全、伦理和环境等问题。首先,AIGC 引发了新型版权侵权 风险,因版权争议,国外艺术作品平台 ArtStation 上的画师们掀起了抵制 AIGC 生成图像 的活动。

其次,AIGC 滥用容易引发息内容安全、内生安全、诈骗违法犯罪行为等安全 隐患,诈骗团队利用 AIGC 换脸伪造埃隆·马斯克的视频,半年诈骗价值超过 2 亿人民币 的数字货币。

再次,算法歧视等伦理问题依然存在,人工智能大规模替代人类劳动引发争 议。最后,AIGC 模型训练消耗大量算力,碳排放量巨大,对环境保护造成压力。

文本、音频和图像生成等落地相对较快,游戏等方向仍待成熟

细分场景众多,文本、音频、图像领域发展较快。基于模态,我们认为目前 AIGC 下游落 地场景有文本、音频、图像、视频、游戏、代码、3D 生成等。

较之国外,我国 AIGC 行业 仍处于刚起步阶段,体系化发展等仍待完善。

文本生成AIGC 目前可以较好地完成新闻播报等结构化写作、推荐相关内容、帮助润色 等非结构化内容,同时在虚拟男/女友、心理咨询等闲聊机器人中应用较为广泛。

剧情续写、 营销文本等非结构化写作与文本交互游戏等应用尚未实现规模化应用,未来或可实现文本 生成的终稿达到人类平均水平甚至专业水平。

图像生成随着算法模型的不断迭代,AI 作画水平不断提高。在图像编辑工具上,去除水 印、提高分辨率、特点滤镜等已较广泛应用。

根据随机或按照特点属性生成画作等的创意 图像生成,与根据指定要求生成营销类海报、模特图等的功能性图像生成发展接近成熟。 当前图像生成水平与专职艺术家、设计师和摄影师的产品设计作品存在一定差距。

音频生成发展较为成熟,消费与企业级的应用正在铺开。AIGC 目前在语音克隆、生成虚拟 人的特定歌声/播报等的文本生成特定语言、包含作曲与编曲的乐曲/歌曲生成上得到广泛应用, 代表企业和应用的有倒映有声、Deepmusic、网易-有灵智能创作平台等。

AI 降噪去除压缩和 采样中的噪音仍需改善,AI 作曲不再机械化与人类创作音乐水平相仿,在未来值得期待。

视频生成AIGC 目前对于删除特定主体、生成特效、跟踪剪辑等的视频属性编辑已较广 泛应用,视频换脸等的视频部分剪辑预计不久将规模化应用,对特定片段进行检测与合成 的视频自动剪辑发展仍不完善。

当前,全自动生成长时间的视频作品还不能实现,距离依 个人梦想定制电影和剧集还较为遥远。 其他(游戏/代码/3D)代码补全生成来替代程序员重复性劳动的发展较为成熟,大量应用 已落地。

游戏中游戏操作策略生成和 NPC 逻辑及剧情生成尚需进一步完善,3D 生成尚处 于早期阶段,3D 模型、3D 角色制作和 3D 场景尚未实现规模化应用。3D、游戏、代码自 动生成更加智能将成为未来的增长方向。

AIGC 的商业模式同样处于持续探索的阶段,由按量收费等传统方式向 SaaS 订阅模式等 应用场景更灵活的方式拓展。

AIGC 让 AI 公司为更多中小型企业甚至个人提供服务,可规 模化地降本增效,为 AI 行业带来一种全新的可能性和商业模式。

按量收费AI 技术传统应用模式主要以 API 接口对外开放,以实际使用量/训练量计算 收费,如 OpenAI 的 GPT3 语言模型服务以每千 tokens 定价(OpenAI 使用的字符计 算单位,一千 tokens 约等于 750 个单词)。

Ada/Babbage/Curie/Davinci 四种模型的能 力和产出速度不同,单价也有所不同,分别为$0.0004/0.0005/0.0020/0.0200 每千 tokens。

图像生成方面,DALL`E 模型同样按次收费,不同尺寸的图像收费不同,生 成一张 256x256/512x512/1024x1024 像素的图片,单次收费$0.016/0.018/0.020。

SaaS 模式AIGC 为 B 端及 C 端用户提供了会员 SaaS 收费的模式,降低了传统 AI 公司的客户服务规模化的难度。

据 OpenAI 官网,2023 年 OpenAI 推出付费版本的 ChatGPT Plus,起价为每月 20 美元,提供更快的响应速度,以及新功能和更新的有 限使用权。

美国 AIGC 公司 Jasper 主打 AI 生成文案服务,以类 SaaS 服务收费, 2021 年成立当年营收达 4,500 万美元。

以其 Starter 模式为例,基础收费是 24 美元/ 月,可以使用不超过 2 万字;最高 332 美元/月,可以使用 32 万字。

其他通过降本增效来增利、定制化服务付费、个性化产品销售等。市场积极探索其 他场景商业化在广告营销、影视、音乐、游戏、艺术品等领域 AIGC 有望继续拓展 更多样化的商业化形式。

蓝色光标推出的“销博特”发布 AIGC“创策图文”营销套 件,该套件的定制版服务将销博特营销能力服务部署为企业自有云服务。

根据企业 个性化需求进行二次开发,构建企业内部营销创意基础设施平台,为企业提供专属营 销策划和创意内容。

AIGC 的商业模式同样处于持续探索的阶段,由按量收费等传统 方式向 SaaS 订阅模式等应用场景更灵活的方式拓展。

AIGC 让 AI 公司为更多中小型 企业甚至个人提供服务,可规模化地降本增效,为 AI 行业带来一种全新的可能性和商 业模式。

AIGC 多场景快速落地,文本/图像关注度较高,文本ChatGPT 引领热潮,大厂加码布局交互式文本

据量子位,AI 文本生成分为交互式与非交互式。非交互式包括结构化写作,非结构化写作 和辅助性写作,其中结构化写作指基于数据或规范格式,在特定情况下生成的文本。

如新 闻、简讯等;非结构化写作以创作型文本生成为主,具备更高的开放度。作为 AIGC 最早 发展的技术,AI 文本生成已经在新闻报道、商业营销、客服机器人等领域广泛落地

2022 年 11 月 30 日,OpenAI 推出的智能聊天工具 ChatGPT 引入 RLHF 机制,降低训练成本且 效果优化,不仅能够对问题作出回答,还能完成短文和诗歌创作、代码写作、数学和逻辑 运算等任务。

据 Similarweb,ChatGPT 推出仅 2 月平均日活超 1,300 万,引发社会广泛 关注。科技巨头亦加码布局交互式文本,微软在 2023 年 1 月追加投资 OpenAI,未来还计 划将 ChatGPT 整合到旗下的搜索引擎 Bing 中;

谷歌通过内部研发与投资 ChatGPT 的竞 品 Anthropic 来应对挑战,23 年 2 月 6 日公布了与 ChatGPT 类似的对话服务 Bard;据彭 博社,百度计划将 ChatGPT 类似程序嵌入搜索服务中。

交互式文本

在交互式文本当中,最近热度较高的 ChatGPT 是代表性应用,展现出较强的智能水平。

ChatGPT 是 OpenAI 在 2022 年 11 月 30 日推出的人工智能聊天工具,其不仅能够模仿人 类的风格作出问题回答,还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务。

据腾讯研究院,ChatGPT 目前可以驾驭各种风格和文体,能够做到回答后续问题、承认错 误、质疑不正确的前提和拒绝不适当的请求等。

ChatGPT 的内容输出质量、内容覆盖维度, 已经可以直面“搜索引擎”与“问答社区”。据 CNBC,ChatGPT 通过了 Google 3 级工 程师的编码面试。

据 NBC News,沃顿商学院教授 Christian Terwiesch 发现 ChatGPT 能 够以 B-到 B 的成绩通过该校 MBA 核心课程运营管理的期末考试,展现出较强的智能水平。

ChatGPT 的出现迅速引起广泛关注,仅推出 2 月平均日活超 1,300 万,成为一款现象级 的产品。ChatGPT 用户数在 5 天内突破了 100 万。

据 Similarweb,2023 年 1 月每天平均 有 1,300 万独立访客使用 ChatGPT,超 12 月的 2 倍,而这距离 ChatGPT 的推出仅 2 个 月。

ChatGPT 强大的性能引发了社会的广泛关注,特斯拉 CEO 马斯克在 Twitter 上表示 “许多人已经陷入了 ChatGPT 的疯狂循环中”,“我们离强大到危险的 AI 不远了”;

2023 年 2 月,微软创始人比尔盖茨接受 Forbes 采访时表示“AI 将成为 2023 年最热门的话题, ChatGPT 这种人工智能技术出现的意义不亚于互联网和 PC 的诞生”。

ChatGPT 引入 RLHF 机制,通过引入人类反馈,持续优化模型效果。据 OpenAI 官网, ChatGPT 的模型在 GPT-3.5 的基础上引入了 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)机制。

这一模式增强了人类对于模型输出结果的 调整,对结果进行更具理解性的排序,并提升训练效率,加速模型收敛。

ChatGPT 再获微软投资,合作持续加深,未来将集成至 Bing 搜索引擎与 Edge 浏览器中。

据路透社,OpenAI 在 2019 年获得微软 10 亿美元的投资,2021 年微软对 OpenAI 追加了 投资。据微软官网,微软在 2023 年 1 月表示,作为两家公司合作的第三阶段。

微软将加 大对 supercomputing systems 的投资以支持 OpenAI 的发展。此外微软未来会把自己的消 费者和企业产品中部署 OpenAI 的模型。

为客户引入基于 OpenAI 技术的体验,将 OpenAI 的技术构建到 GitHub Copilot 和 Microsoft Designer 等,同时微软仍然为 OpenAI 的独家云提供商。

从具体的落地层面看,2023 年 1 月微软 CEO 萨提亚·纳德拉表示微软 旗下的 Azure 云服务即将整合 ChatGPT 技术,2023 年 2 月,微软旗下的 Teams 推出嵌 入 ChatGPT 的高级服务。

同时微软宣布将 OpenAI 的语言模型整合到 Bing 搜索引擎和 Edge 浏览器中。据 The information,截至 2023 年 1 月,OpenAI 估值达 290 亿美元。

ChatGPT 在商业化路径上持续探索,推出付费版本 ChatGPT Plus。OpenAI 的 CEO SamAltman 在 Twitter 上表示,ChatGPT 平均一次聊天成本在个位数美分。

除了 API 外, 公司正在探索更多的商业化变现模式,而 ChatGPT Plus 便是其中之一。据 OpenAI 官网, 2023 年 OpenAI 推出付费版本的 ChatGPT Plus,起价为每月 20 美元。

目前只对美国的 用户开放。据 OpenAI 官网,ChatGPT Plus 即使在高峰时段也可以访问,有更快的响应, 可以优先使用新功能和改进。

谷歌通过内部研发与投资应对 ChatGPT 或带来的颠覆性挑战。据 Insider,2022 年 12 月, 谷歌为 ChatGPT 带来的威胁发布了“红色警报”,着手进行紧急应对。

应对措施方面,谷 歌一方面加快内部研发,据谷歌官网,美国时间 2023 年 2 月 6 日,谷歌发布了与 ChatGPT 类似的对话服务 Bard,目前 Bard 向测试人员开放,未来几周将持续向公众开放 该服务。

Bard 基于谷歌的 LaMDA 模型(Language Model for Dialogue Applications,用 于对话场景的语言模型),能够利用网络上的息提供最新的、高质量的回答。

据 The Independent,谷歌或将在 2023 年通过子公司 DeepMind 推出聊天机器人 Sparrow, 可通过谷歌搜索引用特定的息源,准确性更强。

谷歌也在通过投资持续布局相关领域。据金融时报,2023 年 2 月,谷歌投资 AIGC 初创公 司 Anthropic 超 3 亿美元,获得了约 10%股份。

据 Anthropic 官网,谷歌已经与 Anthroic 签署了一份大型云计算合同,Anthropic 从谷歌云购买计算资源,谷歌提供 AI 模型算力。

Anthropic 在 2021 年由前 OpenAI 研究副总裁 Dario Amodei 建立,核心产品是与 ChatGPT 类似的聊天机器人 Claude。

国内大厂对于 ChatGPT 的发展持乐观态度,百度将集成文心一言至搜索引擎。

腾讯研究 院在 2023 年 1 月发布《AIGC 趋势报告 2023》,对于 ChatGPT 的发展持乐观态度,指出 AIGC 有望作为数据与内容的强大生产引擎,升级甚至重塑内容工具。

申请的“人机对话 方法、装置、设备及计算机可读存储介质”专利可实现人机顺畅沟通;

京东集团副总裁何 晓冬表示京东会不断结合 ChatGPT 的方法和技术点,融入到产品服务中推动人工智能的 产业落地;据百度官网,2023 年 2 月 7 日,百度公布了大模型新项目文心一言(ERNIE Bot)。

据彭博社,百度计划在 2023 年 3 月将最初的版本将内嵌到搜索服务中;阿里巴巴 达摩院申请了“人机对话及预训练语言模型训练方法、系统及电子设备”的专利,积极布 局 AIGC。

非交互式文本

结构化写作已经在新闻写作、公司财报、客服类聊天问答等场景广泛应用。国外方面,代 表性的垂直公司 Automated Insights 成立于 2007 年,旗下的 Wordsmith 是一个自然语言 生成平台,能够借助 NLP 技术将数据转化成描述性的语言。

据公司官网,目前 Automated Insights 已经在新闻写作中具有较广泛的应用,下游的客户包括雅虎、美联社 等主流媒体。

国内方面,小冰公司、腾讯、百度、字节、澜舟科技等公司均有布局。澜舟 科技成立于 2021 年,主要产品是基于“孟子轻量化预训练模型”打造的一系列 SaaS 功 能引擎,被广泛应用于包括搜索、生成、翻译、对话等领域。

字节推出的 Xiaomingbot 是 新闻写作机器人,该机器人在里约奥运会上,共撰写了 457 篇关于羽毛球、乒乓球、网球 的消息简讯和赛事报道。

整体来看,目前结构化写作已具备较成熟的应用,长期来看, Narrative Science 创始人预测到 2030 年 90%以上的新闻将有 AI 写作完成。

非结构化写作开放度和技术要求更高,主要运用在营销和剧情写作领域。据量子位,非结 构化写作主要运用在剧情写作、营销文本等领域,开放度和自由度更高,对于生成技术亦 有更高的要求。

目前长篇文字在内部逻辑上仍然有较明显的问题,暂不适合直接使用, 预计未来的 4-5 年或取得一定的突破。

国外方面,代表性的公司包括谷歌、Anyword、 Pencil、Copy.ai、Jasper 等,其中 Jasper 成立于 2021 年,基于 GPT-3 训练模型,通过 AI 技术帮助企业完成社交媒体、广告营销、电子邮件等多种内容。

2022 年 10 月,Jasper 宣布获得 1.25 亿美元的 A 轮融资,估值达 15 亿美元;谷歌的 AI 剧本写作模型 Dramatron 则能够自动产生人物、位置、情节的描述并生成对话。

国内代表性公司为中文 在线、彩云小梦等,在彩云小梦 App 中创作页面输入一段文字,便能够生成三条不同的故 事走向,用户可以点击选择继续或者让彩云小梦重新续写,从而让故事走向更加符合用户 的设定。

中文在线的 AI 文字创作功能已在 17K 小说上线,作者在使用该功能时,通过针 对不同的描写场景填写关键词和辅助短语,即可生成对应的文字内容描写为作品使用。

图像预训练模型迭代升级,AI 图像生成迎机遇

据量子位,AIGC 图像包括文字生成图像、图像属性编辑、图像部分编辑与图像端到端生成,其中由文字到图像的跨模态生成成为重点探索方向。

从底层技术上看,Diffusion 逐渐 取代 GAN 成为图像生成的主流模型,助推了 AIGC 图像的发展。2022 年 8 月,由 Midjourney 生成的《太空歌剧院》出圈,引发 AI 图像生成的热潮;

2022 年 8 月, Stability AI 推出 Stable Diffusion 模型,成为 AI 图像生成的里程碑,为后续图像模型的更 迭打下基础。

OpenAI、谷歌在图像模型上亦持续迭代;百度文心·一格则支持中国 风 AI 创作。据 6pen,未来 5 年全球 10-30%的图像有望由 AI 生成或辅助生成,AI 图像领 域展现出较大的潜力。

早期 AIGC 图像主要基于 GAN 模型,但生成效果欠佳。GAN 模型主要由生成器 (Generator)和判别器(Discriminator)两部分组成。

生成器负责模拟出与真实训练样本 类似的假数据,并将假数据混入原始数据交由判别器区分,两个模型相互博弈,直到生成 器的假数据能够以假乱真。

早期的 AIGC 图像主要基于 GAN 模型生产,但是 GAN 存在训 练难以收敛、模型坍塌、梯度消失等问题,造成训练结果冗余、图像生成质量差。

Diffusion 模型逐渐取代 GAN 成为主流模型,推动图像生成技术的发展。Diffussion 受热 力学模型启发,通过增加高斯噪声破坏训练数据,然后通过反转噪声来恢复学习的数据。

经过训练的模型便能够应用去噪方法来生成干净的数据。Diffussion 相对于 GAN 具有更灵 活的模型框架和精确的对数似然,所需数据更少,但图像生成效果较更佳,目前逐渐取代 GAN 成为新一代图像生成的主流模型。

文字生成图像

由 Midjourney 生成的《太空歌剧院》出圈,引发社会广泛讨论。Midjourney 是一款搭载 在 Discord 上的聊天机器人,玩家只需要(Prompts)即可 在 1 分钟以内生成 4 张图片。

凭借着极低的上手门槛和 Discord 社区加持,截至 2023 年 2 月 4 日,Discord 数据显示 Midjourney 在 Discord 约有 980 万成员。

2022 年 8 月,由 Midjourney 生成的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别 的冠军,使得 AI 绘画引发了广泛的关注,围绕 AI 能够替代艺术创作的讨论热度较高。

Stable Diffusion 模型成为 AI 图像领域的里程碑,Stability 估值达 10 亿美元。2022 年 8 月,Stability AI 推出 Stable Diffusion 模型。

随着算法和模型的持续优化,Stable Diffusion 的运行速度快、消费资源及内容较少,使用消费级显卡即可迅速生成高质量的图像,且该 模型完全免费开源,所有的代码均在 GitHub 上公开,因此也为后续整个图像模型的更迭 打下基础。

据 TechCrunch,截至 2022 年 10 月,已有超 20 万开发者下载和获得 Stable Diffusion 的授权,各渠道的累计日活已经超过 1,000 万;

基于 Stable Diffusion,面向消费 者的 AI 智能绘图软件 Dream Studio 用户数超 150 万,已生成 1.7 亿张图片。

2022 年 10 月,Stabilty AI 宣布获得 Coatue、Lightspeed Venture Partners 和 O&39;Shaughnessy Ventures LLC 投资的 1.01 亿美元,估值达 10 亿美元,跻身独角兽行业。

OpenAI 持续迭代 DALL·E 模型,图片画质、生成效率均有提升。2021 年 1 月 OpenAI 发 布模型 DALL·E,能够根据文本描述生成图像,2022 年 4 月,OpenAI 公布了 DALL·E 2 研发进展。

据量子位,从原理上看,DALL·E 2 是 CLIP 与 Diffusion 模型的结合,其中 CLIP 将文本嵌入转变为图像嵌入,而图像嵌入将通过调节扩散(Diffusion Decoder)生成 最终的图像。

DALL·E 2 与前一代相比图像质量提升了 3 倍,DALL·E 2 生成图像画质为 1024×1024,DALL·E 画质为 256×256,生成的速度更快。

DALL·E 2 能够在更细 的颗粒度上实现文本到图像的转化,能够根据自然语言进行 P 图,同时会反馈阴影、纹理 等元素的变化。

谷歌的 Imagen 在写实场景表现优秀,Muse 图像生成效率更高。2022 年 5 月,Google 公布了自研的 Imagen 模型。

据量子位,从技术上看,该模型并未采用 CLIP+GAN 或 CLIP+Diffusion 的常规做法,语言模型采用谷歌的 T5-XXL,并仅负责编码文本特征,图 像生成由一系列 Diffusion 模型构成;

从效果上看,Imagen 在写实场景中表现更加优秀。 2023 年 1 月,Google 发布了从文本生成图像的 Transformer 模型 Muse,与 Imagen 和 DALL·E 2 等 Diffusion 模型相比,Muse 由于采用离散标记且需要更少的采样迭代,生成 效率显著提升。

据 Google Research 与 Dataconomy,在 TPUv4 芯片上,Muse 生成 512x512 分辨率的图像仅需 1.3 秒,较 Stable Diffusion 1.4 的 3.7 秒更快。

百度推出国产基础模型 ERNIE-ViLG 2.0,文心·一格支持中国风 AI 创作。伴随 AI 绘图 的火热,国内也出现了众多的 AI 作图产品,但这些产品大多基于 DALL·E 2 或 Stable Diffusion 等海外大模型。

百度在 2022 年 10 月发布的 ERNIE-ViLG 2.0 是国内首个在基础 模型方向取得突破的产品。据百度 AI 官网,从技术上看,ERNIE-ViLG 2.0 通过引入视觉 知识和语言知识,提升模型跨模态语义理解能力与可控生成能力;

在扩散降噪过程中,通 过混合专家网络建模,增强模型建模能力,提升图像的生成质量;百度构建了近 2 亿 的高质量中文图文数据对比,具备强大的中文语义理解能力,助力中国风元素构建。

从应 用上看,ERNIE-ViLG 2.0 可以用于工业设计、动漫设计、游戏制作、摄影艺术等场景, 通过简单描述,在几十秒内生成设计图,提升效率、降低门槛。

基于 ERNIE-ViLG 2.0, 百度也推出了 AI 艺术与创意辅助平台文心·一格,目前支持国风、油画、水彩、水粉、动 漫、写实等十余种不同风格高清画作的生成。

图像属性编辑

据量子位,AI 图像属性编辑包括去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻 /修改图像风格、提升分辨率等,类似于低门槛的 PS(Photoshop)。

在该领域布局的初创 公司较多,并且谷歌、Adobe 等大厂亦有涉及。国外方面,以 Prisma 为例,作为一款照 片编辑器,在全球拥有 1.2 亿用户以及 500 款样式库,借助 Prisma 的 AI 自动生成框架, 用户无需投入精力即可将照片转化为艺术品;

谷歌的 RawNeRF 技术能够将夜晚照片降噪, 此外能将 2D 照片合成 3D 效果并调节焦点;

国内的代表产品为美图公司,旗下的美图 AI 开放平台专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,为客 户提供经市场验证的专业 AI 算法服务和解决方案。

目前接入的客户包括欧莱雅、兰蔻、宝 洁等,助力图像属性处理;面向 C 端的美图秀秀则通过医美级去皱、面部丰盈、一键更换 刘海等增值功能收费。

图像部分编辑

据量子位,图像部分编辑包括部分更改图像部分构成与修改面部特征。英伟达的 CycleGAN 能够自动将一类图片替换为另一类图片,如支持将图内的斑马和马、苹果和橘 子等内容进行互换。

修改面部特征方面,据量子位,Metaphysics 支持调节照片的情绪、 年龄和微笑,Metaphysics 还是电影《Here》的唯一制定 AI 视觉特效供应商。

国内方面, 万兴科技推出的万兴爱画 App,支持 AI 修改局部画面,支持通过文本修改,如输入珍珠 项链,可在图片中加。


温馨提醒:用户在赢家聊吧发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。本文中出现任何联系方式与本站无关,谨防个人信息,财产资金安全。
点赞2
发表评论
输入昵称或选择经常@的人
聊吧群聊

添加群

请输入验证信息:

你的加群请求已发送,请等候群主/管理员验证。

时价预警 查看详情>
  • 江恩支撑:78.54
  • 江恩阻力:88.36
  • 时间窗口:2024-06-19

数据来自赢家江恩软件>>

本吧详情
吧 主:

虚位以待

副吧主:

暂无

会 员:

234人关注了该股票

功 能:
知识问答 查看详情>