我不要面子啊
GPT产生的重要能力主要来源于海量数据为基础的大模型训练。GPT3产生了三个重要能力语言生成、上下文学习、世界知识,这三个重要能力都源于基于海量数据的大模型预训练在有3000亿单词的语料上预训练拥有1750亿参数的模型。海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。
数据是AI的胜负手。语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。
数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑,而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。
投资建议与相关标的公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个环节1)数据运营我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。2)数据基础设施有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电。3)数据安全我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安、安恒息、电科网安等。
风险提示政策推进不及预期;行业竞争加剧。
分享:
请输入验证信息:
你的加群请求已发送,请等候群主/管理员验证。
数据来自赢家江恩软件>>
虚位以待
暂无
19人关注了该股票
长期未登录发言
吧主违规操作
色情、反动
其他
*投诉理由
答:北京海量数据技术股份有限公司作详情>>
答:2022-07-01详情>>
答:行业格局和趋势 公司详情>>
答:http://www.vastdata.com.cn 详情>>
答:海量数据所属板块是 上游行业:详情>>
民生证券:纺织行业景气度回升 相关设备有望受益
尾气治理概念逆势上涨,概念龙头股南华仪器涨幅19.97%领涨
燃料乙醇概念逆势走强,*ST海越以涨幅4.9%领涨燃料乙醇概念
电子身份证概念逆势走强,概念龙头股任子行涨幅20.0%领涨
我不要面子啊
数据是AI的胜负手
GPT产生的重要能力主要来源于海量数据为基础的大模型训练。GPT3产生了三个重要能力语言生成、上下文学习、世界知识,这三个重要能力都源于基于海量数据的大模型预训练在有3000亿单词的语料上预训练拥有1750亿参数的模型。海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。
数据是AI的胜负手。语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。
数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑,而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。
投资建议与相关标的公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个环节1)数据运营我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。2)数据基础设施有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电。3)数据安全我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安、安恒息、电科网安等。
风险提示政策推进不及预期;行业竞争加剧。
分享:
相关帖子