登录 注册 返回主站
F10资料 推荐产品 炒股必读

高质量数据AI突破的关键要素

  • 作者:澎湃心
  • 2023-05-12 11:24:36
  • 分享:

俗称喂语料,语料是指一定范围内的自然语言材料,包括文本、语音和图像等。重要性其实早就强调过。

数据是大模型竞争关键要素之一,但优质中文数据稀缺。海外开源数据集积累丰富,但高质量语言数据或于2026年耗尽,AI合成数据有望缓解数据耗尽隐忧。

AI 的突破得益于高质量数据,数据依然是大模型竞争关键要素之一。

国内开源数据集数量少、规模小,看好数字中国战略激活数据要素产业链.数据产业链投资机会在数据生产与处理环节,数据隐私保护需监管与技术手段并举。

国内缺乏高质量数据集 的原因在于

1)高质量数据集需要高资金投入;

2)相关公司开源意识较低;

3)学术领域中文数据集受重视程度低。

看好数字中国战略助力国内数据集 发展

1)各地数据交易所设立运营提升数据资源流通;

2)数据服务商链接 数据要素产业链上下游,激活数据交易流通市场,提供更多样化的数据产品。

数据产业链投资机会关注数据生产与处理环节 数据产业链包括生产、处理等环节。

数据生产可以分为通用数据和 行业数据

1)海外主要数据集的通用数据来自维基、书籍期刊、高质量论 坛,国内相关公司包括文本领域的百度百科、$中文在线(300364)、$中国科传(601858)、知乎等, 以及视觉领域的$视觉中国(000681)等。

2)数据是垂直行业企业的护城河之一,相关公司包括城市治理和 ToB 行业应用领域的三大运营商, CV 领域的海康、大华等。数据处理环节,模型研发企业的外包需求强烈, 利好卡位优质客户、技术赋能降低人力成本的数据服务企业。


温馨提醒:用户在赢家聊吧发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。本文中出现任何联系方式与本站无关,谨防个人信息,财产资金安全。
点赞5
发表评论
输入昵称或选择经常@的人
聊吧群聊

添加群

请输入验证信息:

你的加群请求已发送,请等候群主/管理员验证。

时价预警 查看详情>
  • 江恩支撑:21.17
  • 江恩阻力:23.82
  • 时间窗口:2024-06-19

数据来自赢家江恩软件>>

本吧详情
吧 主:

虚位以待

副吧主:

暂无

会 员:

58人关注了该股票

功 能:
知识问答 查看详情>