新闻动态
News Tendency

AIGC驱动,数据“燃料”不可少

2023/06/27   够快云库新闻动态
AIGC,即人工智能生成内容,是Artificial Intelligence Generated Content的缩写。

 

2022年9月,AI绘画爆火,两个月后,ChatGPT横空出世,展示出AIGC的强大实力,2022年也被称为AIGC元年。中国信息通信研究院发布的《人工智能生成内容(AIGC)白皮书(2022年)》中提出,21世纪10年代中期至今,已经进入了AIGC发展历程的第三阶段——快速发展阶段。

随着AIGC大热,不少初创公司涌入AIGC赛道。与此同时,国内外互联网大厂都在争先布局AIGC领域。当前,AIGC+传媒、AIGC+电商、AIGC+影视、AIGC+娱乐等行业已取得创新发展。

 

AIGC发展潜力巨大,应用场景不断拓展,覆盖多个领域。为在未来市场拥有核心竞争力,各行业积极探索与AIGC结合,落地应用场景。企业布局AIGC,这些问题不能忽视:

数据质量
AIGC技术,通过数据预训练模型、生成式对抗网络等方法,自动生成各种图片、文章、视频等各种内容。
AIGC不是凭空生成内容,需要有大量优质数据为训练模型提供支撑。不同领域、场景的数据各有特点,具有一定差异性,通过公开数据集训练生成的内容更具通用性,但领域特色不足。
数据来源
AIGC训练模型数据需求量大,数据来源不确定会生成来源不明或混杂的内容,生成内容归属难定,可能会涉及版权纠纷。
数据是驱动AIGC的重要“燃料”。 企业布局AIGC,首先要解决数据问题,除了结构化数据库,还包括各种文本、图片、音视频等非结构化数据。发展AIGC,非结构化数据中台可以作为提供具有领域、场景、业务特色的高质量数据“燃料池”。
非结构化数据中台管理内容涵盖文档、图片、音视频等丰富内容,对企业而言,这些数据具有领域性,和业务场景息息相关,属于领域优质数据,AIGC基于这些数据训练生成算法模型后自主生成内容和企业的相关度更高。
并且,企业非结构化数据体量大、增速快,每天都在源源不断地产生新的非结构化数据。基于此,AIGC训练数据取之不尽用之不竭,算法模型可随着数据增量时时更新。
因为企业非结构化数据中台存储的数据来源于日常办公,数据的来源和归属明确,以此作为AIGC的训练数据,生成内容的来源有保障,也免去了版权隐患。
数据是AIGC的重要基础,直接影响生成质量和效果,企业布局AIGC能力,必须解决数据来源问题。支持AIGC训练模型,不能只依靠公开数据集,必须构建企业用户数据集。非结构化数据在企业数据中占比大,具有行业、业务特色,数据来源和归属明确,是用户数据集的重要组成部分,构建非结构化数据中台是为AIGC提供数据支撑的不二选择。

上一篇:
数字化转型进入深水区,数字安全面临新挑战
下一篇:
非结构化数据管理隐患及应对策略
够快云库,企业数字化文件管理平台
够快云库
企业数字化文件管理平台
freetrial-bottom freetrial-top

企业咨询热线

400-6110-860
+86-15381918705
support@gokuai.cn

企业微信公众号