【伙伴快讯】AIGC发展按下加速键PGC和UGC的发展

[复制链接]
查看1071 | 回复0 | 2022-11-22 15:02:25 | 显示全部楼层 |阅读模式
1 发展进入快车道,迎来转变为生产力的拐点

1.1 AI 绘画是 AIGC 重要的应用分支

AIGC 既是一种内容分类方式,又是一种内容生产方式,还是用于内容自动化生成的 一类技术集合。AIGC 全称为 Al-Generated Content,指基于生成对抗网络 GAN、大型预训 练模型等人工智能技术,通过已有数据寻找规律,并通过适当的泛化能力生成相关内容的 生产方式。 作为全新的内容生产方式,AIGC 潜力无限,而我们当前处于向 AIGC 进发的过渡阶 段。根据 a16z,内容生态的发展则可分为四个阶段:专家生成内容(ProfessionallyGenerated Content,PGC)、用户生成内容(User-Generated Content,UGC)、AI 辅助生产 内容(AI-assisted Generated Content)及 AI 生成内容(AI-Generated Content,AIGC)。目 前我们仍处于一、二阶段为主,第三阶段为辅的境况。

按照模态对 AIGC 进行划分最为常见。AIGC 可分为音频生成、文本生成、图像生 成、视频生成及图像、视频、文本间的跨模态生成,其中跨模态生成需要重点关注。事实 上,人工通用智能(Artificial General Intelligence,AGI)概念的出现反映出许多人工智能 业界人士认为,在未来,基础的人工智能模型将是跨模态的,这意味着相同的模型将被用 于生成不同体裁的内容,包括但不限于文本、图像、视频等等。

AI 绘画是 AIGC 重要的应用分支。AI 绘画工具中,用户通过输入不同的词汇,例如 不同的艺术家风格、构图、色彩、透视方法以及修饰词,就能得到相对应的画作。目前相 关生成工具已相对成熟,易用性较好,生成结果直观、易传播,部分成果在效率和质量上 有不错的表现,切实触动了广大内容生产和消费者,进入主流视野。

1.2 今年起 AIGC 发展按下加速键

PGC 和 UGC 的发展曾为我们带来内容生产和消费的空前繁荣,AIGC 的兴起是生产 力革新的成果,亦是孕育自广大消费者的实际需要,具有广阔的想象空间和重要意义。

从供给侧角度来看,AIGC 的兴起源于深度学习技术的快速突破。在人工智能发 展初期,相关算法多基于预先定义的规则或者模板,AI 在创造力层面进展缓慢, 更多地在替代人类从事可重复性高的“dirty work”。近年来,深度学习算法快速迭 代,神经网络的规模呈指数级增长,技术强大到可以执行非模板化的工作,更加 贴近 AI 所指代的智能化概念。

从需求侧角度来看,日益增长的数字内容供给需求驱动着 AIGC 蓬勃发展。传统 内容生产手段受限于人力有限的制造能力,在绝对产能、产能与质量的协调关系 上愈发吃力。AIGC 依托其技术属性,可襄助内容生产以更加具有绝对效率和性 价比的方式进行,更好地满足市场需要。

我们将 AIGC 的发展分为四个阶段: 1. 早期萌芽时期:此阶段 AIGC 仅限于小范围实验。80 年代中期,IBM 基于隐形 马尔科夫链模型(Hidden Markov Model,HMM)创造了语音控制打字“坦戈拉 (Tangora)”。虽然对 AIGC 进行了一些初步尝试,但受限各种因素,实际产出效 果还远远算不上是智能创作内容的程度。 2. 沉淀积累时期:AIGC 从实验性向实用性逐渐转变。软件上,2006 年,深度学习 算法取得重大突破;硬件上,图形处理器(Graphics Processing Unit,GPU)、张 量处理器(Tensor Processing Unit,TPU)等算力设备性能不断提升;数据上,互 联网使用数据规模快速膨胀并为各类人工智能算法提供了海量训练数据,使人工 智能发展取得了显著的进步。2007 年,纽约大学人工智能研究员罗斯古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出世界 第一部完全由人工智能创作的小说。2012 年,微软公开展示了一个全自动同声传 译系统,基于深层神经网络(Deep Neural Network,DNN)可以自动将英文演讲 者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

3. 快速发展时期:众多关键模型就位规模化基础已具备。2017 年,AI 图像生成、 自动生成唇形视频、图像高清化、图像编辑、图像风格迁移、wavnet 语音合成等 技术快速发展。2018 年,预训练语言模型出现,降低了标注需求和成本。2019 年,随着以生成式对抗网络(Generative Adversarial Network,GAN)逐渐成熟, AIGC 技术研究迎来关键拐点,DeepMind 发布了 DVD-GAN 模型用以生成连续视 频,在草地、广场等明确场景下表现突出。2020 年,自监督学习成为业界主流, 模型体量和复杂度不断提升,其中 Open AI 发布的 CPT3 极具代表性。2021 年, MAE 的出现使得视觉可以用 NLP 自然语言同样的架构训练预训练模型,叠加多 模态多任务领域发展,文本图像对齐的研究爆发。 4. 起飞破圈时期:AIGC 概念伴随 AI 绘画应用出圈。2022 年,技术上,扩散生成 模型得到广泛研究与应用,文本生成图像模型可准确把握文本信息进行创作。商 业化基础已初步具备,国内外互联网巨头和独角兽纷纷下场。Open AI 更新了 DALL-E-2,可创作出相应极高质量的卡通、写实,抽象等风格的绘画作品。把 AIGC 创作最终推向平民化的是 Stability.ai 推出的 Stable Diffusion,个人电脑即可 驱动,且几个月内产出效果具有直观的改善。AI 绘画迅速在微博、小红书等多平 台上,内容创作者、技术研究者、投资人等各圈层里形成了声势。

1.3 技术转化为生产力的契机产生

2022 年被称为 AIGC 元年,这一年 AIGC 取得了里程碑式的成绩,引发了市场广泛热 烈的兴趣,我们认为主要因素是:

包含扩散模型在内的关键技术取得突破,技术可用性显著提高,产出效率不断提 高,产出效果出现分水岭,技术转化为生产力的契机产生。2021 年之前,AIGC 生成的主要还是文字,而新一代模型可以处理的模态大为丰富且可支持跨模态产 出,可支持 AI 插画,文字生成配套营销视频等常见应用场景;

通过国内外科技公司的应用转化,技术进入民用领域,引起了广大行业从业者、 文娱爱好者和投资人的关注。“智能图文转视频”和 AI 作画成功破圈,相关应用迭 代速度呈现指数级爆发。以 AI 作画工具为例,水平上限有长足进步,虽发挥并不 稳定,但结果输出极快,可量变引起质变,弥补其在创意、想象等方面的不足, 满足一般市场需求。

2 关键技术取得突破,图像生成效果效率均显著提升

2.1 GAN+CLIP 解决跨模态问题

2.1.1 生成式对抗网络

GAN—图像到图像的生成 GAN(Generative Adversarial Nets,生成式对抗网络)在 2014 年提出后,是生成器 和判别器的一代代博弈。生成器通过输入数据生成图像,并将其混入原始数据中送交判别 器区分。判别器依据二分类网络,将生成器生成图像作为负样本,真实图像作为正样本。 双方的训练过程交替进行,对抗的过程使得生成器生成的图像越来越逼真,判别器的分辨 能力也越来越强。

GAN 有三个不足: 1. GAN 对输出结果的控制力较弱,容易产生随机图像。对此,CGAN 通过把无监 督的 GAN 变成半监督或者有监督的模型,为训练加上目标,而 DCGAN 通过缩 小 CNN 在监督学习与无监督学习之间的差距使得训练过程更加稳定和可控。 2. GAN 生成的图像分辨率较低,对此,PGGAN 逐渐的向生成器和判别器网络中添 加层,以此增加生成图片的空间分辨率,StyleGAN 则能够生成极其逼真的图像 数据并且做到了高层特征可控; 3. 由于 GAN 需要用判别器来判断生产的图像是否与其他图像属于同一类别,这就 导致生成的图像是对现有作品的模仿和微调,不能通过文字提示生成新图像,因 此 CLIP 被引入。

2.1.2 可对比语言-图像预训练算法 CLIP—文字到图像生成

CLIP(Contrastive Language-Image Pre-training)是 OpenAI 在 2021 年提出的多模 态预训练的算法,建于 NLP(Natural Language Processing,自然语言理解)和 CV (Computer Vision,计算机视觉)相结合的基础上。算法使用已经标注好的“文字-图像”数 据对训练。一边对文字进行模型训练,一边对图像进行模型训练,不断调整参数,使得输 出的文字特征集和图像特征集相匹配。

CLIP 方法具有结构简单,训练速度快,效果好等诸多优良特性。CLIP 具有非常好的 迁移学习能力,预训练好的模型可以在任意一个视觉分类数据集上取得不错的效果。而且 算法是 Zero-Shoot 的,即不需要再去新数据集上做训练,就能得到不错的结果。 现被广泛应用的 StyleCLIP 融合了 StyleGAN 和 CLIP 双方的特性。之前的 StyleGAN 的语义控制发现方法会涉及手动检查、大量带注释的数据、或者需要预训练的分 类器,且只能按照预设的语义方向操作图像,严重限制了用户的创造力和想象力,若需要 添加一个未映射的方向,需要大量的手工工作或大量的注释数据。StyleCLIP 支持普通用户 基于文本的直观语义图像操作,也不限于预设的操作方向。

2.2 深度学习助力 AI 画技进步

AI 绘画的实际操作大体可以分为四个步骤:加噪点、去噪点、复原图片和作画。其 中,加噪点即添加高斯噪声或者关键词,通过固定公式来实现,这方面,快速更新迭代的 MIM 方法表现出彩。去噪点即仿生物视觉神经网络在去噪过程中开展学习(透视、颜色 等),目前 Transformer 正取代 CNN 卷积神经网络成为主流方法。而在复原图片和作画方 面,AI 的“画技”主要由扩散模型 Diffusion Model 和神经辐射场模型 NeRF 决定。

2.2.1 图像掩码建模 MIM — 高效简洁的预训练方法

MIM(Masked Image Modeling,图像掩码建模) 是一种自监督表征学习算法。它的 主要思路是,对输入图像进行分块和随机掩码操作,然后对掩码区域做一些预测,进而猜 测全图。掩码信号建模在多个模型中应用发展,例如 OpenAI 的 iGPT 模型(通过马赛克进 行信号的遮蔽和转换)、ViT 模型等。

基于 MIM 的模型在不同类型和复杂程度的广泛视觉任务上实现了非常高的微调精 度,使得 AI 作画从生成不完整图像进步到可成完整图像的跨越。MIM 在语义较弱的几何 / 运动任务或细粒度分类任务中的表现明显优于有监督模型;对于有监督模型擅长的任务 (语义覆盖较好的语义理解任务),MIM 模型仍然可以取得极具竞争力的迁移性能。 目前较受认可的 MAE 模型产自何恺明对 MIM 的优化。MIM 在预训练图像编码器的 时候,太关注细节损失了高维抽象能力。MAE 的非对称编码器-解码器结构,使模型分工 明确,编码器负责抽取高维表示,解码器则负责细粒度还原;MAE 同时对输入图像进行高 比例遮蔽。将以上两种设计结合,结果用来训练大模型:训练速度提升三倍以上,同时保 持高准确率,具备很好的泛化能力。 MAE 广泛应用于人脸识别等多个领域。例如,FaceMAE 作为隐私保护人脸识别范 式,同时考虑了人脸隐私和识别性能,可以适配任何人脸数据集,以降低隐私泄露风险。

由北京大学、香港大学研究者在 2022 年 5 月提出的 CAE 模型、微软亚研院提出的 SimMIM 是对 MAE 方法的改进。CAE 可以更多地挖掘编码器的潜力;而 SimMIM 对 MAE 进行了化简。它们学到的表征可以区分不同类别的物体,举例来说,看到一只猫的头 部可以预测出它的身体部分,看到一小片天空可以预测出它的周围大概率也是一片天空。

2.2.2 特征处理器 Transformer — 优化的自然语言处理模型

Transformer 是当前综合表现最优的特征提取器。模型首创于 2017 年的 Google 论文 《Attention is All You Need》。它的性能优于传统的 RNN 和 CNN 特征提取器。

Transformer 为视觉领域带来了革新性的变化,它让视觉领域中目标检测、视频分 类、图像分类和图像生成等多个领域实现了长足的进步。2020 年 10 月,谷歌提出了 Vision Transformer(ViT),它是 Transformer 用于 CV 领域的杰出例子,它在大型数据集上 表现处于领先地位。2021 年 1 月,OpenAI 用的 DALL·E 和 CLIP 两个模型都利用 Transformer 达到了较好效果,前者可以基于本文直接生成图像,后者则能完成图像与文本 类别的匹配。

Transformer 的研究才刚刚起步,因此仍有很大研究和发展空间。在研究领域,CNN 研究已趋向于成熟,考虑到模型成熟度和性价比,CNN 在短期内仍不会被淘汰。 1. 现有的 Visual Transformer 参数量和计算量过大,内存占用量超过可承受范围,效率方 面还需要提升,亟需开发高效 Transformer for CV。 2. 现有的 Visual Transformer 都还是将 NLP 中 Transformer 的结构套到视觉任务做了一 些初步探索,未来针对 CV 的特性设计更适配视觉特性的 Transformer 将会带来更好 的性能提升。 3. 现有的 Visual Transformer 一般是一个模型做单个任务,近来有一些模型可以单模型做 多任务,比如 IPT,我们期待未来出现世界模型,处理全局任务。

2.2.3 扩散模型 Diffusion Model — 新一代图像生成主流模型

Diffusion Model 代指扩散模型,拥有比 GAN 更优的能力并快速崛起。相关研究最早 可以追溯到 2015 年,奠基研究是 2020 年《Denoising Diffusion Probabilistic Models》。2022 年,借助 AI 绘画应用,扩散模型在图像生成领域展现卓越实力。 扩散模型的工作原理,是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个 噪声过程,来学习恢复数据。一幅画当中,衣服的纹样、树叶、云彩等带有很多细节纹理 的地方,其实细节越多,越接近一个随机的噪点。对于这些地方,也许只需要几次高斯噪 点的掺入(可理解为高斯模糊),就能破坏原来的纹样,接近正态分布。训练后,可以使用 扩散模型将随机采样的噪声传入模型中,通过学习去噪过程来生成数据。都是给定噪声 xT 生成图片 x0,相比 GAN,Diffusion 所需数据更少,生成效果更优。

扩散模型在计算机视觉、自然语言处理、波形信号处理、多模态学习、分子图生成、 时间序列以及对抗学习等七大应用方向中都有应用。

在 AI 绘画领域,除 Disco Diffusion,最先进的文本生成图像系统 OpenAI 的 DALL·E 2 和 Google 的 Imagen,都是基于扩散模型来完成的。

扩散模型还在发展中,改进研究在采样速度提升、最大似然增强和数据泛化增强等领域 持续进步。

2.2.4 神经辐射场 NeRF — 顺应 3D 内容消费趋势

NeRF(neural implicit representation,神经隐式表示)利用深度学习完成了计算机图形 学中的 3D 渲染任务。这一技术从 2019 年开始兴起,在 2020 年 NeRF 获得 ECCV best paper 之后受到了广大关注。 NerF 在很大程度上克服了样本特征受限的问题。此前,2D 到 3D 生成的领域也包含 GAN 方面的尝试,比如英伟达 20-21 年推出的 GANverse3D 能够自定义对象和交换背景。 但由于 GAN 在对抗训练中会受限于样本特征,该模型当时仅适用于汽车、马匹和鸟类。

NeRF 模型的基本原理是:将场景的体积表示优化为向量融数,该函数由位置和视图 方向组成的连续 5D 坐标定义。具体而言,是沿相机射线采样 5D 坐标来合成图像,将场景 表示参数化为一个完全连接深度网络(MLP),该网络将通过 5D 坐标信息,输出对应的颜 色和体积密度值。 NeRF 对于虚拟人创建、3D 训练环境构建、增强现实、线上游戏及电影特效等都具有 重要意义。自 NeRF 在 ECCV2020 提出后,NeRF 模型也持续在生成范围、生成效果、乃 至于所需基础数据上进行改进。例如陆续支持光影变化效果、动态 NeRF,类实时生成, 全场景 NeRF、单张生成模型、3D 几何数据生成。

在 AI 绘画中,NeRF 通过将场景表示为隐式的神经辐射场,渲染时通过神经网络查询 位置上的场景信息生成新视角图像。直观来讲,渲染就是用计算机模拟照相机拍照,它们 的结果都是生成一张照片。NeRF 将场景表示为空间中任何点的容积密度和颜色值,有了 以 NeRF 形式存在的场景表示后,可以对该场景进行渲染,生成新视角的模拟图片。NeRF 使用经典体积渲染(volume rendering)的原理,求解穿过场景的任何光线的颜色,从而渲 染合成新的图像。 在 NeRF 之后,有人提出了 GRAF,引入了 GAN 来实现神经辐射场,并使用 Conditional GAN 实现对渲染内容的可控性。在 GRAF 之后,GIRAFFE 实现了构成。在 NeRF、GRAF 中,一个神经辐射场表示一个场景。而在 GIRAFFE 中,一个神经辐射场只 表示一个物体(背景也算一个物体)。这样做可以随意组合不同场景的物体,可以改变同一 场景中不同物体间的相对位置,渲染生成更多训练数据中没有的全新图像。

未来 NeRF 发展主要是基于 NeRF 问题的改进。NeRF 的简洁性具有优势,但也因此 带来一些问题: 1. 计算量大导致耗时长:NeRF 生成图像时,每个像素都需要近 200 次 MLP 深度模型的 前向预测。尽管单次计算规模不大,但完成整幅图像渲染的计算量还是很可观的, NeRF 针对每个场景进行训练的耗时较长。对此,迭代过后的 Depth-supervised NeRF 能够实现更少的视角输入和更快的训练速度。 2. 只针对静态场景:对于无法拓展到动态场景的问题,主要和单目视频做结合,从单目 视频中学习场景的隐式表示。Neural Scene Flow Fields 将动态场景建模为外观、几何 体和三维场景运动的时变连续函数。该方法只需要一个已知摄像机姿势的单目视频作 为输入。 3. 泛化性差:NeRF 无法直接扩展到没有见过的场景,这显然与人们追求泛化性的目标 相违背。因此一些文章开始对 NeRF 进行泛化性的改进。GRF 学习 2D 图像中每个像 素的局部特征,然后将这些特征投影到 3D 点,从而产生通用和丰富的点表示。与之 类似的还有 IBRnet、pixelNeRF 等,比较核心的想法都是卷积与 NeRF 相结合。目前 这种泛化都还不够成熟,无法在复杂场景中取得理想效果。 4. 需要大量视角:尽管 NeRF 方法能够实现出色的视角合成效果,但是它需要大量的 (数百张)视角来进行训练,这限制了它在现实中的应用。针对视角数量的改进,目 前还局限在比较封闭的测试环境下,如合成物体或者单个物体。扩展其在实操中的可 用性也是未来的一大方向。

2.3 大模型和人工通用智能指引发展方向

我们观察到,深度学习领域有两大前进趋势:大模型和人工通用智能。

2.3.1 大模型催生基石模型公司崛起

深度学习领域,模型越大越好。在过去三年里,人工智能模型的规模已经增长了万倍 以上。

让每家公司都进入大模型建设并不现实,我们认为市场将由少数具有先发和成本优势 的供应商主导。OpenAI 作为行业领先者,开发了 GPT 语言模型和 DALL-E 图像生成模 型,并不断提升其模型复杂性和规模,OpenAI 亦是大模型供应商的有力选手,而其他公司 可以付费购买其更底层的 API 等服务。同时,大模型趋势也将给云计算公司如 Googe、亚 马逊,和 GPU 厂商如英伟达带来机会。

2.3.2 人工通用智能不仅仅是想象

AI 技术被区分为弱人工智能、通用人工智能、超级人工智能三种模式。弱人工智能也 被称为狭义人工智能,是专攻某一领域的人工智能,例如在围棋上大放异彩的 AlphaGo 都 属于弱人工智能。通用人工智能(Artificial General Intelligence, AGI)也叫强人工智能,或人 类级人工智能,通用人工智能指的是一台像人类一样拥有全面智能的计算机,人类能解决 的智力问题他都能解决。落到 AIGC 领域,人工智能模型将是多模态的,这意味着相同的 模型将被用于文本、图像、视频等等。超级人工智能被定义为“在几乎所有领域,包括科学 创造力、一般智慧和社交技能,都比最优秀的人类大脑聪明得多的智力。 通用人工智能处理复杂情况的能力无比诱人,但实现难度极高,AIGC 或为曙光。受 困于技术、资源、应用方向等因素的局限,通用人工智能的发展在短期内较难突破。AIGC 的兴起,一方面可以给到一个相对特定的、具象范围的 AGI 应用空间,降低难度,再举一 反三;另一方面,AIGC 提供了 AI 广泛施为的机会,无论是数据的大量生产,还是众多专 业力量和资本的投入,都有利于推动技术向前演进。

3 商业化前景广阔,B 端和三维化或为突破口

3.1 应用迅速丰富,用户接受度较高

AI 绘画产品不断丰富,体验持续提升。近两年,海外流行借助 Disco Diffusion、 MidJourney 等 AI 绘画软件来进行艺术创作,Stable Diffusion 各渠道累计日活用户超过 1000 万,面向消费者的 DreamStudio 则已获得了超过 150 万用户。在国内,2022 年是 AI 绘画产品井喷之年,诸如文心一格、TIAMAT 等产品均于今年上线,他们接受中文描述语 输入、更能理解中国文化审美和用户需求,并主动利用小红书、微博等平台拓展影响力。

AI 作画操作进过多次简化,已经大大降低了使用门槛,可支持文字成图、图像转化、 使用文字修饰图像等。上图以 Stable Diffusion 为例,展示了较为通用的 AI 作画流程: 1)注册 discord 账号后登陆进 Midjourney 主页。 2)点击进入随意一个 newbies 新手社区。 3)向机器人输入“/image”命令,在 prompt 后输入文字指令,完成后按 enter。 4)等待一分钟即可得到 AI 作画成品。

用户认知层面,已经有相当一部分用户认可 AI 绘画对人类工作的助益。根据 6pen 的调研,有 50%以上的用户认为 AI 绘画能替代一部分,甚至完全颠覆目前的工作方式。 随着更多人接受并参与进来,AI 绘画爱好者甚至已经开始形成自有生态,反哺 AI 绘画的 发展。他们组建了相关社群交流技术,将作画过程戏称为“魔法吟唱”。用户在社群中分享 输入参数和输出结果。



3.2 变现仍处于尝试阶段,B 端或为切入点

AI 绘画产品目前少有营收或实现盈利。根据南方财经,视觉中国官方披露,公司拥有 AIGC 技术储备和素材资源,曾在元视觉艺术网发行过相关作品,相关作品确能产生营 收,但占比极低,2022 年上半年,元视觉艺术网一共创收约 1500 万元。而 Stable Diffusion 和 Midjourney 这两家公司都还未实现盈利。究其原因,或有以下因素: AI 绘画商业化方面仍处于摸索阶段,变现方式较为单一。用户多为生成数量或者使用 时间付费,常见付费方式为订阅制或按次付费,以几大主流 AI 作画软件的商业模式为例:

Stable Diffusion 目前尚未形成明确的盈利模式,目前的收费方式是首次注册 DreamStudio beta 将获得价值 2 英镑的积分,大约相当于 200 次单张图免费生成 的额度。试用后,可以按 10 英镑的增量购买额外的积分。但 Stability AI 的 CEO 称其未来商业模式类似红帽和 MongoDB,开源版本免费,通过商业版本盈利;

Midjourney 采用了订阅制,新用户可免费生成 25 张,之后对于个人用户或公司年 收入少于 100 万美元的企业员工用户,有两个档位的订阅套餐,分别是:1)基本 计划每月花费 10 美元,200 分钟 GPU 时间(每次生成大约 5 美分);2)标准 计划每月花费 30 美元,15 小时 GPU 时间(每次生成大约 3 美分)。而对于大 公司客户,单人一年收费约为 600 美元,生成的作品可以商用。

对于普通 C 端用户,应用场景商业化性价比较低,付费意愿有待提升。根据 6pen 的 调研,60% 的用户从未在 AI 绘画产品上有过付费行为,剩下 40%的用户中,付费超过 100 元占比仅 10%。我们认为主要原因是: 1. 商业应用场景缺失:普通大众使用 AI 绘画进行创作后,若自用(如用做头像) 或者分享在社交媒体,免费软件足够尝鲜。而若用于约稿等用途,产出的作品受 到素材和技术的限制,为满足客户需求,仍需大量加工以得到成品,性价比较 低。《太空歌剧院》这副作品在 AI 生成之后,设计师还进行了上千次的修改,花 费了近 80 个小时才完成。虽有人在抖音上做壁纸号,在闲鱼上卖描述语,或将 作品卖给包装厂,但这些还未达到产业的高度,传导链条也较长。

2. 当前 AI 绘画平台大多为轻量级的工具应用,能够操作的玩法和赋能服务都比较 有限。已有的赋能收费项目集中在付费提速或者增加清晰度方面,或类似 PromptBase 公司创立了一个 DALL-E 2、GPT-3 提示词在线交易平台,允许用户 以 1.99 美元的价格买卖提示词,此几种主要在变相弥补现有产品在成像速度、质 量和精确性上的局限。

3.3 三维化打开游戏、影视、VR 等应用空间

三维化是 AIGC 视觉发展的必然趋势。从长远趋势来看,人们对于未来元宇宙的期待 是三维化、AI 化及开放式的,AIGC+3D 内容是可见途径。中短期维度上,AIGC+3D 是 丰富游戏、影视、VR 等数字内容,降低其制作成本的有力工具。 3D 内容生产借助 AI 绘画产品快速普及。我们看到,AIGC 进入 3D 内容领域,有效 降低了参与门槛,让全民参与到 3D 内容创作和消费当中,在 3D 领域升起 UGC 的浪潮, 我们认为这将大为丰富 3D 内容创作的有生力量,正如视频拍摄和剪辑工具平民化推动视 频内容行业的繁荣,3D 内容创作行业也将因此迎来全新发展契机。AI 绘画产品三维化方 面,代表性的产品有 Dream Fusion 、Stable Diffusion、GET3D 等,并已有多种场景应用实 例,覆盖多种应用场景的可能性: Dream Fusion 是 Google 的大型 AI 图像模型 Imagen 与 NeRF 的 3D 功能相结合。 Dream Fusion 训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的 文本提示生成模型,整个过程既不需要 3D 训练数据,也无需修改图像扩散模型,完全依 赖预训练扩散模型作为先验。但使用 该项目的 GitHub 页面只允许从一系列预设文本提示 中进行选择生成 3D 模型,暂不不允许用户输入自己的文本描述,数字资产本身的分辨率 也较低。

Dream Fusion 的在线画廊展示了一系列 .glb 格式的模型,适合在 AR 项目中使用, 或者作为可以手动细化以用于更高细节工作的基础网格。

Stable Diffusion 原本是 2D 美术生成工具,通过和 Touch Designer 可视化编程工具结合 可创建 VR 场景,并且用机器学习算法为这些场景生成了文本查询对象。目前,已经成功 地在虚拟现实中创建了成熟的场景,这些场景以 60 fps 的速度实时渲染。 已有诸多厂商在研究将 AI 创作的 3D 场景用于游戏生产,如依赖程序生成的 Roguelike 游戏,开发者未来或许可利用 AI 制作的场景直接作为游戏关卡,大量节省游戏 制作成本。

GET3D 是英伟达推出的模型,通过 2D 图像训练后,该模型可生成具有高保真纹理和 复杂几何细节的 3D 形状。它生成的是显式纹理 3D 网格,也就是说,它创建的形状是三角 形网格的形式,就像纸模型一样,上面覆盖着纹理材质。因此 GET3D 不仅可以生成多种 多样、高质量的模型,还可以将生成模型导入到游戏引擎、3D 建模器和电影渲染器中,对 它们进行编辑,并且将 GET3D 生成的模型导出到图形应用程序后可以在模型所在的场景 中移动或旋转时应用逼真的照明效果。

基于 GET3D 已建成一个用照片自动生成三维模型的平台。在实际应用过程中,文物 研究人员借助摄影测量的方法实现文物三维数字化,工作人员只需用相机或手机,按照建 模拍照的教程采集照片,再登录网站上传照片,云服务能够自动计算生成高精度三维模 型。现产品被用于石窟寺调查,平台上已有不少石窟寺模型。

3.4 产业链初见规模,部分空缺现蓝海

中关村大数据产业联盟发布的《中国 AI 数字商业展望 2021-2025》报告披露,至 2025 年,中国 AI 数字商业核心支柱产业链规模将达到 1853 亿元,未来五年复合增长率约 57.7%。其中,AI 数字商业内容产业规模将达到 495 亿元,AIGC 和 AI 绘画当属此类。

就 AIGC 和绘画而言,其产业链涉及到硬件、NLP、算法算力、应用、数据提供与处 理等多环节,当前产业布局于算法和应用开发环节较为集中和领先,而在产业链上下游还 有诸多可开发的蓝海领域。

和国外类似,参与主力分为了两类:1)相关行业内已有一定规模的公司,多为龙头; 2)初创公司。前者代表为百度,8 月发布了 AI 艺术和创意辅助平台文心一格,它使用了 百度自主研发的产业级知识增强大模型—文心大模型。另一 AI 绘画大热产品 TIAMAT 背 后则为初创团队,其成立于 2021 年,一年内就积累了可观的社区用户和商业客户,已获得 DCM 数百万美元天使轮融资。参见互联网发展的历史,未来规模较大的公司很可能通过自 研或者收购融合多种技术,提供更优的体验,打通不同场景,连接创作者、消费者、供应 商等各方。我们认为,产业集中度将不断提升,AIGC 也将集成进入元宇宙的复杂系统。

4 基建待完善,发展中风险与希望并存

我国 AIGC 行业仍处于起步阶段,面临来自版权、伦理等各方面的困扰因素。 一方面,AI 绘画的能力之强引起了行业从业者的担忧乃至于恐慌。AI 通过庞大的数 据量,无休止的深度学习飞速进步,短期内就掌握了许多新人画手要练数年的人体、透视 与光影技术,已经有能力威胁到了底层画师的生存问题。 另一方面,批判者认为 AI 创作没有任何情绪和灵魂,难以和人类的艺术创作相提并 论。且 AI 作画仍需学习人类创作的素材,且创作者反复修改文本内容和调整成图才能得出 相对满意的结果,这意味着 AI 作画仍然依赖人类的智慧和劳动,创作的主动性仍掌握在人 类手上,即 AI 作画实际是个伪命题。 此外,AI 绘画涉及的作品侵权、名人肖像侵权等都是巨大的行业风险点。日本绘画领 域就曾掀起争论,不少画师公开表示禁止 AI 学习自己的作品。根据 6pen 对原创艺术家的 问卷调研,超过 90%的原创艺术家持相对保留态度,约 37%的原创艺术家呼吁向版权付费 或有所标注。这也阻碍了 AI 绘画创收。AI 模型训练所使用的大量素材,可能包含了未经 授权的,有明确版权方的图片数据,版权归属是否应该由模型指定也未有定论。因此使用 此类作品并以此盈利很有可能为使用者带来法律上的纠纷。 但 AI 绘画也同样带来了全新的希望。通过采用最新的 AI 技术来分析已故漫画大师手 塚治虫生前的漫画作品,AI 在 2020 年执笔画出了“手塚治虫新作漫画”。 我们相信,随着相关法律法规约束的健全,AIGC 行业必能在内容创作领域找到自己 合适、合规的发展之路。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则