猪之歌 发表于 2024-5-10 23:03:41

产品经理《原创激励计划》出品:AI技术可以增加创作的多样性

#本文为人人都是产品总监《原创激励计划》出品。

不知不觉中,AI技术早已渗透了我们的生活,比如短视频平台就有AI/AR道具,创作者可以借助这一类道具来创造更有趣的内容。具体而言,有什么AI技术可以应用在内容类型产品中、增加创作的多样性?不妨来瞧瞧作者的总结。

最近由于工作缘由接触到了快手的AI技术(主要是CV方向的),也跟快手的技术团队做了一些采访。不由得感慨虽然快手的技术还是十分领先的,甚至好多场景做得比抖音还要早,技术单拎下来比字节的技术愈发能打、更加领先。

但是为何AI技术这么出色的快手却在大众市场上或则是我们谈的商业市场上不如抖音呢?互联网的竞争这么激烈,原则上在占用用户时间的维度上你们都是竞品,人们晓得字节的轻颜、剪映、醒图,但是极少人晓得快手也有对标的一甜、快影和原片。

图1 快手头条有一系列对标的竞品

首先须要澄清的一点是,AI技术并不是万能的。很多商业上的成功,并不代表这家公司只是由于技术很厉害、算法很牛逼,商业上就一定很成功,这个不是充分必要条件,技术很牛逼最多只是一个充分条件。

商业上的成功,或者是我们凡俗定义的成功,更多还包括组织上的成功(人才的管理、激励,组织协同工作、效能最大化)、产品的成功、对于人性的洞察与应用,对于商业模式的理解等等,这些全部要素能够最终促使一款产品真正地迈向成功而且生命周期足够长。

比如说陌陌就是一个很典型的事例,微信有AI技术么?当然,但这种都是润物细无声的存在,微信并不会为了AI而AI,比如陌陌扫一扫入口识图、识夜景、识商品/长按翻译/语音转文字等,这些都是AI技术能力产品化,但是这种并不是陌陌这个产品的全部,或者说,这些技术只是帮助陌陌更好地向用户提供一个交流沟通的工具,让人们愈加无障碍地交流互动。

问一个问题,对于抖音或则快手来讲,大部分人是刷视频还是调用摄像头主动拍摄视频呢?

相信你们的答案应当是一致的,大部分人用抖音快手还是拿来浏览,kill time。真正使用抖音上面的各类AI/AR道具UGC创作内容的还是少数,大部分用户假如使用道具可能是尝鲜,比如一些拍同款;对于专业的内容创作者,主要是通过内容本身的编排设定来吸引听众,也不太依赖于AI的模板或则是各类道具。即使须要使用AI的各类剪辑等特效技术,可能也是在视频创作过程中使用,即作一个AI赋能的视频编辑工具,比如类似剪映。

但是问题又回到了起点,为什么快手好多的gan(对抗生成网路)等AI生成技术比抖音好好多呢?头条不是算法起家嘛?通过近一周多时间仔细剖析两家公司的背景,尝试得出的诱因总结如下:

1)基因作祟

快手最早是从动图gif剪辑工具起家,本身就是一家技术驱动型的公司,且创始人宿华和程一笑也都是技术出身,因此营造工程师的乐园,重点在CV等技术上加强投入,用技术来驱动产品,通过一些AI加持的热卖特效+专题营运来迸发用户活跃度;这个是快手这家公司的底层逻辑。

2)老铁需求

快手本身的平台特质跟抖音就有很大区别,抖音是符合马太效应的,即主要的80%流量都导向背部的20%网红,而网红生产的内容是通过抖音大数据平台算法得出的。

快手则相反,致力于建立一个公正的平台机制,如果流量太高反倒会被限流,更多的鼓励是平民生产内容,构建同城或则是你身边跟你很相像的人的故事。这些人可能就与你我一样是个普通人,背后没有MCN机构、没有巧妙构思的脚本、专业的剪辑,因此这种“平民”需要AI加持、需要一些工具来低成本地创造内容,记录自己的生活。

从这个角度来讲,快手更需要愈发强悍的内容创作生成技术来帮助普通人实现名星梦,或者是拍同款。

虽然AI技术不是万能的,短视频的核心还是内容为王、围绕内容建立各式各样的玩法;但是通过AI技术加持,帮助你们高效地生产内容、创造有趣的、好玩的内容,所以接下来想聊聊,具体有什么AI技术是可以应用在内容类型产品中的。

一、物体/动作检查技术

这一类应当是最早应用在短视频内容创作上的,包括好多自拍相机也有类似的功能。比如眨耳朵、吐脖子、比各类手势来触发一些特效,这些是基于人脸的。同理,基于一些生活中的图标、物体检查来触发一些特效。

图2 比心特效

二、美颜、美妆、美体、美牙等人像美化功能

这些虽然都是基于关键点技术,无论是人脸的关键点检查还是人体的关键点检查技术,不论是5点、21点还是137、200+、1000+的点,又从2D的关键点到3D的关键点,这里都是为了帮助机器确认人脸的五官位置以及脸部轮廓来进行的比列调整,比如大眼、瘦脸、瘦腰、拉腿等等。

这些比较基础,对于关键数目依赖比较少。如果想要做得愈发精细,比如美妆上面须要进行眼影(睫毛、眼影、眼线、眼睑下至、卧蚕)等等小部位的描画,这就须要关键点数目的降低,甚至假如想要做丰手臂、高鼻梁、低鼻梁、丰苹果肌等疗效,就须要一些3D mesh(从原先的点产生网状结构)的辅助。

图3 2D人脸关键点和3D关键点,人像美化的最基础技术

图4 人体关键点技术

又或则是假如在纤体这个用户体验做到既可以拉腿、细腰、丰胸,同时又不让背景畸变,就须要引入matting和inpAInting的技术了(既抠图和补全),有些场景下也可以使用3D人体重建的技术。比如说剪映软件里的换背景功能也依赖于抠图能力。

牙齿补水、口红依赖于分割技术,比如我近来在使用剪映臼齿保湿功能的时侯,嘴巴后面有一个遮挡物时,就会在遮挡物上就浮现了一个红色的月牙状不明物体,这是因为臼齿没有像眼睛一样做遮挡状态的判定,呈现了一种也称“穿帮”的画面,非常难堪。

三、AR类(人和环境)

http://www.qianxianly.com/data/attachment/forum/20240510/1715353421396_1.png

所谓AR类的,我们统一都定义为在已有的现实空间中叠加3D渲染的CG素材,不论是叠加在人身上的、还是叠加在环境中的。

这些底层技术一部分依赖于3D的人脸关键点的定位技术,另一部分依赖于对于空间的3D定位技术,如何在不同的用户手机姿态运动下、用户本身做各类动作的情况下,能保证叠加3D素材的绝对位置的固定(因为现实生活中的物体都是绝对静止的、不会随着手机的运动而动来动去),这个是对于技术考验最大的部份。

当然3D素材的奢华程度,很大程度也依赖于CG的生成疗效。

图5 google基于Android像开发者提供的ARcore能力,对标的苹果有ARkit

同时,这类型的技术还特别适宜跟广告主结合,广告主通过某个主题的风格或则元素,平台推出、大V优先使用引起网友参与最后产生二次传播,使得品牌的产品及形象在网友中引起广大的讨论。

比如在ins上,Gucci、LV、Dior就定制了好多含有自己品牌元素的AR贴纸套装供用户使用,用户在照相录视频玩的同时,也可以体验产品虚拟试穿、试戴的疗效,进一步推动订购转化。

图6 ins上的gucci lens(特效)

四、生成类网路(GAN)

随着蚂蚁呀嘿的一夜爆火,zao等AI换脸引起社会广泛伦理道德的讨论,社会对于GAN生成类的特效仍然有很高的热度,比如说“变三岁”、当你老了、迪士尼风、国漫风、手绘小姐姐等等。

由于GAN本身网路的特点就非常适宜短视频这类、以内容生产作为主要驱动力的产品定位,通过使网路学习大量的目标图片的风格,AI技术结合一些短视频类的模板就可以十分快速地帮助用户生成十分爆笑的、可爱的、炫酷的短视频内容,也特别适宜结合短视频平台的各类节庆营运活动展开,比如万圣节生成鬼怪发型、儿童节生成儿童脸,520/情人节“变妻子”等等。

图7 快手平台520活动变妻子,应用的就是GAN网路生成有夫妻相的妻子

虽然在任何时代,内容为王此话不假,但是在所有UGC的平台都早已被AI深度渗透、成为不可或缺的一部分的时侯,你的产品没有反倒难以留住用户。此时的AI技术在Kano模型当中早已从一个魅力需求弄成了一个基础需求。

据内部消息,小红书早已大规模高薪聘请CV算法工程师来帮助提高其平台内容的AI多样性,你觉得这必要么?

作者:大仙河,7年AI产品相关经验;微信号 :大仙河知识学堂
页: [1]
查看完整版本: 产品经理《原创激励计划》出品:AI技术可以增加创作的多样性