LI123 发表于 2022-7-10 00:09:02

卡盟自助下单平台 业务 - 刷快手双击播放在线平台微信支付

抖音如何一步步积累人工智能?机器之心采访了抖音多个业务部门的资深人士,希望将人工智能从抖音从0到1还原全过程。

我在 CVPR 上看到的 抖音 和我想象的不一样。

CVPR,全称IEEE International Conference on Computer Vision and Pattern Recognition,是计算机视觉领域与ICCV、ECCV并列的三大顶级会议。今年的 CVPR 于当地时间 6 月 16 日在美国加利福尼亚州长滩开幕,吸引了 9000 多名与会者、284 家赞助商和 104 家参展商。

这是抖音第一次参加CVPR。在一个约40平方米的展区,抖音展示了一个基于人脸特征识别的demo,可以在海量视频库中找到与参与者长相相似的用户。有趣的演示很快引起了与会者的注意,人群聚集在展位周围,一睹他们的“双胞胎”的真实面貌。

给我印象最深的是一位黑色短袖短发留胡子的大叔。因为匹配的结果太相似了,大家都笑了。

这种新奇的体验让我对抖音的AI产生了兴趣。我有过开始刷抖音的日子,那是“天黑了”,也知道了抖音“记录世界,记录你”和“老铁双击 666",这个短视频应用给我的生活带来了很多乐趣。然而,图们表示,抖音 的人工智能似乎从未被认真讨论过,至少与活跃在手电筒下的其他中国科技公司——BAT、TMD 或 SenseTime、旷视相比。

想想看,抖音比大多数中国科技公司更依赖人工智能。 抖音成立8年来,日活跃人口已超过2亿。公司业务涉及生产、审计、配送、消费,需要处理海量数据,以及抖音自身业务的特点,无需机器学习。今天很难获得支持。

抖音如何一步步积累人工智能?带着这样一个问题,我采访了抖音多个业务部门的资深人士,希望能够还原抖音人工智能从0到1的全过程。

第一个深度学习团队

2015 年 12 月,彭博社发表了一篇题为“为什么 2015 年是 AI 突破性的一年”的文章。

这一年,人工智能遍地开花。谷歌开源机器学习平台TensorFlow,成为全球最大的机器学习平台;此前冷门的亚马逊智能音箱Echo已经占据了整个音箱市场25%的销量; 10 月,一个名为 AlphaGo 的智能体首次亮相,击败了职业围棋选手。没有人会想到,这个智能体会在不久的将来掀起一股巨大的科技浪潮。

1-12月,全球超过300笔投资涉及人工智能领域,几乎每天都有人工智能初创公司获得融资的消息;人工智能也在中国被资本追逐。据德勤报告显示,2015年中国人工智能总投资达4.50.7亿元,同比增长306%。

在此背景下,2015 年底,抖音 迈出了深度学习的第一步。创始人兼CEO苏华找到李彦,希望他可以组建一个深度学习部门(DL组),利用算法打击盗版和非法内容。彼时,抖音已经拥有超过1亿的Android和iOS用户,用户分布在北京、上海、广州等一二线城市,以及多个三四线城市.

苏花

确保内容的安全性和原创性是几乎所有视频应用程序的必要条件。过多的非法内容会挤压内容生产者的流量,进而拖垮整个平台。换句话说,这是抖音生存的问题。

受苏华委托,李彦毕业于中科院计算所。他是抖音的老员工,工号在75左右,早期在视频安防方面成绩斐然。 2015年11月,李彦组建了一个不到十人的团队,目标是秒杀非法内容,包括色情、暴力等,以及识别非原创和盗版视频内容。

为了招人,李岩尝试了各种方法,甚至在知乎上寻找人才。当时有的研发人员不懂抖音,有的工程师只是因为抖音离家近才来面试,但面试后就被抖音的所作所为所吸引,所以他们毅然选择加入。 抖音.

在技术积累的过程中,抖音对理解视频内容提出了更多需求:视频中的人在说什么?场景在哪里?你想表达什么?深度学习部门不再局限于解决视频安全或版权问题,而是希望帮助抖音“老铁们”更快地找到自己喜欢的内容。

深度学习部门只有图像和音频两个单模态内容理解团队,但视频理解出身的李彦坚信,多模态内容理解对于像< @抖音。在2018年的一次公开演讲中,他举了一个例子,“在一个男人表演腹语的视频中,如果把声音关掉,光看图片信息我们不知道他在做什么,可能感觉他是在唱歌还是在唱歌。这表明如果您只看它,您可能无法获得真实的信息。”

“视频是一种结合了视觉、听觉和文本模态的信息形式,而用户行为也是来自另一个模态的数据,所以视频本身就是一个多模态问题,加上用户行为。这是一个更复杂的多模式问题。因此,多模态研究对于抖音来说是一个非常重要的课题。”

2016年,深度学习部门开始涉足语音、文字、音乐等多种媒体形式。李岩决定将团队名称从深度学习组改为多媒体理解组(简称MMU)。

这一年后来被称为短视频元年,资本涌入这个风口。 65%的市值投资于短视频内容创作者,垂直细分领域的短视频内容达到76%。

随后的2017年初,完成3.5亿美元融资的抖音率先从短视频领域的“格斗”中脱颖而出,用户总量和日活跃用户分别达到4亿和4000万。截至年底,这两组数据分别增长到7亿和1亿,视频日均上传量超过1000万。 抖音团队规模也从 200 多人扩大到 800 多人。

自此以来,MMU群迅速扩张,各个单模群都引进了业内顶尖人才进行算法优化和工程实施。起初,不同形态的业务组独立发展,2018年各组算法开始融合。

多模式理解的挑战

作为 抖音 的第一个深度学习团队,MMU 团队面临着巨大的挑战。

这几年,单模态内容理解的能力在学术界还不够成熟,学术界对视频理解也没有强烈的研究需求,导致一套视频理解的解决方案还没有已形成。在业内,即使是全球最大的视频平台YouTube,也能在一定程度上绕过视频理解,因为它的视频拥有丰富的文字信息——标题、简介、标签。

但是 抖音 不同。 抖音作为移动互联网时代兴起的短视频应用,为用户提供了一种轻快新颖的视频拍摄体验。用户喜欢拍完后上传视频,但不喜欢文字编辑,描述视频的文字信息严重缺失。 抖音做推荐算法需要看懂内容,视频理解成为了不可回避的障碍。李岩表示,抖音是一家早期的公司,对视频内容分析有很强的需求。

复杂的应用场景和多样化的用户分布给MMU带来了另一个维度的挑战。负责视频理解方向的赵旭,是MMU团队的老员工。他给机器之心举了个例子:抖音风景的视频内容很多,有些风景优美、灵感自由的图片就像“仙境”一样,那么抖音的tag需要形容风景如“仙境”;但在学术界的数据集中,你不会看到这种“奇怪”的标签。

“这不再是具体的分类算法问题,而是如何定义一个合理的标注系统。”

语音组最直观的问题是方言口音。 MMU语音集团岳朗表示,抖音用户的地域分布结构与中国移动互联网的人口分布结构基本一致:一线城市仅占人口的7%左右,而其他93%的人生活在非一线城市。城市,尤其是很多小城镇的年轻人,或者三四线以下的人说话口音很重,这需要抖音收集特定方言区域的语音和文本数据。

音乐团队面临的挑战之一是为用户评分。传统的歌唱评分是将用户演唱的歌曲与原始歌唱音频进行比较,匹配度越高,评分越高。但在抖音,很多用户都是来自偏远地区的少数民族,他们所唱的民歌和民歌在抖音的搜索数据库中找不到。

“我们现在要问的不是 1+1 等于 2 的问题,而是当你计算 1+1 的时候,你会发现你连笔纸都没有。”赵旭说。

经过两年的探索,MMU集团逐渐形成了基于多模态技术的两大业务体系:信息分发和人机交互。前者利用多模态来实现对视频内容的准确理解,后者利用多模态帮助人们更好地记录生活。

为了更好的理解这两个方向,我们举个例子:冷启动项目属于内容分发,即用户第一次打开抖音应用时,除了内容中的字符和视频,算法 无法获取行为数据,因为用户抖音打开的页面是“发现”而不是“关注”,所以抖音在冷启动阶段提供个性化的内容推荐。 MMU小组在2018年参与了一个优化冷启动的项目。

在人机交互中,视频配乐是典型的多模态理解场景。 MMU音乐团队的水涵告诉机器之心,抖音需要先了解视频,包括人脸识别、年龄和性别、动作时间、地点和场景识别,然后是风格、情感、节奏、主题和音乐的适用性。做场景理解,这个过程涉及多个部门的协作,包括视频理解、人脸识别、自然语言处理、视频检索、音乐检索,最后是推荐算法。

http://www.qianxianly.com/data/attachment/forum/20220710/1657382942573_0.jpg

算法优化带来的红利是显着的。 2018年第二季度,抖音应用月活跃用户数达到2.4亿,日活跃用户数突破1亿。今年4月,腾讯为抖音追加4亿美元融资,使抖音估值接近200亿美元。

但多模式研究给 MMU 团队带来的挑战并没有就此停止。李岩表示,多模态研究还存在三大难点:单一模态的语义鸿沟在多模态融合后会进一步加大,因为样本空间变大了;建模,会有数据异质性缺口;多模态数据集构建困难,存在数据缺失问题。

MMU的下一个目标是从低层次的感知过渡到高层次的语义理解,李彦认为这是“目前业界最难的问题”。 MMU目前正在开发一个视频分级系统,为了更好的保护未来成人使用抖音,这就需要算法对视频内容有更深入的理解:一个视频表达了什么概念?流露出什么样的情绪?

“我认为视频内容理解是未来人工智能在现实生活中大规模爆发的关键技术,而抖音在这方面既有战场,也有数据。我们的 MMU 应该是未来人工智能智能产业的一支关键力量。”李彦说。

抖音

的 Google X

在MMU发展的同时,抖音也在大力发展其他部门,比如负责音视频传输和质量保证的音视频技术团队,以及负责音视频质量保证的社科团队。推荐。与 MMU 一样,这些部门以业务为导向,专注于产品开发和技术实施。

随着抖音视频理解技术在推荐、内容安全等方面的应用越来越成熟,苏华希望成立一个专注于前沿算法的实验室,加入特效如作为好莱坞内容对用户内容的制作,人工智能可以让用户获得新奇的体验。

于是,2016年,苏华找到了他在清华大学的老同学,斯坦福计算机系的郑文博士。在斯坦福大学期间,郑文的研究主要集中在计算机图形和电影特效方面,他的导师曾两次获得奥斯卡科技奖。毕业后,郑文在美国继续从事机器学习和计算机视觉方面的研究。

文成

2016年9月,在苏华的劝说下,郑文回国加入抖音,成立了Y-Lab实验室。郑文当时对国内媒体表示,“我觉得他想做的事情很有意思,很符合我的经历,我也很感兴趣,所以就回来了。”苏华没有设定具体的考核标准,只要做点有趣的事就行。

Y-Lab 的早期员工、现任增强现实 (AR) 技术负责人孟松回忆了与苏华的对话。他表示,苏华想成立一个类似Google X的技术部门,从事AI和AR领域前沿技术的研究和探索,规划未来。

Google X 是谷歌最神秘的部门之一,汇集了世界顶级专家,他们开发了谷歌最早的神经网络系统、谷歌眼镜、自动驾驶汽车(后来分别孵化了 Waymo)等项目。据国内媒体报道,Y-Lab中的Y代表Young,Y是X的下一个字母,所以也代表超越X。

“我们现在为 5G 做的技术研究和 3D 图像捕捉的初衷是成为 AI 和 AR 的世界领先者,”孟松说。

在接下来的两年里,Y-Lab开发了各种有趣新颖的demo,涵盖AR特效、人脸关键点、手势识别、语义分割、人体关键点检测等领域。

去年,Y-Lab 的“AR 上的面部移植效果”受到了网友的好评。用户可以选择相册中的照片,将相册中的人脸转移到AR 3D模型中,生成一个带有人脸的长3D头像。

同样在去年推出的神奇表情“抖音时光机”,可以预测60年后用户的面貌,并演示了与年份的整个变化过程,引起了广大网友的情感共鸣。很多网友。在这款神奇手表的背后,其实涵盖了抖音的动态人脸抓拍、基于时间的面部变形与美容、头发分割与染色、动态控制老化等技术。

抖音时光机

为了让AI算法能够在不同的移动设备上运行,Y-Lab自主研发了深度学习推理引擎YCNN。负责人脸关键点开发的修虎告诉机器之心,YCNN可以在手机上进行底层的神经网络运算(如卷积运算);建立量化流程,配合手机码,加快推理速度,不失准确性。团队在做算法的时候,也会有意识地根据YCNN的特点设计匹配网络结构。

然而,Y-Lab 遇到了许多企业实验室的共同问题:优秀的尖端算法无法转化为产品价值。由于Y-Lab本身的定位是前沿探索,预计业务产出不高。但是,作为企业实验室,Y-Lab不能像学术机构那样做“春暖花开”的研究,需要为企业做贡献。

2018 年,Y-Lab 为魔术表情部门设计了许多新的底层算法,例如 3D 照片、天空图像、面部关键点等。但由于 Y-Lab 和下游特效团队分属两个部门,因此他们之间的沟通问题导致魔幻表情的整个上线过程不如预期,用户数据也不理想。

调查原因,负责语义分割的晨星透露,在算法真正落到产品上之前,涉及多个部门。 “我们(Y-Lab)只关注算法层面,算法完成后如何去实现算法,不是一个部门能完成的事情,这样一来,就有问题了。算法做好之后,一定要保证实现后的效果好。是的,如果不在一个部门,中间的沟通成本会比较高,算法最终效果不可控。”

去年底,部门为了解决这个问题进行了调整,将魔法表达部的特效团队并入Y-Lab,并招聘了几名计算机视觉相关的算法专家,加入了产品经理,并添加产品。设计和工程能力。

为了增加团队内部的交流,除了周会,Y-Lab今年还新设了一个单元叫“胜利会”:员工聚在一起分享本周的进展和成果,大家可以带来小吃会上谈笑风生。

据几位资深员工透露,部门调整后,团队的沟通变得更加顺畅。合并后的第一个项目是做染发特效。 Morningstar 的团队使用深度学习为头发区域创建了语义分割算法。获得公司内部“闪电奖”。

染色效果

作为此次重组的标志,抖音 正式将 Y-Lab 更名为 Y-Tech。从Lab到Tech,背后是整个实验室定位的转变。

组织架构的调整对团队产生了一定的影响。晨星表示,过去团队的主要精力主要集中在研发上,但现在也需要关注产品落地的业务,负责的事情更多。不过,他并不认为整个部门的基因都发生了变化。 “我们仍在跟踪最前沿的技术,并在做非常愿意和有很大潜力的事情。”

为了继续加强整个实验室的前沿探索能力,在此次重组中,抖音为Y-Tech增添了一支生力军——来自西雅图和硅谷的海外实验室。

算法背后的包容性价值

刘季和王华燕于去年下半年加入抖音。当他们提到他们加入抖音的原因时,他们都提到了价值观。

2018年初,刘季在北京国贸饭店宴会厅认识了苏华,两人同时入选《麻省理工科技评论》中国青年英雄榜。刘霁当时是腾讯人工智能实验室的专家研究员,罗切斯特大学的助理教授。因“让机器学习算法更精准高效,探索人工智能潜力边界”获得发明者称号;因在 抖音 取得巨大成功而获得“企业家”称号。

两人素未谋面,但在与苏华交流后,刘季对加入抖音产生了兴趣。 “我们(指他和苏华)做事更注重逻辑,国内很多公司还是习惯于复制粘贴,但我认为他做事是从解决问题本身,从原则出发,和我的差不多。方法论是一致的。”

刘霁于去年 11 月加入抖音,担任西雅图 AI 实验室和 FeDA 商业化实验室的负责人。

王华彦是斯坦福大学的博士。 Coursera 创始人兼斯坦福大学教授 Daphne Koller 的学生。毕业后加入硅谷人工智能独角兽Vicarious创始团队,并在此待了四年。

王华燕在2019CVPR 抖音展位

为了招募王华彦,郑文飞到硅谷与他交流。王华彦表示,他能感受到抖音提升AI算法效率的迫切需求。 “抖音我希望最先进的算法能用在手机上。这个需求和我的研究兴趣——比如如何让人工智能算法像人一样高效——是一致的。”去年7月,王加入成为抖音硅谷实验室负责人。

虽然都是海外,但两个实验室的研究方向和定位不同:硅谷实验室专注于数据效率和计算效率,瞄准的是Y-Tech的产品业务。据王华燕介绍,硅谷实验室近期将推出一个项目,可以在安卓上实现与iOS机型版本相同的效果。它可以呈现出和 iPhone 一样的美颜效果。”

Yato AI 实验室目前专注于设备端模型压缩的尖端算法。今年,刘霁教授带领的抖音研究团队与美国罗彻斯特大学合作,发表了两篇基于能量建模的模型压缩论文,分别发表在ICLR 2019和CVPR 2019上。两种方法都是基于硬件模型的个性化模型压缩——让人工智能惠及大量低端电脑用户。第一篇 ICLR 2019 论文主要通过权重级别的细粒度剪枝获得稀疏性。 CVPR 2019第二篇论文主要通过通道级粗粒度剪枝获得稀疏度。

不同于学术界对未知可能性的探索,刘季的研究思路围绕着抖音平等和包容的价值观,即赋予每个人平等记录的权利。 “我们和现在很多学术论文最大的不同就是,实际上都是离线完成的,不受实际硬件的限制。我们现在做的一切都必须在手机上完成,而且数据是实时的。而且,很多<@ 抖音用户的手机都是千元手机,我们的很多AI功能都需要跑在这些低端配置上,这对我们的技术提出了更高的要求。”刘季说。

另一个以刘霁教授为首的部门——FeDA智能决策实验室。这是与商业化团队建立的西雅图-北京联合实验室,主要专注于利用前沿的搜索技术,高效、准确地连接用户价值和商业价值。这也是2018年10月成立的部门,当时抖音正式宣布开启“商业化元年”。还有一点,Fe指的是抖音的专有名词——“朋友经济”,也是化学元素符号中铁原子的缩写。

据刘霁介绍,目前整个西雅图实验室大概有十个人左右,但是“一个人支持一个项目”。近期,FeDA为广告推荐部门重新设计了基础计算设施,从主流的CPU处理方式转变为GPU方案,单机效率提升600多倍;将强化学习应用于广告竞价,收入增长 5 个百分点。

刘霁在2019CVPR 抖音展位

“极端”的含义

在2019年的抖音年会上,苏华和另一位创始人程以晓谈了20次“追求极致”。苏华在年会上强调,“希望每一个学生都能拥有追求极致的精神”,“不追求极致,就无法取胜。”

如果想起最近抖音曝光的一封内部信,不难看出一向稳重佛系的苏华为何在年会上情绪激动。

6月18日,两位创始人的抖音内部信被曝光,以罕见而激烈的方式告诫公司员工,抖音将“换组织,优化结构,2020年” .实现春节前3亿DAU的目标。”

在这封内部信之前,抖音 继续快速增长。 2018年全年,抖音DAU增加6000万,DAU达到1.6亿。不久前,抖音副总裁王强宣布,抖音日活跃用户超过2亿。 抖音成立八年以来,拥有员工8000余人。但抖音的竞争对手也在努力。截至2019年1月,抖音日活跃数已超过抖音,突破2.5亿,月活跃数已超5亿。

创始人在一封内部信中说,“在看起来不错的数字背后,我们看到了一个深层次的隐患:我们不再是最快的团队,随着我们的成长,我们的肌肉开始增长。我们变得更弱,响应速度变慢,我们与用户的联系感也在减弱。”

“是的,我们对现状很不满,松散的组织,佛家的态度,‘慢公司’正在成为我们的标签。这让我们彻夜难眠。从去年年底开始,从我们两个开始,< @抖音管理层进行了深刻的反省和反思。”

据抖音内部人员透露,抖音各个部门已经开始进入战争状态。很多员工周六自发来公司加班,甚至有些部门出现了“996”,这在过去是比较少见的抖音。

因为3亿DAU的“大KPI”,技术部门没有做出明显的调整。他们能做的,就是像苏华所说的那样“追求极致”。

Y-Tech的孟松举了一个例子,“我们在同时研究很多前沿的新技术,项目要求至少领先竞品3到6个月,这些都没有。 “技术成熟了,有解决方案可以参考,甚至业内很少有人在尝试,但大家都非常愿意和有动力朝这些方向努力。”比如在混合现实领域,抖音正在探索适合抖音用户的产品形态,致力于在用户手机平台上实现先进技术,用算法为用户带来新颖经验。这是一个具有挑战性的项目,但即便如此,抖音还是要走这条路。

抖音圣地亚哥实验室负责人王祥林告诉机器之心,可能大部分内部人员都不知道他的音视频团队目前的工作情况:抖音正在参与制定新一代视频压缩标准。 抖音与世界各大公司、大学和研究机构一起,努力将自主研发的技术融入国际标准,掌握下一代视频压缩标准的话语权。

追求极致听起来像是一个抽象的概念,但它对抖音有着重要的战略意义。

在抖音中,用户行为随时随地影响内容推荐,例如点击视频、加心、评论、观看视频时长等。当用户下拉页面时,内容也在真实变化时间 。 抖音的生产者比例非常高,所以需要抖音来处理比竞品多几倍的UGC数量。 抖音 是一家重算法、技术驱动的公司。即使算法改进百分之一也可以转化为巨大的商业价值。追求极致的一小步,抖音的一大步。

结论:人工智能提高幸福感

大部分受访的抖音老兵都是抖音平台的忠实“老铁”。

生完孩子后,晨星已经为自己的孩子制作了两三百个视频。他说自己属于极简派,不太会用魔法表达,但老婆很喜欢用。比如他用魔术的表情把一个孩子变丑,然后拍了一个视频,很有意思。

“因为我们懂算法逻辑,我们觉得这个东西可能没有那么神奇;那么他们就会觉得这个很神奇,他们喜欢拍照。看到家里有人玩这个神奇的手表,他们很很惊讶。我其实还是觉得很有成就感的。”

超旭说自己是一个非常认真的抖音老手,“我一般刷抖音一个小时左右,这还不包括看后台数据的时间。”铁不一样,超旭刷抖音会看什么内容他不认识。 “比如我是不是加了这个标签,我在哪里不是很准确。”

因为常年待在硅谷,王华彦在观看抖音时又增添了一丝怀旧之情。 “我看到一个视频,是农村的场景。老太太在路上走着,然后邻居过来要求带老太太去她家吃饭。在中国农村,你知道吗?”人情很重要,然后老太太舍不得走,然后那个人坚持要拉开,两个人打架了,路上就这样拉了。”

“如果是在中国农村,有这种经历的人会认为这是一个很常见的场景,但不会出现在任何官方记录中。如果没有抖音这样的平台,这将是50年后中国的民俗文化可能会消失。”

在去年的图灵大会上,苏华曾说过:“应该用AI解决什么样的问题,不是数学问题,而是应该为社会和人类解决什么样的问题?想了很久,我有一个答案。在这些年的实践领域,我想明白,无论我们做什么样的技术,都应该用来提高人类的幸福感,或者提高幸福感。”

这种幸福感指的是这些。

(注:文中超旭、水寒、月郎、秀虎、辰星、孟松均为化名)

市北GMIS 2019全球数据智能峰会于7月19-20日在上海市静安区召开。本次峰会以“数据智能”为主题,聚焦最前沿的研究方向,同时更加关注数据智能经济及其产业生态的发展,为技术提供参考从研究到实施。

峰会将设置主题演讲、主题演讲、AI艺术展、“AI00”数据智能榜单发布、闭门晚宴等环节。确认嘉宾如下:
页: [1]
查看完整版本: 卡盟自助下单平台 业务 - 刷快手双击播放在线平台微信支付