AI研究，从论文到应用有多远？快手用户张小姐教穿搭

显示全部楼层 · 2024-5-9 09:07:59

郭一璞发自凹非寺

量子位报导|公众号QbitAI

AI研究，从论文到应用有多远？

我们看到的不少有趣的AI应用，更改图片，编辑视频，生成音乐，绝大多数都是乖乖躺在论文里，好心的作者会开源到GitHub上，分享Demo让你们体验。

但体会AI技术带来的乐趣，门槛还是很高，普通人，例如你老家的奶奶大叔，是很难去打开一个Colab，运行Demo的。

不过，“让村里的老大爷体验到AI乐趣”这件事，快手做到了。无论她们用的是硬件多么低配的千元机、百元机，通过快手一系列的AI技术积累和算法优化，普通人也就能体验到基于人脸辨识、肢体辨识、手势辨识、人体分割、AR等技术的魔法表情，享受前沿科技带来的乐趣。

例如让“哥斯拉”来到工地现场。

△来自快手用户星云『Xy』

又例如，用“萌面”魔法表情，阖家换上红色爆燃头跳一段最流行的泰拳舞，带上头套也不耽搁展示各类表情。

△来自快手用户张小妹教穿搭

日前，快手一项最新AI互动装置更是引爆了日本加洲CVPR2019的会场，引来全场参会者伫足体验，连声赞叹：nice!有趣！甚至被本届CVPR主席朱松纯院士赞为最出众的展馆。

通过多模态融合人脸辨识技术、肢体辨识技术、手部动作辨识三项AI技术的辨识结果，该互动装置就能让虚拟3D形象实时复制体验者脸部表情、肢体动作、手部动作。

通过人脸关键点辨识和人脸表情辨识，虚拟形象能追随体验者实时作出笑容、闭眼、张嘴、吐脖子等50余种细微表情。

通过三维人脸重建技术，恢复出人脸的三维几何信息及人头在世界座标空间中的姿态，拿来精准的驱动人头转动和人脸朝向。

据悉，也充分考虑了肢体运动的数学限制，有效规避出现真实人体难以完成的动作。

这一技术也早在两个月前使用在快手APP中，让多个著名短视频动画IP形象开启直播，跟用户实时互动。一禅小僧人3D形象首次直播的49分钟时间里，就获得了64.9万个点赞，观看人数超过25千人，不少用户都被暖心的一禅小僧人医治。

这种多种多样的AI玩法，背后都有如何的技术基础？

在去年的CVPR上，快手Y-tech西雅图人工智能实验室和FeDA商业化Y-tech联合实验室负责人刘霁、快手Y-tech硅谷实验室负责人王华彦两位揭露了背后的秘密。

七大支撑，三大实验室

在快手，AI技术除了被用于常规的内容分发、广告推荐上，更为重要的则是短视频、直播相关的内容生产。

这背后，抱持的是快手的计算机视觉、图像处理、语音辨识、多模态理解等多重技术，以及七大AI技术构成的技术平台与底层支撑。

针对用户行为的推荐，须要高效的离线及在线学习训练服的推荐系统，能将万亿级特点大数据进行全链路实时在线学习。这儿，快手的广告推荐离线训练系统达到了百T数据，百G特点，1小时以内训练完成。

将技术落地到手机端，须要基于深度学习的模型压缩与AutoML，快手借助自创的端到端模型压缩算法，除了发表了多篇论文，更是在线上的实际表现中，赶超了往年常用的精典算法。

而从游戏到广告出价，AI系统的决策能力也在遭到考验，快手的专家团队用加强学习的方式，将多种智能决策技术应用在用户每晚见到的短视频中。

而背后的神经网路基础，则是借助快手自研的YCNN深度学习推理引擎，针对不同手机硬件做了适配与优化，这样，无论那里的用户，在拍摄各类特效时都能保证实时性和流畅性。

据悉，在机器学习方面，快手有自己的机器学习平台，结合自研的服务器资源虚拟化技术、RDMA高速网路、CPU/GPU/F-PGA异构估算系统与共享储存系统，提供了快手公司内部的AI基础功能。还专门推出亚瑟自助式机器学习开发平台，用全自助的方法简化机器学习开发的操作。

有了工具，还需数据的支持。快手自由大数据平台，提供了海量多模式数据储存、异构资源调度，以及Tensorflow/Mxnet/XDL/MPI等多种主流机器学习引擎的分布式化训练与预测。

在7大平台之外，快手在日本还有西雅图、硅谷、圣地亚哥三大实验室的人才与技术支撑。

快手Y-tech西雅图人工智能实验室

快手Y-tech西雅图人工智能实验室、FeDA商业化Y-tech联合实验室负责人刘霁院士从事机器学习以及人工智能研究早已超过15年了。

此前，刘霁院士和快手创始人宿华一齐获得了2017麻省理工中国35岁以下35位最佳创新人才奖，三人也正好在颁奖时相遇。同样研究机器学习领域，相像的经历让她们一见如故。

在这样的缘份之下，刘霁院士在今年10月加入快手，成为西雅图两个实验室的负责人，同时他如今还在康涅狄格学院计算机系和电子工程系任教。

西雅图实验室是快手在日本的三个实验室之一，主要聚焦于智能决策问题，承当了大量快手的主要业务，如商业化广告推荐、竞价、大规模离线训练平台，游戏AI以及游戏关卡手动生成，手机端的AI模型优化以及AutoML，视频图象的剖析、理解与生成等。

对于一项AI技术的研制来说，在有数据的基础上，必须合理的设计模型并训练，能够让AI系统真正运行上去。不过，对于快手来说，要让AI模型服务于使用千元机的大众群体，模型压缩是关键的一步（Modelcompression）。

刘霁院长介绍说，让AI技术落地，越是在这样疗效性能并不是这么好的型号里面，对技术的挑战越大，而模型压缩这项任务就是专门为了让AI能力服务每一个用户的关键一步，这也是西雅图实验室不仅训练AI模型之外主要承担的一项任务。

为此，像这样的娱乐疗效，把熊二带入现实，或是化身雷神，无论是强悍的旗舰机，还是普通的千元机，快手都能保证实现。

△来自快手用户任性卟卟活泼

△来自快手用户面条哥-辛寿司

不仅短视频平台，快手的业务也涉及广告和游戏。在广告方面，西雅图实验室主要运用加强学习等方式，实现广告的推荐、竞价等功能。

刘霁也率领FeDa商业化Ytech联合实验室也在广告推荐方面做了一些技术革新。此前，针对一种广告推荐商业化平台，行业内的通行做法是用CPU做，效率较低。刘霁团队改良了这一做法，换成了GPU方式来做，单机的效率提升了640多倍。此前须要50台CPU机器训练20个小时的数据，如今只要一块GPU训练1个小时就够了。

在游戏方面，快手拥有近100款自己开发的小游戏，AI也被应用在游戏方面，一块是游戏AI，另一部份是游戏关卡的手动生成和难度评定，还有游戏数据剖析和智能营运。

例如战棋类游戏，须要更新全新的关卡，但人工设计关卡、测试关卡工作量十分大，因而，在快手，通过AI系统来手动生成关卡、自动测试难度，得出的通关率相当精准，偏差率只在7~8%左右。

目前，即使西雅图实验室只有十余人，但效率十分高，在研究方面，去年早已有7篇论文被各会议议接收；而在落地方面，一般只要一周左右，才能把实验结果落地，并即将投放市场。

快手Y-tech硅谷实验室

快手Y-tech硅谷实验室负责人王华彦本硕皆结业于清华，后来到哈佛AILab读博，在加入快手前，王华彦曾在硅谷AI创业公司Vicarious任中级研究员。

硅谷实验室位于在耶鲁校园附近，与上面介绍的西雅图实验室不同，快手硅谷实验室更重视计算机视觉，用AI的方法创造各类特效，供用户在创作短视频的时侯平添丰富多彩的内容。

例如有这样：

还可以实现这样的变化，将一张静态相片直接弄成延时摄影，晚上变景色：

将这种功能实现并布署在用户的手机上，就是硅谷实验室的核心技术挑战。

“这个上面就有两个很大的挑战，一个是我们须要以极其高效的方法来训练和开发模型，另一个是我们也须要让这种模型以最高的效率在联通的设备上运行上去，所以就须要在数据和估算上都达到十分高的效率”王华彦说。

例如，在视频图象分割人物中，现行的方式是通过标明大量图象，作为数据集进行监督学习，训练出模型。但这些方法并不非常有效，相比人类的只须要少量样本的学习方法，效率更低。

也正是为此，快手硅谷实验室正在不断招揽人才，提高AI算法，增强数据和估算两方面的效率，让模型的训练和布署都能高效完成。

传送门

最后，快手Y-Tech西雅图AILab联合佐治亚学院等研究者提出了一种基于煤耗建模的压缩方式，该工作的论文也被CVPR2019收录，须要的同学可自取~

ECC:Platform-IndependentEnergy-ConstrainedDeepNeuralNetworkCompressionviaaBilinearRegressionModel

作者：HaichuanYang,YuhaoZhu,andJiLiu

作者系网易新闻·网易号“各有心态”签约作者

—完—

AI社群|与优秀的人交流

小程序|全类别AI学习教程

量子位QbitAI·头条号签约作者

վ'ᴗ'ի追踪AI技术和产品新动态

喜欢就点「好看」吧!

AI研究，从论文到应用有多远？快手用户张小姐教穿搭

相关帖子

浏览过的版块