ks免费秒赞平台网 - 卡盟自助下单平台24小时

显示全部楼层 · 2022-6-16 19:04:16

瓦非寺郭一普

量子比特报告 |公众号QbitAI

昨天下午，柳岩和大鹏抵达快手总部“扫楼”，“快手兴文”全程直播。一个迷人的橙色精灵，一直活跃在直播页面，是快手直播中的智能宠物“小快”。

直播过程中，柳岩和大鹏可以随时和小快聊天，小快还可以聊聊两位演员的新片和谈心，深得两人的喜爱。

为直播添加技巧并不是什么新鲜事。各种基于计算机视觉技术的特效和AR效果已经被直播公司玩过。

但是快手这个脑洞很大的公司，这次把智能宠物“小快”放进了直播间，让用户可以同时打开直播，可以“叫”小快完成发红包、播放音乐、讲笑话、聊天等各种功能，帮助主播和观众互动。

就像舞台上的演员可以向主播喊“音乐”一样，小快可以做主播的专属助理+音响师。

向直播引入具有语音交互功能的智能宠物，这在业内尚属首次。

小快，一个特殊的语音助手

小快本身就是快手的吉祥物。在快手的直播页面中，小快默认出现在屏幕的左侧，一般是趴在屏幕的一侧，调用“小快小快”召唤它会跑出来认清你的下一个命令，这样你就可以在直播的时候完成各种功能。

小快可以帮你搞活直播现场气氛，比如你可以点它播放音乐、讲笑话、讲故事等等，甚至还可以发虚拟货币红包快手平台的“快币”。

你也可以直接让小快找人接麦克风或者PK，也可以看到其他用户的小快。

对于观众来说，进入直播间时，主持人的小快会专门来迎接你，赠送礼物后会有感谢，互动性更强。

此外，快手还为小快开发了一套培训系统。首次打开直播的用户完成三个初始任务后，你的小宽就会变成一只永远陪伴你的小宠物。

点击小快图标，屏幕下半部分会成为小快的专属区域，小快会以各种手势迎接你。

由于小快的画面采用实时3D渲染，整体效果看起来非常真实，即使是复杂的动画效果也能流畅切换呈现在你的眼前。

你甚至可以选择它的性别，女孩头上会多出一朵花。

之后小快进入修炼状态，完成日常任务可以获得小快饭团。升级包以获得各种直播好处并解锁更多技能和外观。

开发过程

也许你会问，打开直播，为什么要添加语音机器人？

这不得不提一下前网红：酷瓜集团。

△快手第二场黑客马拉松，Kuaqua Robot项目在demo演示中

今年3月，各种“恭维团”突然火了起来。你在群里分享你的各种有趣的行为并要求夸奖，网友们会以各种姿势赞美你。

那么，既然可以让网友夸你，那你能不能简单的找个AI用不同的方式来夸你呢？

于是，愚人节那天，在快手的内部“以AI之名”黑客松活动中，出现了一个“夸夸机器人”，产品团队趁机扩展了这个机器人成为语音机器人。

所以现在，如果你对小快说“请夸我”，它也会疯狂地夸你，漂亮，有趣，幽默……

然而，在直播做语音助手在国内比普通的手机语音助手和智能音箱还要难。没有像智能音箱这样的专业硬件，嘈杂的直播环境和有限的计算资源对手机有更高的要求。

“小快”语音机器人使用了语音唤醒、语音识别、自然语言理解、对话管理、语音合成等技术，乍一看并不新鲜，但用在手机上直播@ > 在这种情况下，难度更大。

首先，主持人需要喊“小快小快”来唤醒声音。开启直播时，手机通常距离主机1米左右，比手的距离还远，不符合传统要求。近场条件下，系统只能获取单通道数据。

另外，主播使用的手机种类繁多，麦克风的拾音性能差异很大。一些主播还使用带有音效处理功能的声卡。小快的语音唤醒必须适应这些复杂的条件。

同时手机在直播上，占用大量计算资源，所以小快机器人不能占用过多CPU资源，否则会影响直播的性能@> 清晰度和平滑度。

在这些复杂的条件下，快手技术团队设计了两阶段语音唤醒系统。第一阶段采用简化模型提高查全率，第二阶段采用复杂模型提高准确率。此外，在回声消除和模型抗噪方面还需要做很多算法优化。

在醒来后的语音识别环节，快手团队也遇到了困难：中英文混合识别。这是主播点歌时的常用功能。比如快手用户最喜欢的《野狼disco》，歌名中英文都有，一定要准确识别。切换时的同音问题也需要解决中英文训练样本不平衡的问题。

因此，快手技术团队采用基于循环神经网络的序列建模方法对汉英双音节进行建模。音节的发音特征比较稳定，理论上可以缓解共发音的问题，但是音节建模增加了发音单元的长度，需要更高的模型能力。还引入了带有上下文语境的门控循环单元，有效解决了汉英混合识别问题。

最后，宿主完成命令后，小快要回话了，这涉及到语音合成的问题。

小快的声音很可爱，活泼清脆，但是如果直接使用业界常用的16kHz采样率，这个音色特性就无法保留了。因此，快手技术团队提出了一种超宽带神经网络声码器，也对超宽带进行了建模。

超宽带的光谱特征具有高度随机性，增加了神经网络学习的难度。而要合成相同时长的音频信号，需要预测更多的样本点，这就需要模型捕捉更长的序列依赖关系。

为此，快手的算法工程师对神经网络声码器进行了深度优化。在相同合成速度的情况下，合成的音频具有更高的音质，小而快的声音明亮清脆。特性已恢复到更高的水平。

另外，除了语言和语音相关的技术，小快作为3D宠物也需要视觉优化。

由于直播本身消耗手机大量资源，而且还需要渲染3D图片，留给渲染3D图片的资源非常有限。

那么，如何利用有限的资源，将小快渲染出丰富的三维图像、真实的光影效果、流畅的动作？

快手技术团队优化美术资源，将包含所有表情、模型、贴图的小快数据包压缩到2M左右，并采用异步加载资源提高效率。为了减少GPU消耗，减少渲染API调用次数，优化渲染整体逻辑，将实时阴影计算替换为假阴影方案。

另外，考虑到用户机型不同，很多用户可能会使用比较低端的手机。快手技术团队做了性能降级适配、异步加载、持续调优性能和性能之间的平衡，以达到最佳效果。

小快背后的团队

业界对快手图像技术团队更为熟悉，但快手AI语音技术团队的人才积累不容小觑。

快手的语音技术布局已久。三年前，成立了语音交互和音频内容理解的技术团队。以及微软、三星、BAT等大公司，目前的主要技术方向包括语音识别、语音合成、音乐理解与生成、音频事件检测等。

如此专业的人才团队，做出了许多行业首创的应用。

例如视频剪辑应用快影，借助快手self-talk的语音识别技术，可以为所有用户提供免费的视频自动字幕功能。

还有快手音月站，利用算法自动剪辑主播直播过程中的精彩歌声片段，制作成精选歌声内容，让音乐主播无需手动整理素材片段即可拥有可发布的内容，喜欢音乐的用户也有观看精彩内容的入口。

直播该领域的竞争一直很激烈，小快的出现一定是用户体验和平台粘性的进一步提升。

而在快手领跑后，语音机器人或许会成为直播世界的新趋势。

门户

最后，小快智能宠物使用的多项技术已经发表快手，论文发给大家如下：

大规模普通话语音识别的语音转换器

带有自注意力机制的语音识别

作者：赵媛媛、李洁、王晓睿、李艳

具有未来语境的基于门控循环单元的声学建模

基于门控循环单元的声学建模

作者：李杰、王小睿、赵媛媛、李艳

使用双密集神经网络的无参考旋律的自动歌唱评估

使用双密集神经网络的无参考旋律的自动歌唱评估

作者：张宁、姜涛、邓峰、李彦

——结束——

QbitAI·今日头条签约

ks免费秒赞平台网 - 卡盟自助下单平台24小时

相关帖子