lzw6 发表于 2024-5-12 18:09:45

春晚红包宕机史,这场战役将是一场挑战与重生

如果把做晚会红包称作登珠峰,快手无疑是选择了最危险最难爬的北麓,他们前所未有的选择了最难做的视频红包作为载体。

大众最常见的网路信息介质莫过于文字、图片、视频三种,稍有经验的网民就会晓得,传输文字、图片和传输视频完全是两码事。

如果把文字、图片称作网路道路上的行人、自行车,那视频无疑是重型货车。

快手之前做过晚会红包项目的BAT三家无一例外都是采用了前两种。

即便这般,当晚会洪峰将至的时侯,还是有成千上万的人“堵”在了路上,走在上面的更是出现了服务器顿时超过负荷的车祸,以至于网路上有人讥讽“春晚红包宕机史,就是半部中国互联网技术进步史”。

现在快手领到了晚会红包的接力棒,却选择了最难的公路,这也就意味着“宕机史”和“进步史”快手只能承继其中之一,再也不可能有妥协的中间形态。

从某种意义上来说,这也是快手惟一的公路。

“你们想一下,如果由于这件事,春节回来后公司就倒闭了,那么大家如今要怎样做?”

在讨论红包方式的产品决策会上,CTO陈定佳说出了这句话。快手对晚会红包活动的注重程度可想而知。

经历了8年的发展,“慢公司”的标签以前像影子一样贴在快手头上,肌肉显得无力,反应显得迟缓。快手要重新跑上去,K3会战的打响早已让这家公司急速的跑了上去,春晚红包这场会战将是一场披荆斩棘的挑战与重生。

一、“不可能实现的方案”

时间回到2019年国庆后,春晚红包的第一次产品方案讨论会,这次的参会人员不但包括产品线所有核心成员,还有研制线的诸多高管,宿华、程一笑两位创始人也在场,CTO陈定佳因人在北京,通过视频电话接入。

很显然,第一次讨论会没有得出令人满意的方案。

陈定佳说出了上文那句事关生死的话,宿华也抒发了两点意见,一是他觉得目前方案思索太浅;二是他觉得形成方案的方式有缺陷,他不能接受一个成本这么巨大,甚至决定生死的方案就是如此定出来的。

为了选出最佳方案,快手高层决定做一次方案赛马:首先确定8支参赛队伍,每支队伍各自提出方案进行复赛;然后从8支队伍中选出四组,再进行一次世锦赛。

10月份的一个月对于参与方案赛马的朋友来说,一定是职业生涯内难忘的经历。

在项目保密阶段,很多快手的朋友还不知道公司去年要在晚会发红包,参与赛马的产品部、市场品牌部、商业化等多个部门的几十位朋友早已开始通宵达旦。

每组同事为了达到最好的疗效,在规定的短时间内出创意、设计方案、演示、迭代,参与的人都拼尽了竭力。

快手最终选择了“视频+点赞”这一组的红包方案。

快手视频点赞红包截图

这是比较特殊的一组,其他的组基本都是同部门人组队,这组的参与人员由商业化、市场品牌部、运营部等多个部门的朋友组成。他们提了一个“视频+点赞”的红包方案,春晚主持人口播的时侯,几亿人一起看视频并双击屏幕点赞,最后弹下来红包。

这个玩法方案演示的时侯,团队里走出一个学过播音主持的女朋友模拟晚会昨晚的主持人,她口播的同时,一段视频随后播放,解说的声音和视频播放完全同步,配合着主持人的口播,APP端用户同时点赞,最后弹出红包。

主持人的口播非常精彩,两分钟包含大国重器、坦克、飞机的混剪视频又燃又爆,这个演示确实俘获了在场的众位评比人。(这个方案大致就是春节昨晚使用的方案,参与过抢快手晚会红包的诸位邻里,可以尝试回想一下。)

随着方案赛马的结束,视频红包的方案最终被敲定。快手此次要玩和往年晚会红包不一样的!产品方案赛马的整个过程,技术人员全程在参与。对于技术人员来说,方案早三天确认,他们上战场前的打算时间就延长了三天。但这个方案的确定,引起了技术人员的很大反应。

这里给诸位邻里解释一下,往年互联网公司参与晚会,是用图片和文字来玩转红包,而去年快手要用视频来玩。这个难度是如何的?

视频的大小是图片、文字大小的几十倍甚至上百倍,快手APP这款短视频产品本身是一款重依赖富媒体能力和AI能力的产品,这款本身早已“负重”不少的产品,要在晚会的极端流量海啸下提供视频红包的高质量服务。这就是快手选择的攀爬珠峰的“北麓”。

产品方案确定,到了技术人员拿过“接力棒”奋力奔跑的时侯。

“这不可能实现,如果不做优化,全国的带宽都拿过来都不够用”。快手的研制部门从2017年的200多人发展到目前的2000多人,两年多的时间积累了精兵强将。因为技术人员能力强,日常工作中,很少有技术人员拒绝产品需求的时侯。但此次,几条技术线获知这个方案玩法后,给出的反馈是,这不可能实现!

春晚项目技术总指挥韦彬后来对左林右狸频道谈起了当时的觉得:“第一次见到方案确实感觉新颖,然后就立刻认为技术上不可实现。”无论是须要消耗的资源,还是实时交互,都是极度困难的。

往年的摇一摇发红包传递的是需求指令,而如今她们选择传递的却是几十秒钟的视频,这背后就是要消耗海量的网路带宽和服务器资源。

甚至有技术人员当场算出了须要的带宽总数,这个需求与此时中国所有的带宽加在一起的总数相当。

关于方案选取的决策发生了好多的激烈的讨论,技术研制线的很多人提出了理性的指责,背后的指向只有一个,如果不做优化,绝无实现的可能。

这个方案给技术团队带来了极大的压力,这种玩法没有别的公司做过,所有事情之前都没有人做过,也没有经验可以借鉴,很多朋友挑下来方案中不可实现的点。“如果我们哪些都不能做,那我们做的事情也太没有挑战了。”在你们一筹莫展的时侯,有人说了这样一句话,并提醒你们须要换个思路,想想能做哪些。

李伟博是快手晚会项目前端稳定性负责人,他记得很清楚,当时有技术朋友说了这句鼓舞斗志的话。

众人为之一振。

在2019年6月宿华程一笑发表的内部信中,两人痛感“慢公司”带来的愧疚,并定下3亿日活的目标,立下了“追求极至”的军规,

现在,K3会战仍未结束,士兵怎能畏葸避战!

快手晚会团队军令状

那个“不可能实现”的方案总算被加上了“看似”的前缀,它最后真的众人被选中,没有人想象做梦一样的渡过职业生涯,每个人都盼望有一个关于战斗的故事。

二、“只有基建狂魔才配的上视频红包”

百度作为一家领跑二十年的互联网公司,高层的一句话就可以将5万台服务器从凤巢转入晚会红包,一下子解决一半的算力问题,这样的家底是快手所不具备的。

快手负责基础设施建设的包能辉也是最早晓得晚会红包项目的一批人,CTO陈定佳在9月末告诉他,快手正在争取这件事,让他可以提早打算了。

包能辉后来对左林右狸频道追忆起当时的觉得,用了两个字——“吃惊”,他说:“拿下的信心比较高,做成的信心是一点也没有,当时要面临的问题太多了。”

之前百度用了十万台服务器,这一次快手注定只多不少。

在定下了视频红包的方案后,快手须要的服务器数目更是暴增。任务量更大的同时,包能辉所能调用的人手大概只有百度对应事宜人手的十分之一。

与百度相比,包能辉团队惟一的优势就是多下来两个月的打算时间。

既然这么,那就抢鲜一步,开始战斗吧!

当众人还在等待方案细化的时侯,包能辉作为先锋官,已经踏上了建设基础设施的征程。

第一场:服务器伏击战

这是一场打算已久的战斗。在开始之前,包能辉须要先向内部争取预算。

在讨论产品方案的时侯,包能辉做了一份关于资源计算的报告,当他把最终算下来的价格领到众位核心高管面前的时侯,虽然你们当时没有说,但在以后的私下沟通中,每个人都认为太过庞大,负责财务的朋友更是急的跳脚。

基础设施建设的开支都是常年投入,快手的高速发展,需要的服务器数目每年都在翻倍,现在购置基础设施就是提早把之后须要的东西提早买了。财务朋友又对预算做了好多精细的估算,最终定下预算方案。

快手是辛运的。春节过后疫情的缘由,线上数据下降,服务器需求降低,春节项目积攒出来的服务器派上了用场。疫情期间买服务器很困难,不但厂家缺货,运输也是问题。

但是光有钱还不行,有钱人家也未必有货卖。

2019年Q3全省的服务器厂家的销售量是80多万台,快手须要拿下一个季度超过10%的产能, 服务器厂家对于这么多额外的需求,出现了不同程度的原料缺货。

也幸好快手这几年的高速发展与供应链的上游厂家构建了好多联系,和厂家一起协调全球供应链。SSD,内存,CPU,GPU这种上游配件厂家没少受快手的恐吓,各厂家帮忙从全球各地的调货,12月底前这批货相继汇集到快手的机房。

在做里面那些工作的同时,包能辉团队还得做机房建设,上万台服务器轮番到货的时侯,还得有机房等基础设施支持。

但是如今只有三个月时间,数据中心建设正常情况下都是以年为单位,临时搭建肯定来不及。包能辉采取了双手举措:

一是想方设法在快手现有机房上进行扩容,设法在有限的空间里容纳更多的设备;

二是让团队在上海找寻现成的机房,一时之间成都周边几乎所有适宜的数据中心都被她们跑遍。

也得亏快手这几年高速发展,拿下了不少数据中心,不过这种数据中心其实不是空地,很多都是半成品,没通电,没网路是普遍现象。为了推动建设速率,不仅是IDC供应商,他们前面施工队,市政电力,运营商,机电设备商 也承当了巨大的压力,大家一起加班加点建设采取各类形式保障建设的进度。像电力未及时就位,电机先上;设备未到位,布线先行 这些非常规的方法也被一一用上。

包能辉告诉左林右狸频道这儿有一点比较辛运,大家对于晚会的注重程度都是特别高的, 像三大运营商经历过百度的晚会活动,在配合快手的时侯也表现的相当高效,甚至会灵活调整一些规则流程——先办事,后补手续。

所有的人都非常希望,2020年的这个晚会,快手能顺顺利利给全省人民发红包。

除了自建的数据中心外, 快手在云上的业务需求量也很大。快手仍然以来是以混和云的模式进行运作,混合云平台与多家云厂家合作,并结合快手自有IDC使用。百度晚会直接使用百度云就可以,快手要扩容混和云平台,就要和多家云厂家对接,这代表的是N倍的工作量,对云厂家和快手朋友都有很大挑战。

虽然几家云厂家都出席过之前的晚会活动,但快手此次给出的需求量仍然吓到了她们。短时间快速将大量级资源接入混和云平台,几家云厂家之前没有操作过, 这里仅仅云机房和快手自有数据中心间的网路传输就须要扩容超过20倍,成本和工作量都是巨大的。

http://www.qianxianly.com/data/attachment/forum/20240512/1715508585574_0.jpg

从10月份到新年前的最后一刻,快手的朋友与多家云厂家持续协作,针对不同厂家的能力制订不同的方案,在双方的努力下,最终完成了混和云平台的扩容。

机房实拍

第二场:CDN歼灭战

2019年中国境内CDN,这一次快手直接夺得了四分之一左右。用包能辉自己的话说,他们基本上把市面上所有能用的CDN全都包圆了。

但是光买到CDN还不行,包能辉还必须要确认CDN厂家究竟有多大能力。举了个事例,有些地方两个厂家都告诉自己有10个T 的CDN,结果实际上两家加在一起才有10个T,两家运行的时侯都要找运营商。

为了保证质量,每一家CDN快手的资源团队就会去压测验证,做好收尾工作。

第三场:应用商店攻坚战

前一年的晚会红包,百度APP本身没有出哪些车祸,应用商店却由于CDN不足宕机,阻碍了更多用户参与活动。

在接到晚会红包任务后,作为百度云服务和CDN采购者,包能辉跟百度相关人员取经。

对方告诉他,其实百度之前也跟应用商店进行了沟通,但从百度最终结果来看,应用商店的技术人员并没有完全了解到百度的需求。这条经验总结对于只有一次机会的快手极为宝贵,包能辉立即行动上去。

在这一次快手与各家应用商店的沟通,包能辉要求技术和商务的朋友都要到位,该方向负责人连博抵达北京与OPPO、华为等厂家进行拜访,确保与具体负责该项目的技术人员沟通到位。

在这过程中,有些厂家此前被“打挂”这次表现积极,有些厂家还是没有意识到晚会流量的含意。某一线厂家技术人员开始并未出现,包能辉便通过其他渠道去督促其老大,后来该部门领导出面处理,态度有了很大的改观。为了确保春节昨晚的稳定,快手甚至帮助个别厂家改良应用商店构架,以及分出部份CDN提供协助。

然而人手不足,事务诸多,具体落实到每件事上,时间和人力还是捉襟见肘。

包能辉追忆的时侯苦笑道,一开始问题好多自己并不担心,但是到了12月问题还是不断冒下来,每次看晚报和周报的时侯,各个方向都是问题,自己也不免心中发毛,但也只能硬着头皮做下去。

在快手团队选择视频作为红包载体的一瞬间,包能辉的部门就注定要变身基建狂魔,他必须尽一切可能将网路公路扩宽再扩宽,因为在春节之夜,主持人口播的那十几秒钟,将会有上亿辆载着视频的重型货车在里面同时奔跑。

至于那些基础设施究竟结实不结实,能不能经受住流量洪峰的冲击,也只有这天夜里他能够得到最终答案。

时间很快就到了端午,东方卫视的后卫模拟考正式临近。

三、“即使断网,我们也要接着玩下去”

尽管上面早已模拟测试过几次,但是东方卫视元旦晚会此次小考还是切切实实的告诉快手团队,真正的战场和模拟完全是两码事。

为了保证在新年前客户端更新的覆盖量,快手客户端团队定下的封版时间是12月初,时间便变得异常迫切。

客户端负责人刘春雨告诉左林右狸频道:“公司之前以前出席过晚会的竞标,那次就挺期盼的,但最后没弄成,团队特别想参与此次非常重大的会战。”

刘春雨加入快手的时侯,整个公司还不到60人,入职后仍然负责客户端和测试团队。

他第一次晓得晚会红包这件事是在研制线技术核心的群里,当时听到消息,心里是既激动又高兴。早在2018年快手就以前参与过卫视晚会的竞标,但是最后没有成功,这件事让他情绪上颇具起伏。

客户端团队真正介入早已是11月初。

如果说系统运营部是扩宽公路,那刘春雨负责的就是改建运送视频的“货车”。

为了让它占用更少的空间,刘春雨对晚会快手的安装包进行了极至减肥,除了好多无用图片、文件被挑下来删掉,还有一些动态库里的文件、代码被置于了服务端。

手机测试

结果是,除夕昨晚的安卓端安装包被从84兆压缩到了67.8兆,ios端安装包被从177兆压缩到了156兆。

在数以千万计的下载量面前,安装包每缩小一点点,都可以为节约大量带宽,也就是节约大量用户下载时间。

从晚会拉新来说,安装包下载时间每节约1秒,都可以让更多的用户出席活动,也都会让更多新用户走入快手。

谈到客户端方向碰到的最大困局,刘春雨笑道,纯技术的难度可能不多,最大的困局就是仍然不能确定细节,虽然方案定了,但是好多细节仍然在调整,时间十分急迫。

对于后来的方案调整,刘春雨打了一个比方,“这就相当于一边开客机,一边换引擎。”

另一个难点就是,要做好流量降级的打算。

所谓流量降级,简单来说就是在服务端访问压力过大的情况下,客户端把一部分不那么重要的网路调用恳求暂时停掉。

要想区分出什么恳求是必要的,哪些恳求是可以停掉的,对那些恳求进行分级梳理就愈发重要。

首先是梳理启动过程中的关键恳求。

除夕昨晚红包正式分发,播报的那一刻流量抵达顶点,大量新老用户同时涌进快手APP,大家一打开快手,客户端必须发出的恳求就是最关键的恳求。

这些第一批次API启动过程中的恳求被分成P0、P1、P2三个等级,在遇见紧急情况的时侯,后台可以按降级方案进行处理。

第二步就是梳理步入个别功能后才能触发的恳求,这些就须要刘春雨团队去和各个业务方具体商量,确定什么可以暂停,哪些必须保留。

上面提及的这种流量降级方案,基本上都不会有太多外在表现,甚至抢红包的时侯,用户根本感知不到变化。

刘春雨还提及了一种极端严重的降级情况,即使所有服务器都挂了,春晚红包的游戏还是才能继续进行下去。

对于早已下载过快手的APP的用户来说,他们的APP里基本上早已缓存了视频,也还是可以看视频抢红包。

对于这些刚才下载,或者还没来得及缓存的快手用户来说,他们大几率会听到一张事先打算好的图片,但是抢红包还是可以继续进行。

按道理说,后备方案早已打算到了这些程度应当是不会出问题了吧,然而元旦晚会的预演说明了还有改良空间。

一个是对时,因为之前没有参与过这些活动,所以前期准备中,并没有意识到口播时间随时变化的重要性,一直到元旦晚会前一周,快手团队在参与与东方卫视年会排练演习的时侯,才发觉这个问题的挑战十分大,于是紧急组建了对时小组,保证了元旦晚会中没有出现破绽。

另一个就是现场组织的问题。韦彬后来告诉左林右狸频道:“如果你扔一条信息到公司大群里,几百个人都在上面,这种信息是无法看的,同步谁,谁反应,谁决策这种都是问题。”

经历了元旦晚会的演习,快手意识到,在年会进行的时侯,整个快手团队几百号人集聚在一个办公室里,从座次到汇报机制都必须进行设计。

在春节当日,快手制订了指挥官制度,在总指挥部的领导下,有三十多个指挥官可以临场决策,临场应变,以便不论哪儿出现问题都可以快速反应解决。

四、“捐助北京的功能,我须要一个决策”

李伟博跟左林右狸频道提及了技术研制版的墨菲定律,一个问题,如果你做了打算它就不会发生,但是假如你没做打算,它常常就刚好发生。

进入1月份之后,客户端发版完,各个部门又开始了提高可容性的工作,比如实现双机房容载,也就是说在两个化学机房中做了服务系统的容载,即使在春节昨晚真的有一个机房断电断网宕机,另一个机房也能保证活动不受影响。

前文提及的流量降级只是为了以防万一做的打算,真正减低服务器和CDN压力的还要靠另外两个重要方式:预加载和打散。

所谓预加载,简单来说,只要用户提早下载了快手APP,后端都会对晚会视频进行提早下载,当晚只须要接受讯号按量播放就可以了。

另一个就是打散。因为春节当夜的需求主要集中在口播的一瞬间,在那种全省统一的时刻,所有用户会一起涌向APP发布红包恳求,而这个峰值时间常常就是这么一秒或则几秒。

相比于之前各家互联网公司采用的摇一摇方式,快手视频点赞抢红包玩法的难度更大。用户摇一摇以后,客户端究竟有没有成功发送需求这是不一定的,即使失败了用户也会感觉是自己运气差,没有摇到红包。

但是视频点赞这些方式只有成功没有失败,无论如何,快手APP必须在这个时间里向服务端发起恳求。

从全国各地发送的红包恳求聚浪成峰,山呼海啸涌入服务器的时侯,快手要做的就是打散。

举个简单的反例,当红包恳求达到每秒2000万次的时侯,服务器都会承受巨大的压力,后台将这种恳求打散在10s中进行处理,用户感知不显著,但是服务器承受的压力都会降低十倍。

李伟博告诉左林右狸频道:“即使做了打散,即使做了预加载,即使做了降级,这些讨论我们全都做了,难度也还是很大。”

对于他来说,这件事最大的挑战在于没有办法验证,即使他可以做特别充分的挑战,但是机会只有一次,一旦出现任何超出预期的意外,这件事很可能就成了败局。

时间到了新年前几日,前后经历了五轮大规模全链路压测,以及无数轮大型压测,产品、设计、运维等各个团队的打算工作大多就绪,李伟博团队却还在为了调整各类细节赶工,直到大年二十八还在为陌陌分享进行调整。

到了大年二十九号那天夜里,功能都早已在今天上线,李伟博夜晚上班早已到了屋内。

也就是那天夜里,全国各地关于新型冠形病毒疫情的报导大量曝出,武汉形势渐趋艰辛,李伟博见到公司群里都在讨论这件事,虽然之前快手早已捐出1亿元,但是现今你们都在想晚会红包项目是不是也可以为疫情做点事情。

经过一番头脑风暴,商业化部门的技术负责人严强提出一个方案,如果用户在晚会拿到红包后选择舍弃提现,捐赠北京,快手就额外再多捐10%,这个方案获得了你们的一致认同。

但是当时时间早已到了晚上十一点多,也就是还有不到一小时就是年三十了,这个捐款功能还须要前前端的朋友开发上线,李伟博面临着巨大的压力。

http://www.qianxianly.com/data/attachment/forum/20240512/1715508585574_1.jpg

在这么急迫的时间里开发下来的功能有问题如何办,公司花费的巨额资金,前面三个月快手团队上下的打算将会面对一个如何的结果。

换一个角度说,在之前连续三个月的加班鏖战中,很多朋友都是食宿全在公司,集中开发的A1办公室里还摆着一排排的行军床,甚至有些团队成员还是带病鏖战的状态。而现今,很多人才刚才到家,准备洗脚休息,明天出席春节大战役。

李伟博不敢自己答应出来,他只能做了“有可能能做”的回复。

就在此时,万分苦恼的李伟博给负责支付前端和H5开发的朋友打去电话,让她们一起评估下这件事。

在打这个电话的时侯,李伟博心中甚至觉得,他们评定的结果一定会觉得风险较大,很可能建议不做。

然而出乎意料的是,这两位朋友都认为给上海募捐的功能十分有价值,都表示想要挑战一下。看到你们这个反应,李伟博联系了CTO陈定佳:“我须要一个决策。”然后,他就描述了这个议案。

这件事很快被快手最高层决策委通过,大概晚上十二点左右,李伟博坐上了赶赴快手总部的出租车,外面的温度接近零下十度,路上的灯光昏暗不定。在此之前,还有一个大年二十九的清晨,李伟博也是在快手渡过。那是2016年的春节前夜,他和宿华、陈定佳、王天舟等同学在公司熬夜定下了直播的基础构架方案,也就是那一年,快手直播崛起,直至成为世界上最大的直播公司。

这天晚上,大约凌晨1点左右,除了李伟博和他的研制同学们拿着笔记本赶回去了,快手法务团队、品牌团队、产品团队等全部到齐,所有人一起开始商量捐款活动的条例。

快手红包捐献杭州截图

这里解释一下为何会须要这么多团队协作,在中国做公益是须要资质的,要想将这件事做好,在一个合规合法的框架下做事十分重要。

凌晨2点许,方案细节商定完毕,李伟博团队立即复工,连夜开发测试。事实上整个大年三十她们都没有来得及体会节庆的喜庆,一直都处于紧张的开发状态。这件事真正竣工早已是晚会结束后的凌晨2点,而用户红包提现的预定时间是凌晨6点,这4个小时的时间差真的是被今天这些人生生抢下来的。

五、音视频领域的“梦之队”

在大年二十九那天接到紧急任务的还有音视频技术团队负责人于冰,春晚项目最后一轮的大转盘红包忽然新增了一条“为上海加油”的视频,这意味全中国所有快手APP上早已做好的短视频预加载都要调整。

视频红包预加载方案,就是把主持人口播时刻要播放的视频提早加载到用户的APP上,就像快递员提早把包裹放在你家附近的配送点,以便捷即时配送。这个解决方案,是帮助快手完成这个不可能完成任务的重要解题思路。

打一个不精准的比方,这就好比之前用了三个月时间在数以亿计的快手用户口袋里放了一把棋子,而如今要在三天的时间里将所有人口袋里的一颗棋子精准无误的换掉。

谈起这件事,于冰用非常平静的口吻告诉左林右狸频道:“其实还好”,顿了半晌,他又补充了一句,快手的音视频团队是“世界级的”。

早在2008年,刚刚离开谷歌创业的宿华就和于冰在视频技术上有过深入合作,后来2016年快手开始自研直播技术,宿华便力邀当时在英国著名视频网站任工程经理的于冰加入。

那时候,快手在音视频方面的力量还很薄弱,整个团队只有3个人,视频压缩的质量和码率都十分低,直播也是完全用的第三方方案。于冰加入以后,一边加紧搭建团队,一边做技术升级。

为什么说这个团队目前成长为世界级的呢?除了招募到了行业内最顶级的人才外,他们建立了直播、短视频的移动端到服务端基础技术平台。这个团队还有一个特征就是用数据驱动的形式做视频,自建了实时流媒体大数据监控系统,这很可能是国外惟一一套最完整的解决方案,领先业界起码一年。

于冰同样是最早晓得晚会红包项目的人之一,他当时还向市场品牌负责人建议采用点赞的玩法方式,原因是这样可以构建一种印象,微信的代表动作是摇一摇,而快手的代表动作就是点赞。

但视频红包的最终方案交到研制团队手里早已是11月初。音视频技术团队主要负责两个项目:一是晚会直播,另一个就是“忙时(主持人口播时刻)视频红包点赞”。

除夕昨晚,快手晚会直播间累计观看人次7.8亿,最高同时在线人数2524万,这是一个集聚全球各地听众的超大直播间。为了保障超高并发直播的稳定性和质量,直播技术团队负责人郭亮,带领一支三四十人的团队做了大量工作。这支团队实战经验丰富,曾负责今年十一国庆阅兵在快手的直播。

要保障晚会直播稳定性,信号源尤其重要。在信号源方面,主力源采用卫视官方讯号,备用源则进行了多路打算,既有卫星讯号、也有有线电视讯号,为此团队职工甚至在屋内架设了备用讯号采集设备,以备不时之需。

春晚作战区有一块被隔离带保护上去的工区,这里就是直播团队的播控作战室。各路讯号汇总到播控作战室,除夕当夜会有一个专门团队负责重点保障,来保证不论哪一路信号源发生故障时,快手直播都可以无缝切换到备播源。在直播分发方面,快手调集了全网的一线 CDN 资源,通过大数据精准调度和质量检测,保障用最高质量的直播流覆盖全省乃至世界各个角落。

快手音视频团队

具体开发“忙时红包点赞”活动的是陈彬,他是快手音视频团队短视频构架负责人。“忙时红包点赞”主要指的是视频红包方案中视频的播放和点赞体验(玩过快手晚会红包的邻里可以追忆一下)—— 央视主持人口播顿时,弹出一支视频播放,点击视频上的黑色爱心,画面中不停的冒出蓝色银币、福字、红心元素纹样等等。

快手的AI实验室Y-tech负责制做出高质量的视频动效,陈彬团队则负责把动效与视频播放、音效渲染结合上去,把互动疗效调到最佳。举个反例,在第一版下来以后,当时你们拿着体验页面点击蓝色爱心,发现爱心释放的光芒太多堵住了前面的内容,而且点击的时侯手机震动太强影响点赞体会。这时,陈彬团队就要跟产品设计团队一起,对这个疗效进行多次调试,以实现最佳体验。

春晚视频红包的预加载方案,执行的重头戏也在陈彬团队。

春晚昨晚的五轮视频红包玩法,每个用户手机上都须要播放5个几十秒的视频。在晚会的高并发时刻,是数亿人的手机同时播放视频。为保证视频流畅播放并节约带宽,陈彬团队在春节前以前先后近20次将红包视频预加载到快手APP。

时间回到大年二十九这天,团队接到了降低“武汉加油”视频的任务,陈彬此时十分清楚,调整视频并不是难事,现在最大的挑战是在更换视频以后,还要保证预加载的覆盖率。

距离晚会开始还有不到24小时,要在晚会开始前把“包裹”送到尽量多用户的APP里,这样就能增加高并发时刻的服务器宕机的风险并节约带宽。要想提升预加载的覆盖率,其中一个关键点就在于要将视频文件压缩到最小,当然前提是视频必须能清晰播放。

这时候就必须要提及一项黑科技——快手的智能视频压缩算法,操作流程大致分为两个步骤:先提高音质,后压缩大小。视频算法负责人郑云飞率领团队,拿到视频素材后,先通过基于深度神经网络的图象算法将视频缺陷部份,如模糊、偏色、噪声等修补好,有些算法不好处理问题还要人工自动调优,然后再用先进的视频编码算法对视频进行压缩,最终生成的视频分辨率只有一般压缩手段的三分之一。

上面提及的大数据监控系统这时也发挥了至关重要的作用。在视频下发过程中,团队可以通过这套监控系统实时观测预加载的情况,对于没下发成功的用户,后台便可以对其进行重试下发。

经过音视频团队的努力,在春节昨晚,预加载视频总算覆盖到了足够多的用户设备。

在晚会口播开始之前,接近98%的活跃用户手机中都早已预加载了抢红包须要播放的视频。春晚昨晚,红包互动次数达到破纪录的639亿,单分钟视频播放次数突破3亿,而带宽消耗远高于打算的CDN资源上限。

六、除夕之夜

从2019年国庆节以后开始,快手的研制部门像是一辆疾驰的赛车,不断加速,避开山体、避开行道树、避开两侧的峭壁和湖泊,在降低车祸的公路上,不断迫近极限,眼看着就要冲过终点,创造新的记录。

没有人想到,2020年春节前夕,中国这片土地上会出现一场这么严重的疫情。

对于晚会,我们一无所知,这句话又有了一个新的涵义。

大年三十晚上八点,春晚正式开始,整个快手总部办公楼区灯火通明,春晚红包团队全员到齐,没有一个人舍弃职守!

负责红包项目忙时部份的职工,工位集中迁往了A座的3层,273个工位上坐满了人。每个人都穿着黑色的衣服,戴着红色的口罩,胸前挂着工作证。除了北边的公证处办公室,所有的房间都摆满了大大小小的数据显示屏,进门的墙壁是“追求极至,唯快不破”八个红字。

春晚项目总指挥韦彬在座位上相当平淡,他刚才去和诸位指挥官打了招呼。按照韦彬对左林右狸频道的说法,三个月前他觉得团队里很多人只有50-60%的信心,而现今他能显著更觉到你们的信心涨到了90%以上。

伴随着春潮颂的歌声,2020年春节团拜夜晚即将开始,整个办公室内,所有人的眼神都集中到了屏幕前面。

除夕昨晚实时监控

其实韦彬也不知道主持人口播的精确时间,他只晓得由于疫情去年的晚会极其特殊,最后一次排练后还是做了好多的调整,这必然会导致现场的好多变化,所以现今快手上预计的发红包时间点是不固定的,必须得追随节目的进行及时的动态调整。

事实果然这样,本来确定的8点14分的口播被延后到了8点16分,第一个红包发布时间也跟随调整。时间一到,几乎是主持人口播开始的一瞬间,快手的各类数据一下子被迅速拉出一条崎岖的曲线。

在监控团队之前的努力下,快手所有的数据此刻都被实时显示在了各类监控屏幕里面,靠近指挥部附近的核心链路监控面板上数据快速变动。

这时候人群里忽然传出了声音“微信分享挂了”,声音很快传遍整个作战办公室,紧接着很多人都向办公室中间部位集中。

这里大家说的“微信分享挂了”指的是,原来用户在快手抢到红包之后,可以继续向陌陌分享获得更多红包,而如今分享以后只有一片空白。

然而,韦彬并不慌忙,这个异常情况团队早已事先考虑过。李伟博告诉左林右狸频道,他们之前跟陌陌做过沟通,他们预估的量远远超过了这个数字,所以她们之前早已做好了预案,万一陌陌分享量触达QPS阀值,他们将会一方面限流,一方面将部份H5分享转变成文字口令,这样用户就还是可以继续分享抢红包。

经受了第一轮红包的冲击,韦彬和大多数团队成员一样都早已心里有底,这一段的数据距离她们压力测试的上限还有一些空间,他们现今期待的早已不是系统稳定,而是希望更多的人步入快手出席活动,获得更好的成绩,红包参与人数在第三轮抵达了顶峰。

快手职工抢到金鱼红包

2020年快手在晚会的4小时外向全省人民发送红包10亿元,互动总数创纪录达639亿次,红包站外分享次数创纪录达5.9亿次。

在各类传统节庆越来越没有存在感的现代社会,春节可以算的上是惟一一个可以将全体中国人都调动上去的春节。一二线回到了三四线,北上广融入了三环外。

快手实在选择了一个好日子,它的价值观是普惠,而这个世界上没有一个春节比节日更普惠。

后来,左林右狸频道问了众人对晚会活动的体会和追忆,有人说“累”,有人说“极致”,有人谈谈“技术范”,也有人认为此次活动只能打B+,因为数据没有达到她们的最好预期。从客观上来讲,这次的晚会赶上了疫情,快手确实不走运。

但在谈起对活动打算过程中对团队战斗力和协作力印象的时侯,很多人都说超出预期,不约而同的用了一个词“惊喜”,挑战当前,英雄亮剑,整个队伍都跟随激奋上去,参与的每位人都饱含勇气与士气。

在快手红包提现页上线资助红包给北京的功能以后,脉脉的匿名区有其他互联网公司的职工发贴,他们说快手反应很快,这件事做得十分漂亮,下面有快手职工回帖,就是短短一句:“我就是参与这个开发的朋友”,字不多,但是每一个字都饱含了成就感。

宿华在快手的内部信中提过,快手以前的梦想是成就一款伟大的产品,而如今它更想成为一家伟大的公司。慢公司从来不是快手的选择,伟大才是。

通往伟大的公路没有捷径,没有必胜的绝招,春晚红包也不是哪些九阴真经。这支团队从来没指望靠着晚会一下子就显得伟大,他们只是想通过一场酣畅淋漓的战斗告诉所有人:我要奔跑,我也必须奔跑。

《沸腾新六年》旨在记录过去十年对产业产生发展有贡献的人和事,形成能穿越未来六年的商业认知,凝聚更多的创新变量参与到中国互联网的产业发展和商业改革中来。

互联网黑幕故事一网打尽,好看和有料兼备,一看就停不出来。这次和知乎合作专栏,预计更新 40 节。在过瘾的阅读体验中,看清这六年所有互联网大事件背后的真相。
页: [1]
查看完整版本: 春晚红包宕机史,这场战役将是一场挑战与重生