第52章 复盘会
张明杰道:“先不急吧,问题正在分析的呢,从目前已经分析出来的一些问题看,我们在数据同步,Redis使用,音视频的SdK上都存在严重的问题,功能上的web类的,App的体验类的也比较多,但是这些应该可以通过版本的快速迭代解决”
金伟忠道:“秦园,你怎么看,问题的列表我也看了一遍,按照道理,性能稳定性的问题,我们都压测过好几遍的,你们的压测报告我都看了,很多场景也覆盖测试了,但是实际情况比我们现象的差很多啊”
金伟忠就喜欢问,某某怎么看,搞的秦园有点尴尬,只道:“具体的根因还没有分析出来,但是从问题发生的场景上看,大部分我们是有压测过的”
朱权道:“那就有点不对啊,我们可以漏一两个,但是不能有这么多的崩溃啊”
张明杰道:“很多崩溃的原因是一样的,我也看了几个崩溃的bug分析,数组越界的发生五六次,内存泄漏的一批”
秦园道:“我刚才想了下,这个是不是压测的工具问题啊,我们的工具是自己造的,开发自己写程序,自己造测试工具,测试部用这工具来测,尤其是入会后进行一些操作,都是按照正常的逻辑操作,异常的比较少,当是在做工具的时候,我提了此建议,但是这些实现起来比较麻烦,都推到下一个工具版本了”
朱权道:“嗯,不错,是一个风险点,林美云你记下,后面董晓峰你在负责复盘下工具类的问题,我们要真实模拟客户的行为”
“好的”林美云在一边写着会议纪要。
金伟忠道:“明天我们在组织运维陈建志和中间件王俊复盘下这些问题,感觉很多是我们的用法不对,比如Redis,Rocketmq,这些业界很多公司在用,本次也竟然出现了服务器不可用的情况,应该是什么的使用方式不对,我们不能怀疑这个些组件本身的问题”
晚上20点的时候,测试部的同学,把问题都梳理了出来,过滤掉重复的问题,崩溃类的,21个bug,严重bug 51个,普通的bug 132个,优化建议需求类的208个,拿到这个问题列表,张明杰心中感觉在滴血,咱们这个版本也太挫了吧,然后就想到谢宁台那天晚上的醉话,难道我们的这个版本就是一坨大垃圾。
周天的时候,都在公司加班忙,晚上又更新了一个版本上去,把崩溃的问题解决了19个,严重的解决了20个,其他的问题就暂时不先不管了。
测试部也没有那么多的精力来验证,张明杰在Git系统上看版本的代码的提交记录,看了有点想吐血的感觉。
有主从服务器切换的时候,地址写错的,导致redis的选主失败;
有对前端传递过来的字符串,没有格式化处理的,导致服务崩溃;
对自定义的表情包,没有处理,导致显示乱码的;在细看原来是一直有处理,后面是测试部提的bug说法表情包太慢,程序员优化了一把,然后忘记把原来的代码合并进去,速度是快了,导致乱码产生了;
对网络中断引起的用户退出,又入会的,申请的内存不释放,导致内存泄漏的;
在回归测试阶段,修改了,相互不知道引起模块之间调用姿势不对的。
张明杰都想忍不住爆粗口,这代码质量果然一般,Java模块也是不少问题,全量处理,分批处理业务使用方法不对,造成的性能瓶颈很低,生产环境的的服务器内存调整的参数值不正确,也一堆问题。
谢宁台在Uqq上给张明杰发来信息:“怎么样,是不是和我预期的一样,你们稳住吧”
张明杰道:“你这是在说风凉话?”
谢宁台道:“我没有那么无聊吧,我只是清醒的认识自己”
“那你的意思,我们不能认识自己?”
“哈哈,你还好,其他人嘛,估计有点飘吧,以为V2.0版本上线,就天下无敌了,这次出了事故,你们也反省下,也挺好的”
张明杰:“...”
和预想的一样,周一上午的主管例会上,金伟忠和朱权都说了项目版本的质量问题,等到张明杰不知道说啥了,只好说道:“前面金伟忠和朱权都说了问题,项目组在周天晚上升级解决了一批,这周重点把崩溃和严重类的问题迭代解决掉”。
秦园在会议上说:“这些问题,我们在后面复盘解决下,当前看还有一些问题,是我们测试阶段没有测出来的”,秦园是低着头头,说话都不敢大声了。
出了这么多的问题,他肯定逃脱不了关系的,但是张明杰心里在想,这个肯定是很为难测试的同学了,版本开发质量不好,想让测试把版本测稳定,这个太难了,对测试部的要求太高了,至少现在的测试部达不到的这个层次,当然开发也达不到,或者说整个项目组的能力层次还没有那么强的。
果然祝山涛说了:“研发对于产品的质量要求要高,不能勉强发布版本,进度达到了,但是质量不好,我们又得返工,反而会消耗更多的时间精力”。
金伟忠默默的回道:“这个主要是我这边的问题,我这周针对这些问题,再复盘下,后面给个结论出来”
因为云直播在周六出现的事故情况,整个周一的例会,都很沉闷,不好的消息,大家也都不怎么说了,何必在这个时候,在惹老板生气呢?
当然自从上周六出现的事故以来,市场部的宣传就稍微缓了下,给研发一点时间修改问题,研发这周的任务就是分析问题,周五晚上在迭代版本解决,谢宁台倒是轻松了,对反馈出来优化建议,和需求的问题,就一个答复:“暂不修改,V2.1版本在解决,研发先解决性能和稳定性的问题”
周五的时候,bug基本修复了一大半,剩下的,都是不好修改的,或者本地也复现不出来的,按照项目的流程,审核完代码,晚上就准备迭代版本上线了。正好在周五下午的时候,就组织了一次,上线前的项目组的例会,大家都怕,如果迭代版本再出事,那就“芭比q”了。