1. 首页>
  2. 腾讯云代理

万台服务器一人挑的五大挑战

腾讯云 2018年03月07日 浏览864

    腾讯云代理 腾讯云新闻 腾讯云代理 腾讯云直播申请 游戏上云

摘要: SNG运营部组件运维团队主要负责SNG自研业务接入层和逻辑层的运营维护, SNG自研业务包括QQ、Qzone、看点、社交增值、企鹅电台、微云、腾讯课堂等,团队负责其中1.8万个域名、3000个业务模块的运维,在春节期间运维设备超过4万,单人运维设备超2万。我们在海量服务运维过程中面临哪些挑战呢?

欢迎关注腾讯系列公众号

张黎明


前言



SNG运营部组件运维团队主要负责SNG自研业务接入层和逻辑层的运营维护, SNG自研业务包括QQ、Qzone、看点、社交增值、企鹅电台、微云、腾讯课堂等,团队负责其中1.8万个域名、3000个业务模块的运维,在春节期间运维设备超过4万,单人运维设备超2万。我们在海量服务运维过程中面临哪些挑战呢?


五大挑战


挑战一:上万域名如何保证就近接入,如何应对运营商出口网络故障?


中国国土面积世界第三,横跨8个时区,有34个省、自治区、直辖市,腾讯IDC机房的分布主要是深圳、上海、和天津,那么问题来了:“江西离上海近还是离深圳近”,我们在招运维人员的时候是不是还得要求这个人上知天文下知地理才能做到就近接入?


不止如此,我们还有三大运营商和众多小运营商,问题变得更加复杂了,对于中国网络的现状,有人调侃过:“世界上最远的距离不是生与死,而是你在电信,我在联通”。我们在服务接入的时候还需要保证尽量不跨运营商,能够按照“国家+省份+运营商”的纬度进行调度。


挑战二:上万域名的https证书如何高效统一维护?


自动苹果颁布[**]TS安全规范之后,https支持就成为了腾讯域名接入的标准,团队负责1.8万个域名,这些域名的证书如何高效地申请、部署。大家也都知道,为了保证证书的安全性,域名证书都有有效期,我们证书的有效期一般是一年,如何没有任何遗漏地监控所有域名证书的有效期,建立稳定的证书过期的监控和续期机制,也是我们组件运维团队需要去保证的。


挑战三:服务器宕机如何保证业务无损和故障自愈?


当单人运维的服务器数量超过万台的时候,每天几台设备死机会成为常态,而且会在任何时间和任何地点发生,发生在你外出旅游时、发生在你和家人欢聚时,如果这些常态的单机故障会对运维人员的工作和生活造成影响,那么这个运维一定是干不长久的。如何保证单机故障无需运维人员介入干预,同时对现网服务无损;在设备故障之后,又是如何保证故障自动处理,在设备修复好之后服务流量自动恢复呢?


挑战四:如何维持现网服务的整齐划一,实现自动化能力?


自动化从来就不是运维侧单方能够搞定的,她是研发、运维和测试整个研发体系协同合作的结果,为了保证现网服务的整齐划一,运维在现网运营方面坚持了哪些原则,采用了哪些技术手段和管理方式,和研发、Q[**]做了哪些配合?


根据互联网服务上线容易下线难的特点,一个线上业务,研发周期也就几个月,但是在线上的运营时间往往有几年、生命力强的生生不息,会长期运营下去,即使是已经从战略纬度放弃的业务,也往往死而不僵,由此可见服务的可维护性对于业务的重要性。运维对研发侧的影响力和研发侧对线上程序可维护性的重视程序很大程度上决定了自动化这里的包袱有多重。


挑战五:如何有效应对大型活动事件几百模块、上万设备的快速缩扩容?


社交业务的节假日效应非常明显,往往大家happy的节假日就是运维的苦难日,特别是春节的零点高峰和红包活动,将用户的欢乐和运维的苦难推上了高潮。SNG运维团队在苦难中成长,在一年又一年的春节活动中积累经验,直到现在能够比较轻松应对这一切。刚刚过去的2018年春节和红包活动,2周内总计交付设备32000多台设备,组件运维团队在设备交付后不到一周内,扩容641次,涉及535个模块,15701台设备。我们是如何有效应对大型活动事件几百模块、上万设备的快速缩扩容的呢?


应对挑战


在4月份的GOPS全球运维大会,我将以组件运维团队的实战经验为基础,从下面三个方面阐述我们如何应对上述挑战,做到万台服务器一人挑:

  • 海量服务的基础架构

  • 运维实践中总结的几个原则

  • 支撑大型活动事件的实战技巧


 

相关文章