1. 首页>
  2. 腾讯云代理

搞定海量运维监控,腾讯织云用了三个技术创新项目

腾讯云 2018年01月16日 浏览1075

    腾讯云代理 腾讯云新闻 腾讯云代理 腾讯云直播申请 游戏上云

摘要: 聂鑫,腾讯运维总监。从开发到运维,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务运维工作。目前主要负责 QQ、空间等产品运维团队管理工作。经历多个业务产品的诞生到蓬勃,伴随着运维团队的成长和成熟,见证着腾讯一代代运营技术的创新和发展。作为运维界老兵有好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。 ​腾讯社交业务规模庞大,历史悠久,架构复杂。从运维的全局角度来看,无论从运维技术还是监控难度都很大。传统的监控手段和思想已经无法应对如此海量的场景,腾讯织云平台经历多年的迭代改进,在运维监控领域经过了多个建设阶段,通过技术创新,将运维监控技术提升到新的高度,解决了很多海量业务规模下的运维监控难题。

中心

作者介绍


夏鑫

聂鑫,腾讯运维总监。从开发到运维,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务运维工作。目前主要负责 QQ、空间等产品运维团队管理工作。经历多个业务产品的诞生到蓬勃,伴随着运维团队的成长和成熟,见证着腾讯一代代运营技术的创新和发展。作为运维界老兵有好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。

腾讯社交业务规模庞大,历史悠久,架构复杂。从运维的全局角度来看,无论从运维技术还是监控难度都很大。传统的监控手段和思想已经无法应对如此海量的场景,腾讯织云平台经历多年的迭代改进,在运维监控领域经过了多个建设阶段,通过技术创新,将运维监控技术提升到新的高度,解决了很多海量业务规模下的运维监控难题。


提及腾讯的海量监控的挑战,先抛些数据,我们有将近 20 套监控系统,指标有将近 300 多个,监控的实例超过 900 万,最可怕的是每天有近 5 万条短信告警,人均 500 条。2014年收告警最多的运维,一天能收 1500 条短信,收告警比较多的研发同学,每天也有 1200 条短信。甚至我们都调侃自己说,我们要靠手机震动的频率来判断事态的严重性


短信告警


在腾讯SNG的运维平台中,承载这些海量监控的平台是织云。从 06 年开始到 14 年,织云监控围绕着“快”,“准”,“全”,这三个目标不断迭代。首先要求监控面和告警点能够覆盖很全,能主动发现用户的各种犄角旮旯的异常,为此衍生了各种各样的监控手段,这就是为什么目前我们会有 20 套监控体系。其次我们希望告警非常快,一出问题马上发出来,同时希望告警准,误告警少。


织云

以至于最严重的时候有将近 5 万条告警,人均几百条,说明当前告警是不准的。能不能解决好这件事情?可能就成为了在监控领域运维的一种技术和一种艺术。后面分享的几个比较有意思的小创新,就是它融入了腾讯运维多年的实践经验和运营艺术。


版权限制,请阅读原文

相关文章