百度集群操作系统Matrix

讲师: 

Matrix是国内业界第一个成功构建、并且大规模应用的基于轻量虚拟化技术的、可以实现机器共享的集群管理系统,是百度内部架构、业务平台的基石。类似的系统目前除了Google Borg/Omega外,在国内整个业界还没有成功案例。

目前Matrix已经托管了百度所有离线计算(包括代理计算)和分布式存储,以及搜索、广告系统、社区的大部分核心系统,目前规模超过30%的服务器。

在Matrix上已经实现了机器的全自动运维,以及大部分故障的无人介入处理。通过在/离线混布和优化代理计算,初期一年的成本收益已经达到5.175亿。预计2015年公司80%的服务器将由Matrix托管,随着业务的搬迁和重布局,后期将持续带来硬件/人力成本收益。

本次Talk旨在分享和交流构建Matrix的工程实践和经验,包括走过的一些弯路,以及在公有云大趋势下,类似系统发展趋势的思考。

百度基础架构部 资深软件工程师
微博: @毅LV

2007年加入百度,现任基础架构部集群操作系统方向资深架构师,负责构建并应用百度集群操作系统matrix.曾参与构建第一代运维平台,并主要负责监控系统及机器管理部分。