大数据统计分析平台架构故事---TalkingData数据库架构变迁

讲师: 

在大数据统计分析平台里,数据库占据了举足轻重的地位。基于这些数据库,数据分析人员或者进行随机查询,或者进行大范围数据查询,或者进行多维交叉分析。传统的关系型数据库,越来越显得力不从心。近年在数据库技术领域,NoSQL DB雨后春笋大量涌现,例如基于内存的Redis,基于Hadoop的HBase、基于SSD的Aerospike等等,令人眼花缭乱。和传统的Oracle DB、MySQL相比,这些DB多半无法解决很宽场景的数据查询问题。如果要满足各种各样的业务需求,技术人员需要精心挑选这些数据库,并且将这些数据库高效、巧妙的组合起来使用。这对技术人员的要求非常高。

TalkingData作为国内最大的移动应用统计分析平台,在多年的发展之中,经历了三个阶段。三代架构演进过程中,我们研究、使用了大量开源、商业数据库。​从第一代架构只考虑数据库可靠性(Mysql Redis),到第二代考虑业务扩展性(TokuDB),到目前的第三代更多着眼于高性能,高并发,多维交叉的计算能力(OLAP+Vertica+LMDB)。通过将这些数据库的组合、协作,系统可以满足大数据环境下复杂、高速的数据查询、灵活的报表需求和基于数据挖掘的决策支持。

架构的变迁,不但支持了TalkingData内部系统的不断演进发展,而且积累下的技术转化成系统,提供给金融、电商、旅游、汽车等多种不同的行业企业使用,切实帮助企业在数据爆炸的年代更好的组织数据、计算数据、挖掘数据,让大数据真正落地,让数据体现巨大的商业价值。

TalkingData研发技术副总裁
微博: @TalkingNews

中科院硕士毕业,一直从事云存储、云计算开发及架构工作,专注于分布式存储、分布式计算、大数据分析等方向。

现任TalkingData技术副总裁,从事大数据计算平台工作,对分布式存储和分布式计算、VLDB、大数据分析等有深刻实践,主持研发实时流式OLAP计算框架,分布式索引,分布式查询系统。曾在中国电信、中国移动工作,主持开发中国移动12580项目等,关注高可靠、高可用、高扩展、高性能系统服务,以及Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术。