云计算与大数据,从技术选型说起

专题出品人: 
专题日期: 
星期六

过去的十几年,是互联网蓬勃发展的黄金时期,随着互联网日益深入的渗透到各行各业和人们的生活,各行各业相关的数据,与人们生活息息相关的各种数据,也逐渐迁移或进入到互联网,这是催生大数据和云计算的大背景...但随着移动互联网的兴起,其发展势头较之前十年更加迅猛和澎湃,可以想见,移动互联网产生和衍化出来的数据会更多更大,随之对大数据系统和云计算平台的挑战和机会也会更大,这是一个充满挑战和机遇的时代,大数据和云计算更是一个充满挑战和机遇的领域。

在过去的近十年里,因大数据和云计算的需求,涌现出了各种各样的大数据系统和平台,可以用百花齐放百家争鸣来形容,而新系统的涌现更是你方唱罢我登场,让人目不暇接,对绝大多数互联网公司而言,大数据系统只是其业务的底层支撑部分,他们更愿意关注自身业务,那么对这些大数据系统和云集算平台,他们该如何判别和遴选? 这就是我们本次主题的目标:如何做好大数据系统和云计算平台的选型。

互联网巨头在他们的成长与发展过程中都经历了用户量和数据量的暴增,业务快速转型,以及多次重构或技术重新选型,跌倒过,在摸索中前行,在这里会听到他们分享技术架构在发展过程中的成功经验和教训,如何持续的做好技术选型和架构设计。

而互联网的新创公司,这些初出茅庐的创业型公司,在前有BAT巨头,后有追赶者的压力下,如何杀出一条生存发展之路?在尽量低的投入前提下,借助成熟的开源工具和第三方服务,快速部署上线业务,并快速迭代应对瞬息万变的市场?

另外,一些传统IT或传统行业,相对于互联网公司,传统IT企业与传统行业的技术积累与研发力量相对薄弱,遗留的IT遗产或包袱更多,IT部门的决策权更薄弱,在推动技术变革过程中就显得更加谨慎,他们在选型时又有哪些不同的考量和权衡?

大数据平台和大数据分析相关的大数据应用在互联网、移动互联网行业里大红大紫,已经处在HYPE曲线的最高端,带来了巨额的经济效益和广泛的社会影响力。

中国同时也是一个经济大国,除了互联网行业以外还有海量的实体行业。经过三十年来信息化建设,特别是近几年以来的大数据基础设施建设,众多的实体行业普遍开始了海量数据的积累过程,并且取得了丰硕的成果。这些为各个行业参与数据经济、推广数据智能、实现数据价值提供了基础。

英特尔中国研究院配合英特尔中国行业市场部门、帮助创新企业推广实体数据数据分析应用,取得了一些成绩,但是也发现了一些问题:

1. 数据局部、不全面。实体行业受限于数据采集的地域限制和技术手段,采集的数据往往不能反应事实的全貌

2. 数据融合的需求。数据的局部特性需要多个数据源融合才能支持有限的数据分析

3. 数据安全和数据隐私保护。采集的数据包含企业运作的所有机密,同时也包含合作伙伴和客户的隐私数据,不能在创新数据分析应用的同时丧失数据安全和数据隐私

4. 数据分析能力缺乏。数据分析应用的开发能力是前沿技术,实体行业和实体行业外包的IT集成商通常缺乏。同时数据分析应用需要根据业务和市场变化不停演进。

本主题抛砖引玉,给大家提供一些解决上述问题的架构思路和方案探索,供大家探讨,并时刻欢迎合作。

 

Matrix是国内业界第一个成功构建、并且大规模应用的基于轻量虚拟化技术的、可以实现机器共享的集群管理系统,是百度内部架构、业务平台的基石。类似的系统目前除了Google Borg/Omega外,在国内整个业界还没有成功案例。

目前Matrix已经托管了百度所有离线计算(包括代理计算)和分布式存储,以及搜索、广告系统、社区的大部分核心系统,目前规模超过30%的服务器。

在Matrix上已经实现了机器的全自动运维,以及大部分故障的无人介入处理。通过在/离线混布和优化代理计算,初期一年的成本收益已经达到5.175亿。预计2015年公司80%的服务器将由Matrix托管,随着业务的搬迁和重布局,后期将持续带来硬件/人力成本收益。

本次Talk旨在分享和交流构建Matrix的工程实践和经验,包括走过的一些弯路,以及在公有云大趋势下,类似系统发展趋势的思考。

1. Micloud 业务及其特点

2. 最初的架构

2.1 挑战

2.2 各自为战带来的成本

2.3 架构带来的无力感

3. 变革与统一

3.1 重新思考

3.2 为什么使用这些技术

3.3 新架构

4. 应对未来

4.1 未来的挑战

4.2 正在被实现的梦想

腾讯广点通承接了每天200多亿的广告流量,算法模型训练对数据的准确性、实时性和完整性都提出了很高的要求。

我们利用HBase+Storm构建了广告日志实时处理平台,解决了实时数据回流和统计的问题。 这次主要分享的内容有:

  1. 如何通过HBase实现数据流实时关联
  2. 如何保证重要的计费数据不重不丢
  3. HBase实战经验,优化负载均衡、读写缓存、批量读写等性能问题

随着大数据在业务中不断深入的应用以及业务的高速增长,传统""T+1""模式的离线处理方案在时效性等方面的弊端不断被放大,业务对实时数据处理的需求不断增强,本专题将针对该问题分享一套基于实时数据流的大数据处理解决方案。

其中将通过实际场景探讨如下等话题:

  1. 如何解决线上应用数据到数据平台的秒级数据采集实现,
  2. 实时数据流如何同时服务于实时计算及离线计算,
  3. 如何快速完成实时数据处理结果与线上系统的对接。

截至2014年1月,豌豆荚的用户数已经突破了3亿,Redis作为高效的缓存和数据结构服务器,已经成为很多公司的基本组件,本次同大家一起探讨豌豆荚在Redis使用上有哪些考量?经历过哪些痛苦?以及使用了哪些临时的解决方案?为什么决定最终自己开发分布式的Redis,如何做技术选型?如何实现业务无感知的动态扩容,缩容,数据迁移?实际使用情况,经验。

主要内容是关于音乐雷达在音乐传播这块所监测到的一些独特的数据 以及基于ANN在建的模型以及一些预测其中涉及到多元异构结构化数据的脱敏访问、遗产数据的继承问题、音乐传播数据在预处理方面的特殊性以及结合中移动彩铃订购、艺人出场费为落地数据,在建模期间的一些心得体会。

另一部分是我们最近展开的音乐推荐的尝试,基于用户行动数据(心跳、加速度、GPS位置)进行基于时间、空间、用户状态的音乐推荐。

在大数据统计分析平台里,数据库占据了举足轻重的地位。基于这些数据库,数据分析人员或者进行随机查询,或者进行大范围数据查询,或者进行多维交叉分析。传统的关系型数据库,越来越显得力不从心。近年在数据库技术领域,NoSQL DB雨后春笋大量涌现,例如基于内存的Redis,基于Hadoop的HBase、基于SSD的Aerospike等等,令人眼花缭乱。和传统的Oracle DB、MySQL相比,这些DB多半无法解决很宽场景的数据查询问题。如果要满足各种各样的业务需求,技术人员需要精心挑选这些数据库,并且将这些数据库高效、巧妙的组合起来使用。这对技术人员的要求非常高。

TalkingData作为国内最大的移动应用统计分析平台,在多年的发展之中,经历了三个阶段。三代架构演进过程中,我们研究、使用了大量开源、商业数据库。​从第一代架构只考虑数据库可靠性(Mysql Redis),到第二代考虑业务扩展性(TokuDB),到目前的第三代更多着眼于高性能,高并发,多维交叉的计算能力(OLAP+Vertica+LMDB)。通过将这些数据库的组合、协作,系统可以满足大数据环境下复杂、高速的数据查询、灵活的报表需求和基于数据挖掘的决策支持。

架构的变迁,不但支持了TalkingData内部系统的不断演进发展,而且积累下的技术转化成系统,提供给金融、电商、旅游、汽车等多种不同的行业企业使用,切实帮助企业在数据爆炸的年代更好的组织数据、计算数据、挖掘数据,让大数据真正落地,让数据体现巨大的商业价值。