大规模数据处理实战 / Google一线工程师的大数据架构实战经验
蔡元楠
Google Brain资深工程师
 
  • 课程目录
  • 课程介绍
  • 开篇词 | 从这里开始,带你走上硅谷一线系统架构师之路

    我对这个专栏定义是“一份共同成长规划”,相信四个月后,你也能自己成功解决一系列数据处理的问题。

  • 01 | 为什么MapReduce会被硅谷一线公司淘汰?

    自2014年左右开始,Google内部已经几乎没人写新的MapReduce了,你知道这是为什么吗?

  • 02 | MapReduce后谁主沉浮:怎样设计下一代数据处理技术?

    十年前,如果是你在主持大规模数据处理技术的优化,你会怎么设计它,从而带领下一个十年的技术革新?

  • 03 | 大规模数据处理初体验:怎样实现大型电商热销榜?

    以大型电商热销榜为例,谈一谈从1万用户到1亿用户,技术思维需要怎样的转型升级?

  • 04 | 分布式系统(上):学会用服务等级协议SLA来评估你的系统

    定义好一个系统架构的SLA,对于一个优秀的架构师来说是必不可少的一项技能,也是一种基本素养。

  • 05 | 分布式系统(下):架构师不得不知的三大指标

    分布式系统的量化指标之间存在一定程度上的冲突,你要找到最适合自己系统的指标,适当做出取舍。

  • 06 | 如何区分批处理还是流处理?

    了解好数据的边界和时域,带你区分批处理和流处理。

  • 07 | Workflow设计模式:让你在大规模数据世界中君临天下

    事先设计工作流系统图,有助于我们理解处理模块之间是如何相互关联的,可以方便我们进行优化系统设计。

  • 08 | 发布/订阅模式:流处理架构中的瑞士军刀

    发布/订阅模式在大规模数据处理中十分流行,它能够很好地解耦系统中不同的组件,具有很好的伸缩性。

  • 09 | CAP定理:三选二,架构师必须学会的取舍

    作为大规模数据处理的架构师,我们应该熟知自己的系统到底应该保留CAP中的哪两项属性。

  • 10 | Lambda架构:Twitter亿级实时数据分析架构背后的倚天剑

    在学习到经典优秀架构之后,平时可以多多思考现有架构的瓶颈,也许你的想法能让现有的架构变得更好。

  • 11 | Kappa架构:利用Kafka锻造的屠龙刀

    Lambda和Kappa各自有着自身的优缺点,你需要按照实际情况权衡利弊,看看在业务中到底需要使用到哪种架构。

  • 12 | 我们为什么需要Spark?

    相较于MapReduce,Spark有什么优势?我们为什么会需要Spark呢?

  • 13 | 弹性分布式数据集:Spark大厦的地基(上)

    作为Spark的基本数据抽象,RDD相较于Hadoop/MapReduce的数据模型而言,各方面都有很大的提升。

  • 14 | 弹性分布式数据集:Spark大厦的地基(下)

    在了解了RDD的定义、特性、结构以及依赖关系后,今天让我们一起来继续学习RDD的其他特性。

  • FAQ第一期 | 学习大规模数据处理需要什么基础?

    针对留言中的一些典型问题做出答疑集锦,最终成为了今天你看到的“特别福利篇”。

  • 15 | Spark SQL:Spark数据查询的利器

    Spark SQL提供DataFrame和DataSet,它们既有RDD的特性,又拥有类似关系型数据库的结构化信息。

  • 16 | Spark Streaming:Spark的实时流计算API

    Spark中的流处理组件Spark Streaming具有RDD的所有优点:速度快,容错性好,支持高度并行计算。

若从Google对外发布“三驾马车”论文开始算的话,大数据相关的技术已经走过了近二十年。

MapReduce、Hadoop、Storm、Spark……这些名字你一定不会陌生。没错,它们都是用于处理大规模数据的技术。这还只是其中的一部分,我们可以继续往后列:Kafka、Google Cloud Dataflow、Flink、Beam…

日新月异的大规模数据处理技术给我们带来了巨大挑战。但真正困扰我们的,从来都不是能否紧随技术潮流,而是能否找到最高效的方式,真正解决业务遇到的实际问题。

回到业务场景里再来谈大数据,你可能会遇到这样的问题:

  • MapReduce很经典,可为什么会被硅谷一线公司淘汰?
  • 想要落地Spark,有哪些避坑经验可以提前掌握?
  • Google推崇的Apache Beam真的能够高效解决现有大数据处理场景的所有问题吗?

为此,我们邀请了蔡元楠来开设专栏,通过实战带你了解Google的大规模数据处理技术与应用。

蔡元楠,Google Brain资深工程师,工作领域为AI Healthcare(人工智能的健康医疗应用), 他领导并开发超大规模数据驱动的全新AI应用与商业模式。在加入Google之前,他分别于哥伦比亚大学和上海交通大学获计算机硕士和信息工程学士学位,并曾于哈佛医学院执行官项目学习。同时,他在Google还兼任C++语言评审以及AI 挑战赛评委会委员。

在这个专栏里,蔡元楠将与你分享Google的大数据处理前沿技术和思维。专栏内容侧重工程师的个人成长,崇尚硅谷式的技术领导力与批判性思维,作者会通过大量的硅谷最佳实践,从实际场景出发引导你进行独立思考,以帮助你从普通工程师成长为大规模数据处理技术专家。

专栏共40讲,分为6大模块。

模块一 直通硅谷大规模数据处理技术

这一模块从现有大规模数据处理技术中的问题入手,带你讨论新技术应有的特点和它可以解决的问题,并告诉你为什么会这样设计,最终用一个实战体验带你巩固顶层设计的知识。

模块二 实战学习大规模数据处理基本功

万丈高楼平地起,在上手应用技术之前,有些基础知识你还需要掌握透彻。这一模块将庖丁解牛硅谷应用实例来讲解分布式系统中的核心知识点、现有的数据处理模式和架构等,为你的后续学习打好必备基础。

模块三 抽丝剥茧剖析Apache Spark设计精髓

打好基础后,模块三的任务是深入拆解Apache Spark。通过实际案例,带你上手Spark这个围绕速度、易用性和复杂分析构建的大数据处理框架,同时引导你深入思考Spark的设计哲学。

模块四 Apache Beam为何能一统江湖

模块四的内容会重点讲述Apache Beam的应用场景、模型和运行流程,教会你为什么它是这么设计的?优点在哪里?怎么解决实际问题?

模块五 决战 Apache Beam 真实硅谷案例

破解“知易行难”的方法就是实战。模块五将先带你了解Beam独一无二的运行模型和应用示例,再用最实际的硅谷一线大厂案例来教会你使用Apache Beam,真正解决你工作中可能会遇到的问题。

模块六 大规模数据处理的挑战与未来

数据量不会停止增长,5G时代即将到来,未来的数据处理技术又会面临哪些机遇与挑战?大规模数据处理在深度学习领域又是如何应用的?这一模块跟你一起探讨。

unpreview

限时福利

你觉得怎么样?期待您评价: