大规模数据处理实战 / Google一线工程师的大数据架构实战经验
蔡元楠
Google Brain资深工程师
 
  • 课程目录
  • 课程介绍
  • 开篇词 | 从这里开始,带你走上硅谷一线系统架构师之路

    我对这个专栏定义是“一份共同成长规划”,相信四个月后,你也能自己成功解决一系列数据处理的问题。

  • 01 | 为什么MapReduce会被硅谷一线公司淘汰?

    自2014年左右开始,Google内部已经几乎没人写新的MapReduce了,你知道这是为什么吗?

  • 02 | MapReduce后谁主沉浮:怎样设计下一代数据处理技术?

    十年前,如果是你在主持大规模数据处理技术的优化,你会怎么设计它,从而带领下一个十年的技术革新?

  • 03 | 大规模数据处理初体验:怎样实现大型电商热销榜?

    以大型电商热销榜为例,谈一谈从1万用户到1亿用户,技术思维需要怎样的转型升级?

  • 04 | 分布式系统(上):学会用服务等级协议SLA来评估你的系统

    定义好一个系统架构的SLA,对于一个优秀的架构师来说是必不可少的一项技能,也是一种基本素养。

  • 05 | 分布式系统(下):架构师不得不知的三大指标

    分布式系统的量化指标之间存在一定程度上的冲突,你要找到最适合自己系统的指标,适当做出取舍。

  • 06 | 如何区分批处理还是流处理?

    了解好数据的边界和时域,带你区分批处理和流处理。

  • 07 | Workflow设计模式:让你在大规模数据世界中君临天下

    事先设计工作流系统图,有助于我们理解处理模块之间是如何相互关联的,可以方便我们进行优化系统设计。

  • 08 | 发布/订阅模式:流处理架构中的瑞士军刀

    发布/订阅模式在大规模数据处理中十分流行,它能够很好地解耦系统中不同的组件,具有很好的伸缩性。

  • 09 | CAP定理:三选二,架构师必须学会的取舍

    作为大规模数据处理的架构师,我们应该熟知自己的系统到底应该保留CAP中的哪两项属性。

  • 10 | Lambda架构:Twitter亿级实时数据分析架构背后的倚天剑

    在学习到经典优秀架构之后,平时可以多多思考现有架构的瓶颈,也许你的想法能让现有的架构变得更好。

  • 11 | Kappa架构:利用Kafka锻造的屠龙刀

    Lambda和Kappa各自有着自身的优缺点,你需要按照实际情况权衡利弊,看看在业务中到底需要使用到哪种架构。

  • 12 | 我们为什么需要Spark?

    相较于MapReduce,Spark有什么优势?我们为什么会需要Spark呢?

  • 13 | 弹性分布式数据集:Spark大厦的地基(上)

    作为Spark的基本数据抽象,RDD相较于Hadoop/MapReduce的数据模型而言,各方面都有很大的提升。

  • 14 | 弹性分布式数据集:Spark大厦的地基(下)

    在了解了RDD的定义、特性、结构以及依赖关系后,今天让我们一起来继续学习RDD的其他特性。

  • FAQ第一期 | 学习大规模数据处理需要什么基础?

    针对留言中的一些典型问题做出答疑集锦,最终成为了今天你看到的“特别福利篇”。

  • 15 | Spark SQL:Spark数据查询的利器

    Spark SQL提供DataFrame和DataSet,它们既有RDD的特性,又拥有类似关系型数据库的结构化信息。

  • 16 | Spark Streaming:Spark的实时流计算API

    Spark中的流处理组件Spark Streaming具有RDD的所有优点:速度快,容错性好,支持高度并行计算。

  • 17 | Structured Streaming:如何用DataFrame API进行实时数据分析?

    Spark在2016年的2.0版本中推出的Structured Streaming是基于什么样的思想,又是如何应用的?

  • 18 | Word Count:从零开始运行你的第一个Spark应用

    纸上谈兵不可取,今天用一个小练习为你示范怎样解决统计词频的问题。

  • 19 | 综合案例实战:处理加州房屋信息,构建线性回归模型

    我们要如何使用Spark来处理加州房屋信息,并最终获得想要的数据呢?

  • 20 | 流处理案例实战:分析纽约市出租车载客信息

    今天的案例会用Structured Streaming处理纽约市出租车的载客信息,告诉司机哪个区域的小费给的最多。

  • 21 | 深入对比Spark与Flink:帮你系统设计两开花

    Spark和Flink都在某种程度上统一了批处理和流处理,那么它们都有哪些异同点呢?

  • 加油站 | Practice makes perfect!

    从看到学,从学到用,从用到会,解决技术问题方法只有一个:Practice makes perfect!

  • 22 | Apache Beam的前世今生

    每一项技术诞生都是为了解决某些特定问题,那么Apache Beam的诞生是为了解决什么问题呢?

  • 23 | 站在Google的肩膀上学习Beam编程模型

    一起来学习Apache Beam的编程模型,为应对接下来的Beam实战篇打下良好的基础。

  • FAQ第二期 | Spark案例实战答疑

    在Spark的实战文章中,有哪些问题一直困扰着你呢?

  • 24 | PCollection:为什么Beam要如此抽象封装数据?

    Beam的核心数据结构PCollection的设计思想是什么?PCollection又有哪些特性呢?

  • 25 | Transform:Beam数据转换操作的抽象方法

    通过几个简单例子了解Transform的概念和基本的使用方法,并学会怎样编写Transform的编程模型DoFn类。

  • 26 | Pipeline:Beam如何抽象多步骤的数据流水线?

    数据流水线是构建数据处理的基础,掌握了它,我们就可以根据自身的应用需求,构建出一套数据流水线来处理数据。

  • 27 | Pipeline I/O: Beam数据中转的设计模式

    Pipeline I/O是个重要的概念,让我们可以在Beam数据流水线上读取和输出数据集。

  • 28 | 如何设计创建好一个Beam Pipeline?

    在Beam中要怎样才能实现复制、过滤、分离、合并这四大经典设计模式呢?

  • 29 | 如何测试Beam Pipeline?

    我们要如何在Beam中写编写测试逻辑?编写过程中又需要注意些什么?

  • 30 | Apache Beam实战冲刺:Beam如何run everywhere?

    在实践中,你可以动态地选择数据处理流水线在何处运行。

  • FAQ第三期 | Apache Beam基础答疑

    问题不会孤立地出现,模块四中其他人的提问与交流也许会对你有所帮助。

  • 31 | WordCount Beam Pipeline实战

    如何用Beam的方法去解决数据处理领域经典的WordCount问题?

  • 32 | Beam Window:打通流处理的任督二脉

    同样是WordCount项目,如果输入数据是流动的,Beam要如何去处理?

  • 33 | 横看成岭侧成峰:再战Streaming WordCount

    将Beam窗口在流处理场景中的应用融会贯通后,类似的问题在你手中都能迎刃而解了。

  • 34 | Amazon热销榜Beam Pipeline实战

    亚马逊上的成交数据是海量的,我们要如何用Beam实现亚马逊商品的热销榜呢?

Google是公认的大数据鼻祖。如今很多人提起大数据,还停留在 Google 开启的“三驾马车”时代:Google FS、MapReduce、BigTable。殊不知,“三驾马车”早已不是浪潮之巅。

对于大数据,我们面临的真正问题是,怎样在日新月异的大数据处理技术中“淘金”,找到最高效的方式解决实际问题。

课程着重传播Google工程师精神,通过介绍硅谷最前沿技术和真实的案例,带你剖析技术框架产生的原因和它们解决的问题,全面掌握大数据处理实战技能。

课程亮点

  • 循序渐进:从大数据技术的基础概念到进阶使用。
  • 实战演练:引入真实案例,带你了解大数据处理。
  • 前沿技术:硅谷最前沿技术Apache Beam的应用。

作者简介

蔡元楠,Google Brain资深工程师,工作领域为AI Healthcare(人工智能的健康医疗应用),领导并开发超大规模数据驱动的全新AI应用与商业模式。

在加入Google之前,分别于哥伦比亚大学和上海交通大学获计算机硕士和信息工程学士学位,并曾于哈佛医学院执行官项目学习。同时,在Google兼任C++语言评审以及AI挑战赛评委会委员。

你将获得

1.大规模数据处理核心知识剖析 2.深入浅出详解Apache Spark 3.掌握Google前沿技术Apache Beam 4.完整高效的大数据学习路径

unpreview

限时福利

你觉得怎么样?期待您评价: