大规模数据处理实战

大规模数据处理实战 / 硅谷一线工程师的大数据架构实战经验

蔡元楠 硅谷资深工程师
  • 课程目录
  • 课程介绍
  • 在线阅读:开篇词 | 从这里开始,带你走上硅谷一线系统架构师之路

    我对这个专栏定义是“一份共同成长规划”,相信四个月后,你也能自己成功解决一系列数据处理的问题。

  • 01 | 为什么MapReduce会被硅谷一线公司淘汰?

    自2014年左右开始,Google内部已经几乎没人写新的MapReduce了,你知道这是为什么吗?

  • 02 | MapReduce后谁主沉浮:怎样设计下一代数据处理技术?

    十年前,如果是你在主持大规模数据处理技术的优化,你会怎么设计它,从而带领下一个十年的技术革新?

  • 03 | 大规模数据处理初体验:怎样实现大型电商热销榜?

    以大型电商热销榜为例,谈一谈从1万用户到1亿用户,技术思维需要怎样的转型升级?

  • 04 | 分布式系统(上):学会用服务等级协议SLA来评估你的系统

    定义好一个系统架构的SLA,对于一个优秀的架构师来说是必不可少的一项技能,也是一种基本素养。

  • 05 | 分布式系统(下):架构师不得不知的三大指标

    分布式系统的量化指标之间存在一定程度上的冲突,你要找到最适合自己系统的指标,适当做出取舍。

  • 06 | 如何区分批处理还是流处理?

    了解好数据的边界和时域,带你区分批处理和流处理。

  • 07 | Workflow设计模式:让你在大规模数据世界中君临天下

    事先设计工作流系统图,有助于我们理解处理模块之间是如何相互关联的,可以方便我们进行优化系统设计。

  • 08 | 发布/订阅模式:流处理架构中的瑞士军刀

    发布/订阅模式在大规模数据处理中十分流行,它能够很好地解耦系统中不同的组件,具有很好的伸缩性。

  • 09 | CAP定理:三选二,架构师必须学会的取舍

    作为大规模数据处理的架构师,我们应该熟知自己的系统到底应该保留CAP中的哪两项属性。

  • 10 | Lambda架构:Twitter亿级实时数据分析架构背后的倚天剑

    在学习到经典优秀架构之后,平时可以多多思考现有架构的瓶颈,也许你的想法能让现有的架构变得更好。

  • 11 | Kappa架构:利用Kafka锻造的屠龙刀

    Lambda和Kappa各自有着自身的优缺点,你需要按照实际情况权衡利弊,看看在业务中到底需要使用到哪种架构。

  • 12 | 我们为什么需要Spark?

    相较于MapReduce,Spark有什么优势?我们为什么会需要Spark呢?

  • 13 | 弹性分布式数据集:Spark大厦的地基(上)

    作为Spark的基本数据抽象,RDD相较于Hadoop/MapReduce的数据模型而言,各方面都有很大的提升。

  • 14 | 弹性分布式数据集:Spark大厦的地基(下)

    在了解了RDD的定义、特性、结构以及依赖关系后,今天让我们一起来继续学习RDD的其他特性。

  • 15 | Spark SQL:Spark数据查询的利器

    Spark SQL提供DataFrame和DataSet,它们既有RDD的特性,又拥有类似关系型数据库的结构化信息。

  • 16 | Spark Streaming:Spark的实时流计算API

    Spark中的流处理组件Spark Streaming具有RDD的所有优点:速度快,容错性好,支持高度并行计算。

  • 17 | Structured Streaming:如何用DataFrame API进行实时数据分析?

    Spark在2016年的2.0版本中推出的Structured Streaming是基于什么样的思想,又是如何应用的?

  • 18 | Word Count:从零开始运行你的第一个Spark应用

    纸上谈兵不可取,今天用一个小练习为你示范怎样解决统计词频的问题。

  • 19 | 综合案例实战:处理加州房屋信息,构建线性回归模型

    我们要如何使用Spark来处理加州房屋信息,并最终获得想要的数据呢?

  • 20 | 流处理案例实战:分析纽约市出租车载客信息

    今天的案例会用Structured Streaming处理纽约市出租车的载客信息,告诉司机哪个区域的小费给的最多。

  • 21 | 深入对比Spark与Flink:帮你系统设计两开花

    Spark和Flink都在某种程度上统一了批处理和流处理,那么它们都有哪些异同点呢?

  • 22 | Apache Beam的前世今生

    每一项技术诞生都是为了解决某些特定问题,那么Apache Beam的诞生是为了解决什么问题呢?

  • 23 | 站在Google的肩膀上学习Beam编程模型

    一起来学习Apache Beam的编程模型,为应对接下来的Beam实战篇打下良好的基础。

  • 24 | PCollection:为什么Beam要如此抽象封装数据?

    Beam的核心数据结构PCollection的设计思想是什么?PCollection又有哪些特性呢?

  • 25 | Transform:Beam数据转换操作的抽象方法

    通过几个简单例子了解Transform的概念和基本的使用方法,并学会怎样编写Transform的编程模型DoFn类。

  • 26 | Pipeline:Beam如何抽象多步骤的数据流水线?

    数据流水线是构建数据处理的基础,掌握了它,我们就可以根据自身的应用需求,构建出一套数据流水线来处理数据。

  • 27 | Pipeline I/O: Beam数据中转的设计模式

    Pipeline I/O是个重要的概念,让我们可以在Beam数据流水线上读取和输出数据集。

  • 28 | 如何设计创建好一个Beam Pipeline?

    在Beam中要怎样才能实现复制、过滤、分离、合并这四大经典设计模式呢?

  • 29 | 如何测试Beam Pipeline?

    我们要如何在Beam中写编写测试逻辑?编写过程中又需要注意些什么?

  • 30 | Apache Beam实战冲刺:Beam如何run everywhere?

    在实践中,你可以动态地选择数据处理流水线在何处运行。

  • 31 | WordCount Beam Pipeline实战

    如何用Beam的方法去解决数据处理领域经典的WordCount问题?

  • 32 | Beam Window:打通流处理的任督二脉

    同样是WordCount项目,如果输入数据是流动的,Beam要如何去处理?

  • 33 | 横看成岭侧成峰:再战Streaming WordCount

    将Beam窗口在流处理场景中的应用融会贯通后,类似的问题在你手中都能迎刃而解了。

  • 34 | Amazon热销榜Beam Pipeline实战

    亚马逊上的成交数据是海量的,我们要如何用Beam实现亚马逊商品的热销榜呢?

  • 35 | Facebook游戏实时流处理Beam Pipeline实战(上)

    在Facebook上的糖果传奇游戏风靡北美,你知道这款游戏的实时流处理是怎样实现的吗?

  • 36 | Facebook游戏实时流处理Beam Pipeline实战(下)

    让我们一起设计一个实时流处理的数据流水线,完成游戏积分排行榜吧。

  • 37 | 5G时代,如何处理超大规模物联网数据

    5G即将走入我们的生活,这也为物联网的实现提供了必须的基础。

  • 38 | 大规模数据处理在深度学习中如何应用?

    在“深度学习”中,大规模数据处理应该如何应用?

  • 39 | 从SQL到Streaming SQL:突破静态数据查询的次元

    Streaming SQL降低了开发人员实现流处理的难度,让流处理变得就像写SQL查询语句一样简单。

  • 40 | 大规模数据处理未来之路

    放心,放眼未来的几十年,大规模数据处理技术都依然炙手可热,不会被淘汰。

  • FAQ第一期 | 学习大规模数据处理需要什么基础?

    针对留言中的一些典型问题做出答疑集锦,最终成为了今天你看到的“特别福利篇”。

  • 加油站 | Practice makes perfect!

    从看到学,从学到用,从用到会,解决技术问题方法只有一个:Practice makes perfect!

  • FAQ第二期 | Spark案例实战答疑

    在Spark的实战文章中,有哪些问题一直困扰着你呢?

  • FAQ第三期 | Apache Beam基础答疑

    问题不会孤立地出现,模块四中其他人的提问与交流也许会对你有所帮助。

  • 结束语 | 世间所有的相遇,都是久别重逢

    专栏结束了,你有什么想与我说的吗?

46讲

你将获得


讲师介绍


课程介绍

Google是公认的大数据鼻祖。如今很多人提起大数据,还停留在 Google 开启的“三驾马车”时代:Google FS、MapReduce、BigTable。殊不知,“三驾马车”早已不是浪潮之巅。

对于大数据,我们面临的真正问题是,怎样在日新月异的大数据处理技术中“淘金”,找到最高效的方式解决实际问题。

课程通过介绍硅谷最前沿技术和真实的案例,带你剖析技术框架产生的原因和它们解决的问题,全面掌握大数据处理实战技能。


课程目录

unpreview


适合人群

  • 有编程经验,想了解大数据前沿技术趋势的程序员。

特别放送

免费领取福利



限时活动推荐


订阅须知

随机推荐

欧莱雅 男士洗面奶控油润泽去黑头推荐哪种好用?看完这篇评测就...

兰芝洗面奶新水酷透明质酸润洁颜膏150g评测结果好吗?深度评测剖...

胜莱特多层落地家用置物架用户口碑怎么样?深度爆料评测?

胜莱特多层落地家用置物架使用舒适度如何?新手小白评测报告?

胜莱特多层落地家用置物架评测值得入手吗?3分钟了解评测报告!

奶酪博士国产奶酪棒儿童高钙推荐哪款?图文评测,轻松了解!