即学即用的Spark实战44讲

即学即用的Spark实战44讲 / 掌握大数据必备技术,挑战高薪职位

范东来 Spark Contributor
  • 课程目录
  • 课程介绍
  • 开篇词:学了就能用的 Spark?

  • 第01讲: MapReduce:计算框架和编程模型

  • 第02讲:Hadoop:集群的操作系统

  • 第03讲:如何设计与实现统一资源管理与调度系统

  • 第04讲:解析 Spark 数据处理与分析场景

  • 第05讲:如何选择 Spark 编程语言以及部署 Spark

  • 第06讲:Spark 抽象、架构与运行环境

  • 第07讲:Spark 核心数据结构:弹性分布式数据集 RDD

  • 第08讲:算子:如何构建你的数据管道?

  • 第09讲:函数式编程思想:你用什么声明,你在声明什么?

  • 第10讲:共享变量:如何在数据管道中使用中间结果?

  • 第11讲:计算框架的分布式实现:剖析 Spark Shuffle 原理

  • 第12讲:如何处理结构化数据:DataFrame 、Dataset和Spark SQL

  • 第13讲:如何使用用户自定义函数?

  • 第14讲:列式存储:针对查询场景的极致优化

  • 第15讲:如何对 Spark 进行全方位性能调优?

  • 第16讲:Tungsten 和 Hydrogen:Spark 性能提升与优化计划

  • 第17讲:实战:探索葡萄牙银行电话调查的结果

  • 第18讲:流处理:什么是流处理?以及你必须考虑的消息送达保证问题

  • 第19讲:批处理还是流处理:Spark Streaming 抽象、架构与使用方法

  • 第20讲:如何在生产环境中使用 Spark Streaming

  • 第21讲:统一批处理与流处理:Dataflow

  • 第22讲:新一代流式计算框架:Structured Streaming

  • 第23讲:如何对 Spark 流处理进行性能调优?

  • 第24讲:实战:如何对股票交易实时价格进行分析?

  • 第25讲: 什么是图:图模式,图相关技术与使用场景

  • 第26讲:数据并行:Spark 如何抽象图,如何切分图,如何处理图

  • 第27讲:像顶点一样思考:大规模并行图挖掘引擎 GraphX

  • 第28讲:Pregel 还是 MapReduce:一个有趣的算子 AggregateMessage

  • 第29讲:实战 1:用 GraphX 实现 PageRank 算法

  • 第30讲:实战 2:用 GraphX 求得顶点的 n 度邻居

  • 第31讲:机器学习是什么: 机器学习与机器学习工作流

  • 第32讲:标准化机器学习流程:ML pipeline

  • 第33讲:如何对数据进行预处理?

  • 第34讲:少数服从多数:随机森林分类器

  • 第35讲:物以类聚:Kmeans 聚类算法

  • 第36讲:推荐引擎:协同过滤

  • 第37讲:如何对模型性能进行评估并调优?

  • 第38讲:数据仓库与商业智能系统架构剖析

  • 第39讲:作为 Yelp 运营负责人,如何根据数据进行决策?

  • 第40讲:如何获取业务数据库的数据

  • 第41讲:如何构建数据立方体

  • 第42讲:如何通过 OLAP 与报表呈现结果

  • 第43讲:两个简化了的重要问题:数据更新和数据实时性

  • 第44讲:另一种并行:Lambda 架构与 Kappa 架构

  • 彩蛋:如何成为 Spark Contributor

  • 结束语:统一的编程模型,统一的编程语言,统一的架构

约500分钟

课程背景

专栏解读

除了前2个模块,后面的每个模块都将以理论与实践并重的讲述方式,突出 Spark 用于主流业务场景的必学内容,简洁实用,注重实践,降低学习门槛,让你学了就能用。

专栏最后将以一个完整实战项目结尾,带你用 Spark 完整体验一个商业智能系统的开发流程,串联和巩固所学知识。

7个模块针对不同类型读者,侧重点各有不同,然而不论你是数据工程师、数据架构师,还是数据分析师、数据爱好者,都可以从中得到自己所需。

课程讲师

范东来
Spark Contributor 和 Superset Contributor
泛山科技联合创始人
曾任知名大数据公司技术负责人、架构师,负责搭建整个公司的大数据架构和平台,主导和参与过国内诸多金融机构大数据项目与平台实施,具有丰富的大数据技术经验。此外,他还是《Spark 海量数据处理》与《Hadoop 海量数据处理》图书作者。

课程大纲

image

适合谁学

如果你:

1.想成为大数据工程师,需要根据业务需求开发离线计算的批处理应用,还有实时计算的流处理应用;
2.想成为大数据架构师,Spark 生态可以很好地满足公司不同层次的数据处理需求,如离线计算、实时处理、数据挖掘等;
3.是一名数据分析师,想用 Spark 提升工作效率;
4.是一名数据分析爱好者, Spark 对 SQL 支持很好,也可以尝试。

大数据时代的风口近在眼前,掌握 Spark 就能快人一步,希望你不要错过这个机会。

订阅须知

1. 本专栏共 44  讲,已全部更新;
2. 支持 视频+音频+图文 3 种阅读形式;
3. 购买后在拉勾 App-课程,可永久观看课程;
4. 视频课程为虚拟商品,一旦售出不可申请退款;
5. 本课程版权归拉勾所有,严禁翻录,违者必究;
6. 如有问题请咨询客服同学,召唤客服>>>

随机推荐

马骑顿儿童套装选购技巧有哪些?用户反馈评测结果!

ZMIQB818好用吗?独家揭秘评测?

ZMIQB818推荐哪款?使用感受!

创维55A3D可靠性如何?深度爆料评测!

小东北星厨水饺-馄饨性价比高吗?深度评测揭秘剖析?

康夫F9用户口碑怎么样?最真实的图文评测分享!