SparkSQL极速入门 整合Kudu实现广告业务数据分析 / 大数据离线处理核心技术 初中级大数据工程师工作提升利器
Michael_PK

 八年互联网公司一线研发经验,担任大数据架构师。主要从事基于Spark/Flink为核心打造的大数据公有云、私有云数据平台产品的研发。改造过Hadoop、Spark等框架的源码为云平台提供更高的执行性能。集群规模过万,有丰富的大数据项目实战经验以及授课经验(授课数千小时,深受学员好评)。 

 
  • 课程目录
  • 课程介绍
  • 1-1 课程导学

  • 1-2 ***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南)

  • 2-1 课程目录

  • 2-2 MapReduce的槽点

  • 2-3 Spark特性详解

  • 2-4 Spark Stack

  • 2-5 OOTB环境的使用

  • 2-6 JDK部署

  • 2-7 Maven部署

  • 2-8 IDEA部署

  • 2-9 HDFS部署

  • 2-10 YARN部署

  • 2-11 Hive部署

  • 2-12 Spark运行模式

  • 2-13 使用IDEA和Maven开发第一个Spark应用程序

  • 2-14 词频统计按照单词出现次数的降序排列

  • 2-15 local模式下spark-shell的使用

  • 2-16 local模式下使用spark-submit提交Spark应用程序

  • 2-17 YARN模式下提交Spark应用程序

  • 2-18 Standalone模式下提交Spark应用程序

  • 2-19 Hadoop和Spark生态圈对比

  • 2-20 Hadoop与Spark对比

  • 2-21 Spark和Hadoop的相互协作

  • 3-1 课程目录

  • 3-2 为什么需要SQL

  • 3-3 SQL on Hadoop

  • 3-4 详解Spark SQL是什么以及常见误区解读

  • 3-5 Spark SQL概述

  • 3-6 为什么要学习Spark SQL

  • 3-7 Spark SQL架构

  • 3-8 spark-shell使用详解

  • 3-9 spark-sql使用详解并结合讲解Catalyst的执行过程

  • 3-10 spark-shell启动流程分析之uname以及case匹配的使用

  • 3-11 spark-shell启动流程分析之dirname和if的使用

  • 3-12 spark-shell启动流程分析之传递参数详解

  • 3-13 spark-shell启动流程分析之spark-submit

  • 3-14 spark-sql启动流程分析

  • 4-1 课程目录

  • 4-2 认知SparkSession

  • 4-3 了解SQLContext

  • 4-4 认识DataFrame

  • 4-5 DataFrame API基本使用

  • 4-6 DataFrame中前N条的取值方式

  • 4-7 通过实战案例学习DataFrame常用API

  • 4-8 Dataset概述及操作

  • 4-9 DataFrame vs Dataset

  • 4-10 Interoperating with RDD概述

  • 4-11 实现方式一

  • 4-12 实现方式二

  • 5-1 课程目录

  • 5-2 Data Source概述

  • 5-3 text数据源读写案例

  • 5-4 SaveMode的使用详解

  • 5-5 json数据源案例

  • 5-6 Data Source API标准写法

  • 5-7 Parquet数据源案例

  • 5-8 Data Source格式转换

  • 5-9 jdbc数据源案例

  • 5-10 通过统一配置参数管理工程中使用到的参数

  • 6-1 课程目录

  • 6-2 Spark对接Hive的原理及实操

  • 6-3 thriftserver&beeline的使用

  • 6-4 使用代码连接Server

  • 6-5 Server模式vs例行作业模式(思考题)

  • 6-6 hive数据源案例

  • 6-7 Spark SQL内置函数实战

  • 6-8 Spark SQL自定义UDF实战

  • 7-1 课程目录

  • 7-2 kudu概述&核心概念&架构

  • 7-3 kudu部署

  • 7-4 API操作之创建表

  • 7-5 API操作之插入数据&删除表&数据查询

  • 7-6 API操作之修改表数据及表名

  • 7-7 Spark整合Kudu的读写操作

  • 8-1 课程目录

  • 8-2 广告业务背景

  • 8-3 项目需求

  • 8-4 项目架构及数据处理流程

  • 8-5 日志字段说明

  • 8-6 需求一之IP规则库解析

  • 8-7 需求一之使用API编程完成日志ip字段解析

  • 8-8 需求一之使用SQL方式完成日志ip字段解析

  • 8-9 需求一之ODS数据落地到Kudu

  • 8-10 需求一之落地到Kudu表重构

  • 8-11 需求二功能实现

  • 8-12 需求一二代码结构大重构

  • 9-1 课程目录

  • 9-2 需求三之第一阶段统计功能实现

  • 9-3 需求三之第二阶段统计功能实现

  • 9-4 需求三之统计结果落地到Kudu

  • 9-5 需求四功能实现

  • 9-6 通过参数传递到Spark作业重构代码并打包

  • 9-7 将项目运行在服务器上

  • 9-8 定时调度提交Spark作业到服务器运行

  • 9-9 本章节小结

  • 10-1 课程目录

  • 10-2 调优之资源设置

  • 10-3 广播变量在Spark中的使用一

  • 10-4 广播变量在Spark中是使用二

  • 10-5 广播变量思考题(重要)

  • 10-6 Shuffle调优

  • 10-7 Spark与GC相关概念理解

  • 10-8 JVM GC引起的问题调优

  • 10-9 其他调优

  • 11-1 课程目录

  • 11-2 Presto是什么&能做什么&谁在使用它

  • 11-3 Presto架构

  • 11-4 Presto部署

  • 11-5 整合MySQL Connector

  • 11-6 整合Hive Connector

  • 11-7 Presto整合多个Connector操作

  • 11-8 Presto API操作

五大知识板块 掌握大数据处理技术Spark SQL

每个大数据工程师都不应错过的必备大数据开发技能

Spark SQL快速入门

SQL on Hadoop Spark SQL概述、架构、常见误区 spark-shell/spark-sql启动流程分析

Spark SQL API编程

SparkSession & SQLContext DataSet & DataFrame API DataFrame & DataSet 与RDD的互操作

Data Source API

Data Source API处理text/JSON/ Parquet/JDBC数据 SaveMode的正确选择 配置参数统一管理

整合Hive操作及函数

Spark整合Hive的数据操作 ThriftServer的使用 Spark SQL内置函数&自定义函数实战

Kudu

Kudu概述、核心概念、架构及部署 Kudu API操作 Spark Data Source API 读写Kudu数据

广告业务项目实战 从构建到优化一“战”搞定

经典广告业务项目 高匹配度的功能与问题 带你更好的理解SparkSQL

项目做完回头看 学学大牛如何调优与思考

学习技术受用一时 领悟思想受用一生

Spark调优策略

合理设置资源 广播变量带来的好处 Shuffle调优 Spark与GC相关概念理解 JVM GC引起的相关问题调优

Presto

Presto概述、架构 Presto部署 Presto API操作 综合案例实战

关于大数据云平台建设

大数据云平台建设涉及哪些功能 产品化设计思路 元数据在大数据平台中的设计思路 Spark VS Flink

这是一门Spark SQL课程 也是一门Spark工程师进阶课程

夯实基础与应用 熟练掌握SparkSQL

对Spark SQL重新认识

对Spark的使用

Spark SQL对接TEXT、JSON等内置Data Source API的使用

spark-shell/spark-sql/spark-submit的基本使用

Spark SQL API编程的基本API使用

项目需求的功能实现

基于本地的开发和测试

基于Spark SQL进行大数据离线处理

基本的统计分析

基础之上再进阶 冲击Spark中高级工程师

Spark SQL对接TEXT、JSON等内置Data SourceAPI的使用

结合Kudu达到更好更快的性能 / Presto框架的使用

对接Kudu的Data Source API使用

详细拆解开脚本讲解的启动流程

基于业务需求定制开发自己的UDF函数

通过“死去活来法” 进行参数的灵活配置及读取 讲解基于已实现功能如何逐步优化使得性能更佳 项目多轮重构,使得项目架构层级更清晰

通过设计 ,以传递最少参数在服务器上运行

讲解构建大数据云平台中涉及到的方方面面

面向复杂的统计分析时,进行复杂业务功能的拆解思路

学员专享增值服务

学习社群

课程专属学习交流群,与优秀的人共同进步:互相帮助,共同分享。

课程源代码

免费提供课程源码,课程源码保持长期更新维护。

专题讨论

不定期组织技术话题讨论与群直播,疑难问题/热点技术/职业规划/高效学习等热点观点等你参与。

问答社区

遇到困难随时提问,讲师亲自答疑解惑

适合人群

具备相关技术储备,想快速提升Spark技能以及想转行投身 大数据行业的小伙伴

技术储备要求

熟悉Linux常用操作 / 熟悉SQL基本使用 了解Hadoop基础知识 / 了解Scala基本语法

你觉得怎么样?期待您评价: