从0开始学大数据 / 智能时代你的大数据第一课
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
 
  • 课程目录
  • 课程介绍
  • 开篇词 | 为什么说每个软件工程师都应该懂大数据技术?

    2012年的时候,我从阿里跳槽到Intel做大数据开发。当时很多人不理解,我为什么会从如日中天的互联网公司跳槽到“传统”的IT公司?

  • 预习 01 | 大数据技术发展史:大数据的前世今生

    在正式落地谈技术之前,我先花一些篇幅给你讲讲大数据技术的发展史,因为这对于你理解技术来说至关重要。

  • 预习 02 | 大数据应用发展史:从搜索引擎到人工智能

    从最开始的Google在搜索引擎中开始使用大数据技术,到现在无处不在的各种人工智能应用,伴随着大数据技术的发展,大数据应用也从曲高和寡走到了今天的遍地开花。

  • 预习 03 | 大数据应用领域:数据驱动一切

    今天我们通过一些大数据典型的应用场景分析,一起来看看大数据到底能做些什么,我们学大数据究竟有什么用,应该关注大数据的哪些方面。

  • 04 | 移动计算比移动数据更划算

    大数据技术和传统的软件开发技术在架构思路上有很大不同,大数据技术更为关注数据,所以相关的架构设计也围绕数据展开。

  • 05 | 从RAID看垂直伸缩到水平伸缩的演化

    我有一个直观又现实的问题想问你:如果一个文件的大小超过了一张磁盘的大小,你该如何存储?

  • 06 | 新技术层出不穷,HDFS依然是存储的王者

    如果我们将大数据计算比作烹饪,那么数据就是食材,而Hadoop分布式文件系统HDFS就是烧菜的那口大锅。

  • 07 | 为什么说MapReduce既是编程模型又是计算框架?

    MapReduce既是一个编程模型,又是一个计算框架,开发人员基于编程模型进行开发,然后将程序通过计算框架分发到Hadoop集群中运行。

  • 08 | MapReduce如何让数据完成一次旅行?

    上一期我讲了MapReduce既是编程模型又是计算框架,我们聊完编程模型,今天就来讨论MapReduce如何让数据完成一次旅行。

  • 09 | 为什么我们管Yarn叫作资源调度框架?

    在我们开始聊Yarn的实现原理前,有必要看看Yarn发展的过程,这对你理解Yarn的原理以及为什么被称为资源调度框架很有帮助。

  • 10 | 模块答疑:我们能从Hadoop学到什么?

    你好,我是李智慧。专栏的模块一已经更新完毕,按照计划,今天是我们答疑的时间。

  • 11 | Hive是如何让MapReduce实现SQL操作的?

    数据分析师通常使用SQL进行大数据分析和统计,对于他们来说MapReduce编程还是有一定的门槛。那么有没有更简单的办法,可以直接将SQL运行在大数据平台上呢?

  • 12 | 我们并没有觉得MapReduce速度慢,直到Spark出现

    Spark拥有更快的执行速度和更友好的编程接口,在推出后短短两年就迅速抢占MapReduce的市场份额,成为主流的大数据计算框架。

  • 13 | 同样的本质,为何Spark可以更高效?

    和MapReduce僵化的Map与Reduce分阶段计算相比,Spark的计算框架更加富有弹性和灵活性,进而有更好的运行性能。

  • 14 | BigTable的开源实现:HBase

    今天我们就来领略一下BigTable对应的NoSQL系统HBase,看看它是如何大规模处理海量数据的。

  • 15 | 流式计算的代表:Storm、Flink、Spark Streaming

    实时处理最大的不同就是这类数据跟存储在HDFS上的数据不同,是实时传输过来的,或者形象地说是流过来的,所以针对这类大数据的实时处理系统也叫大数据流计算系统。

  • 16 | ZooKeeper是如何保证数据一致性的?

    在分布式系统里,因为服务器集群环境的软硬件故障随时会发生,如果想要多台服务器对一个数据的记录保持一致,那么就需要一些技巧和设计。

  • 17 | 模块答疑:这么多技术,到底都能用在什么场景里?

    经过前面两个模块,我们学习了大数据最经典、最主流的一些技术和产品,今天我们再回过头来梳理一下这些技术和产品。

  • 18 | 如何自己开发一个大数据SQL引擎?

    今天我们通过一个支持标准SQL语法的大数据仓库引擎的设计开发案例,看看如何自己开发一个大数据SQL引擎。

  • 19 | Spark的性能优化案例分析(上)

    我想通过专栏两期的内容,具体介绍一下如何参与Apache这样开源社区的软件开发,如何进行软件性能优化,以及我在Apache Spark源码上做的一些优化实践。

  • 20 | Spark的性能优化案例分析(下)

    今天,我们通过几个Spark性能优化的案例,看一看所讲的性能优化原则如何落地。

  • 21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项

    从今天开始,我会分两期内容来讨论阿里巴巴的一个海量数据处理系统的设计。

  • 22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新

    今天立项会的内容主要就是阐述Doris的架构方案和创新设计。

  • 23 | 大数据基准测试可以带来什么好处?

    大数据基准测试的主要用途是对各种大数据产品进行测试,检验大数据产品在不同硬件平台、不同数据量、不同计算任务下的性能表现。

  • 24 | 从大数据性能测试工具Dew看如何快速开发大数据系统

    可视化的性能数据从何而来呢?如何在图中将性能指标和任务进度结合起来,可以一目了然看清应用在不同运行阶段的资源使用状况呢?

  • 25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?

    你好,我是李智慧,又到了我们模块答疑的时间了。在这个模块里,我主要讲了大数据开发的实践,所以今天我想和你聊聊我在大厂里学到哪些经验。

  • 26 | 互联网产品 + 大数据产品 = 大数据平台

    如何才能弥补这互联网和大数据系统之间的差异呢?解决方案就是将面向用户的互联网产品和后台的大数据系统整合起来,也就是今天我要讲的构建一个大数据平台。

  • 27 | 大数据从哪里来?

    大数据就是存储、计算、应用大数据的技术,如果没有数据,所谓大数据就是无源之水、无本之木,所有技术和应用也都无从谈起。

  • 所有的不确定都是机会——智慧写给你的新年寄语

    新的一年,未知的不确定就在你的面前,拥抱不确定,寻找新的机会,祝你能开启自己的新世界。

  • 28 | 知名大厂如何搭建大数据平台?

    今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。

  • 29 | 盘点可供中小企业参考的商业大数据平台

    拿一个开源的软件搭建自己的大数据平台,对于中小企业来说,无论是人才储备还是服务器成本,似乎都有点难以承受。所幸,还有商业大数据平台可供选择。

  • 30 | 当大数据遇上物联网

    相比人工智能和区块链还在进行技术探索不同,物联网的技术已经成熟,只待“临门一脚”了。

  • 31 | 模块答疑:为什么大数据平台至关重要?

    你好,我是李智慧。今天我来做模块四的答疑,主题是为什么大数据平台至关重要。

  • 32 | 互联网运营数据指标与可视化监控

    数据分析是大数据应用的一个主要场景,通过数据分析指标监控企业运营状态,及时调整运营和产品策略,是大数据技术的关键价值之一。

  • 33 | 一个电商网站订单下降的数据分析案例

    企业运营的数据可以让管理者、运营人员、技术人员全面、快速了解企业的各项业务运行的状况。今天通过一个案例,来看看如何通过数据分析追踪并解决问题。

  • 34 | A/B测试与灰度发布必知必会

    A/B测试是大型互联网应用的常用手段。如果说设计是主观的,那么数据是客观的,与其争执哪种设计更好、哪种方案更受用户欢迎,不如通过A/B测试让数据说话。

  • 35 | 如何利用大数据成为“增长黑客”?

    互联网产品也一样,如果你能拥有大量的用户,你就成功了。所以我们看到互联网公司,特别是初创互联网公司,为了获得用户,为了用户数量增长可以说是费尽心机。

  • 36 | 模块答疑:为什么说数据驱动运营?

    当我们谈论大数据的时候,我们究竟在谈什么?

  • 37 | 如何对数据进行分类和预测?

    分类也是大数据常见的应用场景之一,通过对历史数据规律的统计,将大量数据进行分类然后发现数据之间的关系。

  • 38 | 如何发掘数据之间的关系?

    挖掘数据的典型应用场景有搜索排序、关联分析以及聚类,下面我们一个一个来看,希望通过今天的学习,你能够了解数据挖掘典型场景及其应用的算法。

  • 39 | 如何预测用户的喜好?

    推荐引擎主要就是依靠各种推荐算法,常用的推荐算法有:基于人口统计的推荐、基于商品属性的推荐、基于用户的协同过滤推荐、基于商品的协同过滤推荐。

  • 40 | 机器学习的数学原理是什么?

    当我们谈论人工智能时我们到底在谈什么?人工智能跟机器学习有什么关系?跟大数据又有什么关系?“高大上”的机器学习背后的数学原理是什么?

  • 41 | 从感知机到神经网络算法

    从机器学习模型角度看,目前最简单的机器学习模型大概就是感知机了,而最火热的机器学习模型则是神经网络。

  • 42 | 模块答疑:软件工程师如何进入人工智能领域?

    根据我的经验,我来给你呈现一个软件工程师进入人工智能领域的“学习路线图”,希望可以帮助到想转型进入人工智能领域的同学。

  • 结束语 | 未来的你,有无限可能

    专栏虽然结束了,但我还有很多话想对你说。

随着近些年大数据技术的发展,以Hadoop、Spark为代表的大数据开源项目早已迭代成熟,构建起生态化系统。与此对应,不论是开发者还是企业,关注点也已经从技术的演进转向如何更好地应用大数据,去支撑业务和云计算、人工智能的深度融合。在这个智能的时代,不论是否从事大数据开发,掌握大数据的原理和架构也早已成为每个工程师的必备技能。

但是,不论是大数据的技术还是应用,都始终处于动态变化的过程中。对于很多刚开始接触大数据、考虑使用大数据的人来说,这无疑带来了很多困惑。

  • 天天听别人讲大数据,自己也看了不少资料,却不得要领,看不到完整的大数据知识轮廓。
  • 即使工作和大数据相关,但仍不清楚大数据平台究竟是如何运作的。
  • 领导让我搭建一套大数据平台,而我却是一头雾水,不知从何处入手。

如果你也有这样的困惑,不要着急。其实在很大程度上这是大数据知识体系的繁杂造成的,没有专家的明晰指导,多数人都很难真正做到入门,并且通过构建知识体系达到融会贯通。

李智慧,同程艺龙交通首席架构师、Apache Spark代码贡献者,长期从事大数据、大型网站架构的研发工作,曾担任阿里巴巴技术专家、Intel亚太研发中心架构师、宅米和WiFi万能钥匙CTO,有超过6年的线下咨询、培训经验,著有畅销书《大型网站技术架构:核心原理与案例分析》。

在这个专栏里,李智慧将结合自己多年大数据开发、应用的经验,帮助你构建一套立体化的知识体系,并从不同视角、不同领域带你找到你在大数据领域的突破口,真正从普通开发者晋升为拥有大数据思维并能解决复杂问题的技术专家。

专栏模块

一套完整的大数据知识体系,将包含6个模块。

模块一 Hadoop大数据原理与架构

为什么讲大数据都要从Hadoop开始?大数据的问题和挑战不同以往,它的处理方法与技巧也颇有不同。理解大数据面对的问题以及处理技巧,是构建大数据知识体系的源头。理解大数据,从理解Hadoop开始。

模块二 大数据生态体系主要产品原理与架构

大数据领域不只有Hadoop,还有数据仓库Hive、NoSQL系统HBase、计算引擎Spark、流计算引擎Storm、Flink,以及分布式一致性解决方案ZooKeeper等,它们构成了一个完整的大数据生态体系,解决各种场景下的不同问题。

模块三 大数据开发实践

本模块以大数据开发者的视角重新审视大数据的各个方面,结合作者在阿里巴巴、Intel从事大数据开发的实践经历,从“局内人”的视角为你揭秘大数据开发的内里乾坤。

模块四 大数据平台与系统集成

大数据从哪里来?算出来的结果又到哪里去?如何将大数据技术集成到当前系统中去?需不需要自己开发?有没有商业的解决方案?这可能是使用大数据时最迫切需要解决的问题。

模块五 大数据分析与运营

数据分析是大数据应用的一个重要场景,互联网企业运营常用的数据分析指标有哪些?如何呈现?数据分析结果异常了,企业关键绩效指标下滑了,该如何去追踪定位其原因?这些应用场景和问题答案都可以在本模块中找到。

模块六 大数据算法

大数据最激动人心的应用还是大数据机器学习,但大数据机器学习算法是不是真的有那么难?数学不好还能不能学好、用好大数据算法呢?这个模块告诉你,其实大数据算法并不难,原理一样很简单。

你觉得怎么样?期待您评价: