数据分析实战45讲 / 即学即用的数据分析入门课
陈旸
清华大学计算机博士
 
  • 课程目录
  • 课程介绍
  • 开篇词 | 你为什么需要数据分析能力?

    我们生活在数据驱动一切的时代,数据挖掘和数据分析就是这个时代的“淘金”。

  • 01丨数据分析全景图及修炼指南

    我把数据分析分成三个重要的组成部分:数据采集、数据挖掘

  • 02丨学习数据挖掘的最佳路径是什么?

    数据分析中最关键的部分就是数据挖掘,那什么是数据挖掘呢?

  • 03丨Python基础语法:开始你的Python之旅

    要学好数据分析,一定要掌握 Python 吗?

  • 04丨Python科学计算:用NumPy快速处理数据

    NumPy不仅是 Python 中使用最多的第三方库,还是 SciPy、Pandas 等数据科学的基础库。

  • 05丨Python科学计算:Pandas

    Pandas 是基于 NumPy 构建的含有更高级数据结构和分析能力的工具包,那么它的核心数据结构是什么呢?

  • 加餐丨在社交网络上刷粉刷量,技术上是如何实现的?

    很多社交网络可以刷粉、刷量,你想知道这是怎么做到的吗?

  • 06 | 学数据分析要掌握哪些基本概念?

    学数据分析,你需要了解的那些概念。

  • 07 | 用户画像:标签化就是数据的抽象能力

    数据分析的终极出发点到底是什么?

  • 08 | 数据采集:如何自动化采集数据?

    如何从多个维度采集数据?

  • 09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论

    如何用八爪鱼进行数据采集呢?八爪鱼又有哪些实用的小技巧?

  • 10丨Python爬虫:如何自动化下载王祖贤海报?

    相比于使用第三方工具,Python爬虫都有哪些长处?

  • 11 | 数据科学家80%时间都花费在了这些清洗任务上?

    做完数据采集就可以直接进行挖掘了吗?

  • 12 | 数据集成:这些大号一共20亿粉丝?

    如何统计30位明星的真实影响力?数据集成可以帮助到你。

  • 13 | 数据变换:考试成绩要求正态分布合理么?

    数据变换在数据分析中处于什么样的位置?

  • 14丨数据可视化:掌握数据领域的万金油技能

    数据可视化,可以让你更直观地感受到“数据之美”。

  • 15丨一次学会Python数据可视化的10种技能

    Python可视化最常用的十种视图都有哪些?它们是如何实现的?

  • 16丨数据分析基础篇答疑

    我总结了Numpy、Pandas、爬虫以及数据变换相关的问题,精选了大家比较疑惑的点作为解答。

  • 17 丨决策树(上):要不要去打篮球?决策树来告诉你

    在现实生活中,我们会遇到各种选择,都是基于以往的经验来做判断,它实际上是一个树状图,这就是决策树。

  • 18丨决策树(中):CART,一棵是回归树,另一棵是分类树

    CART决策树既可以做回归树,也可以做分类树。

  • 19丨决策树(下):泰坦尼克乘客生存预测

    决策树分类的应用场景非常广泛,今天我来带你用决策树进行项目的实战。

  • 20丨朴素贝叶斯分类(上):如何让机器判断男女?

    很多人都听说过贝叶斯原理,但记不住这些概率论的公式,没关系,我会尽量用通俗易懂的语言进行讲解。

  • 21丨朴素贝叶斯分类(下):如何对文档进行分类?

    我们上一节讲了朴素贝叶斯的工作原理,今天我们来讲下这些原理是如何指导实际业务的。

  • 22丨SVM(上):如何用一根棍子将蓝红两色球分开?

    SVM分类器在文本分类尤其是针对二分类任务性能卓越,那么如何理解SVM呢?

  • 23丨SVM(下):如何进行乳腺癌检测?

    讲完了SVM的原理之后,今天我来带你进行SVM的实战。

  • 24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?

    KNN的理论简单、直接、成熟,可以应用到线性和非线性的分类问题中,也可以用于回归分析。

  • 25丨KNN(下):如何对手写数字进行识别?

    今天我用KNN、SVM、朴素贝叶斯和决策树做分类器,分别做一下手写数字分类识别的实战。

  • 26丨K-Means(上):如何给20支亚洲球队做聚类?

    假设我有20支亚洲足球队,想要将它们按照成绩划分成3个等级,可以怎样划分?

  • 27丨K-Means(下):如何使用K-Means对图像进行分割?

    今天我们继续用K-Means进行聚类的实战。聚类的一个常用场景就是对图像进行分割。

  • 28丨EM聚类(上):如何将一份菜等分给两个人?

    我们先看一个简单的场景:假设你炒了一份菜,想要把它平均分到两个碟子里,该怎么分?

  • 29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分

    如何使用EM算法工具完成聚类?

  • 30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?

    Apriori算法是在“购物篮分析”中常用的关联规则挖掘算法,在Apriori算法中你最主要掌握哪些概念呢?

  • 31丨关联规则挖掘(下):导演如何选择演员?

    今天我来带你用Apriori算法做一个项目实战,在这个过程中,你需要掌握哪几点呢?

  • 32丨PageRank(上):搞懂Google的PageRank算法

    互联网早期,搜索引擎有很多缺陷。针对这些缺陷,Google是如何解决的?

  • 33丨PageRank(下):分析希拉里邮件中的人物关系

    上节课我们讲到PageRank算法经常被用到网络关系的分析中,今天我们就来做一个实战项目。

  • 34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?

    今天我们学习AdaBoost算法。在数据挖掘中,分类算法可以说是核心算法。

  • 35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?

    今天我带你用AdaBoost回归分析对波士顿房价进行了预测,在这个过程里,你需要掌握什么呢?

  • 36丨数据分析算法篇答疑

    我总结了算法篇中经常遇到的问题,精选了几个作为答疑。没有列出的问题,我也会在评论区陆续解答。

  • 37丨数据采集实战:如何自动化运营微博?

    今天我带你做一个微博自动化运营的实战,在这个过程中,你需要掌握哪些工具呢?

  • 38丨数据可视化实战:如何给毛不易的歌曲做词云展示?

    假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,该怎么做呢?

  • 39丨数据挖掘实战(1):信用卡违约率分析

    当我们做数据挖掘的时候,如何选择最优分类算法呢?如何优化分类器的参数,得到更好的结果?

  • 40丨数据挖掘实战(2):信用卡诈骗分析

    逻辑回归虽然不在我们讲解的十大经典数据挖掘算法里面,但也是常用的数据挖掘算法。

  • 41丨数据挖掘实战(3):如何对比特币走势进行预测?

    今天我带你用数据挖掘对比特币的走势进行预测和分析,采用哪种方法比较好呢?

  • 42丨当我们谈深度学习的时候,我们都在谈什么?

    数据挖掘十大经典算法属于传统的机器学习算法,机器学习算法和深度学习有什么关联呢?

  • 43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?

    我们之前用KNN算过手写数字识别这个项目,这节课我们用Keras这个深度学习框架做一下,两者之间到底有什么区别呢?

  • 44丨如何培养你的数据分析思维?

    培养数据分析思维不仅对找一份和数据分析相关的工作有帮助,在日常生活中同样也有帮助。

  • 45丨求职简历中没有相关项目经验,怎么办?

    如果没有项目经验,很多人就会感觉无从下手,这时候该怎么办呢?

  • 结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战

    不论你以后是否会从事一份和数据分析相关的工作,我都希望你可以把思考作为一种学习的领悟,把实战当做是一次项目的旅行。

数据一直都有,但我们从未像现在这样需要数据,渴望数据,因为大数据已经改变了我们思考和决策的方式,并正在创造未来。当下,几乎每个人和每个公司都需要具备数据分析的能力,只有这样,我们才能真正参与到这个海量数据崛起的时代。

但是,说到数据分析和数据挖掘,很多人都是心向往之,却总是望而却步:

  • 要学的东西太多了,从统计学到SQL,从Python到R语言,听着就累;

  • 感觉太难了,数据挖掘算法根本学不明白,真叫人头大;

  • 也学了不少东西,但觉得很理论,完全不知道该怎么用。

确实,数据挖掘和数据分析有一些门槛,但是和学习任何新东西一样,它也需要更加高效的方法。事实上,你只需要熟悉数据从采集、清洗到集成的准备过程,掌握最核心的十个数据挖掘算法,重视对工具的熟练使用,从一个个小项目做起,快速积累经验,你就能拥有数据分析这项新技能,有能力真正把数据转化成财富,创造价值。

为此,我们邀请了陈旸来为你讲解数据分析,帮你攻破它。

陈旸,清华大学计算机博士,前IBM中国研究院工程师。IEEE & ACM Member,中国人工智能协会成员,中国计算机协会CCF大数据专委。

在这个专栏里,他将结合自己的学习体会和实践经验,带你由浅入深掌握数据分析的核心知识点,并且结合案例手把手教你从源头上认识数据分析,熟悉对应的工具操作。同时,为了帮助你融会贯通,专栏还设计了专属题库,保证你能够即学即用。

专栏模块

专栏共45讲,分为5大模块。

  1. 预习篇

介绍数据分析的全景图和最佳学习路径。此外还有3篇Python入门内容,分别是Python的基本语法和两大工具NumPy、Pandas,帮助你快速上手。

  1. 基础篇

帮你梳理数据分析的流程,了解数据分析的方方面面。包括数据分析的基础概念、数据采集、数据处理以及数据可视化。

  1. 算法篇

算法是数据挖掘的精华所在,也是专栏的重点内容。专栏精选10大算法,包括分类、聚类和预测三大类型。每个算法都从原理和案例两个角度学习,帮助你快速理解和应用。

  1. 实战篇

理论是铠甲,落实在项目,进行实战才是我们的终极目标。专栏里精选了5个项目,让你在实操中深入理解数据分析,体验数据思维。

  1. 工作篇

面试通向数据分析工程师的最后一步,所以这一模块会告诉你面试时需要注意什么,职位的晋升路径又是怎样的?帮你打通最后一关。