Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

XuetangX

互联网大规模数据分析技术

Wuhan University of Technology via XuetangX

Overview

让我们看看互联网上一分钟发生了什么?全球IP网一分钟传送639TB,发送2亿封邮件,Facebook新增27.7万用户,发生六百万次访问,Google发生2百万次搜索查询,Flicker有2千万次访问照片,Twitter新增10万条信微博,Youtube上载30小时的视频,发生130万次观看,2015年的你要用5年时间才能看完在互联网上一秒中所传的视频。数据正以前所未有的速度在不断的增长和累积,大数据时代已经来到。


如何从数据中发现有趣的知识,并将其应用到具体的领域之中?数据分析与挖掘技术让你通过纷繁复杂的现象,看到背后隐藏的规律和模式,修炼一双在信息时代的慧眼。
《互联网大规模数据分析技术》这门课程从大数据的基础技术入手,首先介绍大数据处理平台Hadoop和Spark、非关系数据库NoSQL、MapReduce分布式并行编程模型等;然后重点讲解数据挖掘中的经典算法。接下来解剖信息检索和推荐系统两大Web主流应用的原理和模型,并通过例子加深对这些问题的理解。同时推荐Lucene和Mahout两个开源工具包,可以快速搭建属于自己的全文搜索引擎和商品推荐应用系统。最后给出了信息过滤系统的评价体系,便于从学术的角度对系统性能进行分析。

Syllabus

  • 第一章 大数据与数据挖掘概述
    • 第1讲 大数据与数据挖掘概述
  • 第二章 关联规则
    • 第2讲 频繁项集和关联规则的基本概念
    • 第3讲 Apriori算法
    • 第4讲 Apriori算法的改进与兴趣度度量
  • 第三章 分类算法
    • 第5讲 分类的基本概念
    • 第6讲 决策树
    • 第7讲 简单贝叶斯分类
  • 第四章 聚类算法
    • 第8讲 聚类的基本概念
    • 第9讲 K-Means & K-Medoids Clustering
  • 第五章 大数据平台与技术
    • 第10讲 大数据处理平台Hadoop
    • 第11讲 MapReduce编程
    • 第12讲 大数据处理平台Spark
    • 第13讲 NoSQL数据库
  • 第六章 信息检索
    • 第14讲 Web信息检索简介
    • 第15讲 信息检索之倒排索引
    • 第16讲 信息检索之TFIDF
    • 第17讲 信息检索之相似度排序
  • 第七章 Web链接分析
    • 第18讲 Web搜索之链接分析
    • 第19讲 Web搜索之PageRank
    • 第20讲 Lucene信息检索平台
  • 第八章 推荐系统
    • 第21讲 推荐系统简介
    • 第22讲 推荐系统之协同过滤
    • 第23讲 Mahout数据挖掘平台
    • 第24讲 信息过滤评价体系
  • 自我提升练习

    Taught by

    Lin Li and Rui Zhang

    Tags

    Reviews

    Start your review of 互联网大规模数据分析技术

    Never Stop Learning.

    Get personalized course recommendations, track subjects and courses with reminders, and more.

    Someone learning on their laptop while sitting on the floor.