让我们看看互联网上一分钟发生了什么?全球IP网一分钟传送639TB,发送2亿封邮件,Facebook新增27.7万用户,发生六百万次访问,Google发生2百万次搜索查询,Flicker有2千万次访问照片,Twitter新增10万条信微博,Youtube上载30小时的视频,发生130万次观看,2015年的你要用5年时间才能看完在互联网上一秒中所传的视频。数据正以前所未有的速度在不断的增长和累积,大数据时代已经来到。
如何从数据中发现有趣的知识,并将其应用到具体的领域之中?数据分析与挖掘技术让你通过纷繁复杂的现象,看到背后隐藏的规律和模式,修炼一双在信息时代的慧眼。
《互联网大规模数据分析技术》这门课程从大数据的基础技术入手,首先介绍大数据处理平台Hadoop和Spark、非关系数据库NoSQL、MapReduce分布式并行编程模型等;然后重点讲解数据挖掘中的经典算法。接下来解剖信息检索和推荐系统两大Web主流应用的原理和模型,并通过例子加深对这些问题的理解。同时推荐Lucene和Mahout两个开源工具包,可以快速搭建属于自己的全文搜索引擎和商品推荐应用系统。最后给出了信息过滤系统的评价体系,便于从学术的角度对系统性能进行分析。