课程通过介绍数据分析技术、工具、平台和实例,使学生能够了解实际科研工作中如何对大规模数据进行处理和分析,熟悉并掌握其基本原理和应用。在此基础上,要求学生设计并完成对一个从数据收集、数据存储、数据加工、数据分析和结果展示的完整数据分析工作。本课程采用理论与实践并重的教学方法,在了解基本理论及方法的同时,熟悉并使用一些已被广泛应用、标准化、甚至国际化的软件,培养学生对实验数据的分析、理解、和表达技能。
Overview
Syllabus
- 第1章 大数据分析技术概述
- 1.1 数据分析
- 1.2 数据仓库
- 1.3 数据建模
- 1.4 大数据的基本概念和特征
- 1.5 大数据处理技术
- 第2章 Hadoop
- 2.1-2.2 Hadoop简介和发展历史
- 2.3-2.4 Hadoop特性和应用
- 2.5 Hadoop版本演变
- 2.6 Hadoop生态系统
- 2.7 Hadoop安装与部署
- 第3章 分布式文件系统HDFS
- 3.1 分布式文件结构
- 3.2 HDFS简介
- 3.3 HDFS相关概念
- 3.4-3.5 HDFS体系结构和存储原理
- 3.6 HDFS数据读写过程
- 第4章 分布式计算系统MapReduce
- 4.1 MapReduce概述
- 4.2 MapReduce体系结构
- 4.3 MapReduce工作流程
- 4.4 MapReduce实例
- 第5章 资源调度框架YARN
- 5.1 Hadoop的优化与发展
- 5.2 YARN-资源管理调度框架
- 第6章 数据仓库工具Hive
- 6.1 Hive概述
- 6.2 Hive系统架构
- 6.3 Hive工作原理
- 6.4 Hive的数据类型
- 第7章 Sqoop
- 7.1 Sqoop简介
- 7.2 Sqoop工作原理
- 7.3-7.4 Sqoop安装部署和数据导入导出
- 第8章 Apache Flume
- 8.1 Flume简介
- 8.2 Flume的架构
- 8.3 核心组件介绍
- 8.4 Flume配置演示
Taught by
Song Yaqi