课程面向非计算机专业学生,以培养学生数据科学思维和科学素养,提高创新实践能力为目标,精心设计教学任务,使学生带着任务完成相关知识点的学习,促使学生自主思考,熟练掌握通过数据挖掘算法和工具解决实际问题的方法。课程的核心内容包含数据预处理技术、数据仓库和OLAP技术、回归分析、频繁模式挖掘、分类、聚类和离群点检测与分析等。
Overview
Syllabus
- 第1章 概述
- 1.1 数据分析与数据挖掘
- 1.2 分析与挖掘的数据类型
- 1.3 数据分析与数据挖掘的方法
- 1.5 应用场景及存在的问题
- 1.4 数据分析与数据挖掘使用的技术
- 第2章 数据
- 2.1 数据的属性
- 2.2 数据的基本统计描述
- 2.3 数据的相似性和相异性
- 第3章 数据预处理
- 3.1 数据存在的问题
- 3.2 数据清理
- 3.3 数据集成
- 3.4 数据归约
- 3.5 数据变换与数据离散化
- 第4章 数据仓库和OLAP
- 4.1 数据仓库基本概念
- 4.2 数据仓库设计
- 4.3 数据仓库实现
- 4.4 联机分析处理
- 4.5 元数据模型
- 第5章 回归分析
- 5.1 回归分析的基本概念
- 5.2 一元线性回归
- 5.3 多元线性回归
- 5.4 多项式回归
- 第6章 频繁模式
- 6.1 概述
- 6.2 Apriori算法
- 6.3 FP-growth算法
- 6.4 压缩频繁项集
- 6.5 关联模式评估
- 第7章 分类
- 7.1 分类概述
- 7.2 决策树
- 7.3 朴素贝叶斯分类
- 7.4 惰性学习法
- 7.5 神经网络
- 7.6 分类模型的评估
- 第8章 聚类
- 8.1 聚类概述
- 8.2 基于划分的聚类
- 8.3 基于层次的聚类
- 8.4 基于密度的聚类
- 8.5 基于网格的聚类
- 第9章 离群点检测
- 9.1 离群点定义与类型
- 9.2 离群点检测
- 教学案例
- 考试
Taught by
Mei Yu, Tianyi Xu, Ruiguo Yu, Mankun Zhao, Liu Zhiqiang, Di Jin, He Huang, Jianrong Wang, Gao Jie, Jian Yu, and Mao Liu