本课程主要介绍了数据挖掘概述、数据的组织与预处理、决策树分类方法、贝叶斯分类方法、决策树分类方法的性能评估、线性回归方法、人工神经网络模型、关联挖掘、聚类分析等。其前导课程为《python程序设计》等,后续课程有《机器学习》、《数据分析与挖掘课程设计》等。
Overview
Syllabus
- 第一章 绪论
- 1.1 数据挖掘的概念和任务
- 1.2 十大经典挖掘算法
- 1.3-1.4 开放数据获取来源-数据挖掘常见误区
- 1.5 数据挖掘中的隐私保护
- 第二章 数据
- 2.1 数据对象和数据属性
- 2.2 数据的统计描述
- 2.3 数据可视化
- 2.4 数据相似性度量
- 第三章 数据预处理
- 3.1概述+ 数据清洗
- 3.2 数据集成与数据转换
- 3.3 数据规约
- 3.4 数据离散化与概念分层
- 第四章 分类与预测
- 4.1-4.2 数据的分类与预测方法
- 4.3 决策树分类方法
- 4.4 朴素贝叶斯分类方法
- 4.5 决策树方法的分析比较
- 4.6 KNN分类算法
- 4.7 分类与预测算法的性能评价方法
- 第五章 回归分析
- 5.1 基本概念
- 5.2 线性回归编程案例
- 5.3 逻辑回归
- 5.4 岭回归
- 5.5 线性回归
- 5.6.1 线性回归的延伸-人工神经网络
- 5.6.2-5.6.3 神经网络的训练和设计原则
- 5.6.4-5.6.5-5.6.6 过拟合与正则化、交叉验证和小结
- 第六章 关联规则挖掘
- 6.1 基本概念
- 6.2 闭项集和极大频繁项集
- 6.3-6.5 Apriori算法及其应用
- 6.6 关联挖掘的常见误区
- 6.7 FP-Growth算法
- 第七章 聚类
- 7.1 聚类概述
- 7.2 聚类的划分方法
- 7.3 聚类的层次方法
- 7.4 聚类的密度方法
- 期末考试
Taught by
Fang Huan