顺应大数据时代背景下,医学专业研究生在学习和未来工作中面临的医疗健康信息化需求,介绍当前数据挖掘与知识发现中的先进技术--文本挖掘,培养学生的信息素养和科研能力。内容上遵循选题开题的各个环节,包括①文献检索与获取:如何从书目数据库中检索与科研方向相关的文献,将检索结果保存为文本挖掘工具所要求的文件输入格式;②数据整理与统计:介绍如何使用书目共现分析系统(BICOMB)抽取相关数据并进行统计和处理;③数据分析:介绍聚类分析方法及其应用软件,包括聚类分析的目的、定义、应用领域、相似性度量方法、传统聚类分析和双聚类分析;④数据解读:介绍聚类结果的分析与解读的方法,包括高频主题词共现聚类结果分析、高被引论文同被引聚类分析、类群关系可视化(战略坐标)。
Overview
Syllabus
- 第1章 总论
- 第1节 数据/文本挖掘的定义和种类
- 第2节 文本挖掘的应用
- 第3节 文本挖掘流程及任务
- 第2章 数据收集
- 第1节 常用数据库检索技巧
- 第2节 英文文献搜集
- 第3节 中文文献搜集
- 第3章 书目共现分析系统BICOMB
- 第1节 BICOMB安装与使用
- 第2节 BICOMB案例
- 第4章 聚类分析及其软件应用
- 第1节 共现聚类分析概述
- 第2节 传统聚类分析原理
- 第3节 传统聚类分析实践
- 第4节 双聚类分析原理
- 第5节 双聚类分析实践
- 第5章 聚类结果分析
- 第1节 聚类结果分析原则
- 第2节 词共现聚类分析实例
- 第3节 战略坐标
- 期末考试
Taught by
Cui Lei, Zhang Han, Hou Yuefang, Wang Xiaoning, and Lan Xue