本课程主要讲解利用Python解决数据获取、数据处理和分析、数据可视化以及文本分析的相关内容。其中:
(1)数据获取部分在讲解http协议和网页构成元素的基础上,重点讲解如何使用requests库和beatifulsoup库编写爬虫抓取并解析数据,并介绍了如何使用正则表达式re库提高解析效率;
(2)数据处理和分析部分以numpy库和pandas库的用法为主线,介绍了在数据清洗、转化、整合等预处理工作的实现和描述性统计分析以及分组统计分析的实现;
(3)数据可视化部分介绍了如何使用matplotlib实现python-2D的可视化图表展示;
(4)文本分析部分,通过jieba的使用,对中文文本进行分词,去停用词等相关操作,提取关键词,利用wordcloud构建词云图