课程大纲
内容
-
课程大纲
“数据处理与可视化”课程教学大纲
课程名称(中文):数据处理与可视化
课程名称(英文):Data Processing and Visualization
任课教师:李艳,yli@stat.ecnu.edu.cn
一、课程简介
大数据对数据挖掘提出了更高的要求,通过预处理获得高质量的数据及数据的可视化展示成为数据科学中的重要任务。本课程主要介绍数据预处理(包含数据集成、数据清理、数据变换和数据归约)、通过降维所进行的探索性数据分析,以及可视化基础。实验部分均通过Python实现。
预备课程:概率论,数理统计, Python程序设计基础。
二、课程目标
1、通过本课程的学习,学生应掌握数据集成、数据清理、数据变换和数据归约等相关技术,能熟练使用Python进行数据的基本处理和可视化工作。
2、学生应了解数据科学中数据处理相关职业素养,自觉恪守数据真实性底线,能批判性地评价数据处理方法和结果的科学性。
3、学生应掌握阅读学术论文等文献资料的基本能力,能通过阅读文献较为准确地掌握数据处理与可视化相关的前沿方法。
三、教学内容
1、数据理解
要点:介绍数据类型、数据质量和数据预处理的整个流程等。
2、数据可视化基础
要点:介绍可视化中的基本要素与技巧,以及几种可视化分析工具,包括:(1)可视化导论:可视化的概念、过程与技巧;(2)Pyecharts数据可视化。本章的实验、实践环节要求:能根据实际需求熟练地使用Matploblib和Pyecharts制作图表,能实现静态和动态的可视化作品。
3、数据预处理
要点:介绍数据预处理的主要方法,包括:(1)数据集成:整齐数据及其处理;(2)数据清理:离群值处理、缺失值处理;(3)数据变换:规范化、离散化、特征组合;(4)数据归约:特征选择、特征提取、数值归约、概念分层。本章的实验、实践环节要求:能熟练地使用scikit-learn等Pyhton库准确地实现数据预处理整个流程,并能科学地评估和反思预处理结果。
4、探索性数据分析方法
要点:介绍多种数据压缩方法,通过降维实现探索性数据分析。包括:(1)多维数据的可视化技术;(2)线性降维:投影寻踪、独立成分分析、Truncated SVD;(5)非线性降维:核主成分分析、多维缩放、流形学习(Isomap、LLE、t-SNE)等。本章的实验、实践环节要求:能熟练地使用scikit-learn等Pyhton库准确地实现数据压缩,并对结果做出评价。
教学时数分配
每周3学时,教学周:1-18周。
章次
1
2
3
4
机动
共计
学时
3
4
22
16
9
54
四、教材和参考书目
教材:
《大数据探索性分析》,吴翌琳、房祥忠编著,中国人民大学出版社,2016年。
参考书:
1、《数据分析通识》,途索编著,人民邮电出版社,2020年。
2、《数据准备和特征工程——数据工程师必知必会技能》,齐伟编著,电子工业出版社,2020年。
3、《机器学习》,周志华编著,清华大学出版社,2016年。
4、《Python数据可视化之Matplotlib与Pyecharts》,王国平编著,清华大学出版社,2020年。
5、《数据之美:一本书学会可视化设计》,邱南森编著,中国人民大学出版社,2014年。
6、《Principles of Data Science》,Hamid R. Arabnia, Kevin Daimi, Robert Stahlbock, Cristina Soviany, Leonard Heilig, Kai Brüssau主编,Springer, 2020年。
7、《阿里云天池大赛赛题解析——机器学习篇》,天池平台著,电子工业出版社,2020年。
五、考核办法与评价结构比例
总分100分,包含:考勤10%,作业25%,项目报告与展示20%, 期末考试45%。