课程大纲
内容
-
课程大纲
华东师范大学
研究生课程教学大纲模板(2021版)
课程编码
MAS0551202021
课程类别
专业选修
课程名称(中文)
数据处理与可视化
课程名称(英文)
Data Processing and Visualization
学时/学分
36学时(含考试2课时)/2学分
其中实验/
实践、实务课学时
6学时
开课单位
经济与管理学部统计学院
适用学科专业
(类别领域)
应用统计
先修课程
无
大纲撰写人
李艳
大纲审核人
吴贤毅
教学负责人
授课语言
中文
课程网址
无
一、课程简介(中英文)
大数据对数据挖掘提出了更高的要求,通过预处理获得高质量的数据及数据的可视化展示成为数据科学中的重要任务。本课程主要介绍数据预处理,包含数据集成、数据清理、数据变换和数据归约,以及可视化导论和基于Python的可视化操作等。
Big data puts forward higher requirements for data mining. It is an important task in data science to obtain high-quality data through preprocessing and data visualization. This course mainly introduces data preprocessing, including data integration, data cleaning, data transformation and data reduction, as well as introduction to visualization and Python based visualization operation.
二、课程目标
目标1:通过本课程的学习,学生应掌握数据集成、数据清理、数据变换和数据归约等相关技术,能熟练使用Python进行数据的基本处理和可视化工作。
目标2:学生应了解数据科学中数据处理相关职业素养,自觉恪守数据真实性底线,能批判性地评价数据处理方法和结果的科学性。
目标3:学生应掌握阅读学术论文等文献资料的基本能力,能通过阅读文献较为准确地掌握数据处理与可视化相关的前沿方法。
三、教学内容与安排
第一章 数据预处理概述
学时:3
本章节内容概述:主要介绍数据类型,数据质量,数据预处理流程。
1.1 数据理解
1.2 数据智慧
第二章 数据可视化基础
学时:4
本章节内容概述:介绍可视化中的基本要素与技巧,以及几种可视化分析工具。本章的实验、实践环节要求:能根据实际需求熟练地使用Matploblib和Pyecharts制作图表,能设计、实现和反思静态/动态的可视化作品。
2.1 可视化导论
2.2 Python数据可视化
第三章 数据集成
学时:5
本章节内容概述:介绍数据集成的相关概念和原理,包括:整齐数据及其处理,特征衍生,类别不平衡问题处理。本章的实验、实践环节要求:能熟练地使用scikit-learn和imbalanced-learn等Pyhton库准确地实现数据集成,能结合实际问题衍生有价值的特征。
3.1 整齐数据
3.2 特征衍生
3.3 类别不平衡问题处理
第四章 数据变换
学时:4
本章节内容概述:介绍数据变换的相关概念和原理,包括:规范化和离散化。本章的实验、实践环节要求:能熟练地使用scikit-learn、scorecardbundle和caimcaim等Pyhton库准确地实现数据规范化和离散化,能评价数据变换效果。
4.1 规范化
4.2 离散化
第五章 数据清理
学时:8
本章节内容概述:介绍数据清理的相关概念和原理,包括:清洗脏数据,离群值处理,缺失值处理。本章的实验、实践环节要求:能熟练地使用scikit-learn和miceforest等Pyhton库准确地实现数据清理。
5.1 清洗脏数据
5.2 离群值处理
5.3 缺失值处理
第六章 数据归约
学时:12
本章节内容概述:介绍数据归约的相关概念和原理,包括:数值归约,特征选择,特征提取。特征提取是其中的重点,包括两类方法。(1)线性降维:投影寻踪、独立成分分析、Truncated SVD;(2)非线性降维:核主成分分析、多维缩放、流形学习(Isomap、LLE、t-SNE)等。本章的实验、实践环节要求:能熟练地使用scikit-learn和skpp等Pyhton库准确地实现数据归约,并对结果做出比较和评价。
6.1 数值归约
6.2 特征选择
6.3 特征提取
四、主要教学方法
1.本课程采用教师讲授、案例分析与代码演示等相结合的教学方法。
2.通过作业与案例分析,要求学生基于实际数据完成数据处理与可视化,并展示、交流和讨论。
五、考核方式与要求
本课程的考核采用考查方式,成绩采用百分制,成绩的评定兼顾平时表现和期末考试。成绩总评包含三个部分:(1)出勤与课堂表现,占10%;(2)小组作业(案例分析),占40%;(3)期末考试,占50%。
六、教材与参考资料
教材:
《大数据探索性分析》,吴翌琳、房祥忠编著,中国人民大学出版社,2016年。
代表性教学参考书:
1、《阿里云天池大赛赛题解析——机器学习篇》,天池平台著,电子工业出版社,2020年。
2、《IBM SPSS数据分析与挖掘实战案例精粹》张文彤、周云飞著,清华大学出版社,2013年。
3、《机器学习》,周志华编著,清华大学出版社,2016年。
4、《Principles of Data Science》,Hamid R. Arabnia, Kevin Daimi, Robert Stahlbock, Cristina Soviany, Leonard Heilig, Kai Brüssau主编,Springer, 2020年。
5、《Python数据可视化之Matplotlib与Pyecharts》,王国平编著,清华大学出版社,2020年。
6、《缺失数据统计分析 (第三版)》,Roderick J.A. Little, Donald B. Rubin著, 周晓华、 邓宇昊译,高等教育出版社,2022年。
7、《数据分析通识》,途索编著,人民邮电出版社,2020年。
8、《数据之美:一本书学会可视化设计》,邱南森编著,中国人民大学出版社,2014年。
9、《数据准备:从获取到整理》阮敬、任韬著,中国人民大学出版社,2022年。
10、《数据准备和特征工程——数据工程师必知必会技能》,齐伟编著,电子工业出版社,2020年。
11、《The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd Edition)》, Trevor Hastie, Robert Tibshirani, Jerome Friedman编著, Springer,2009年。