课程大纲
内容
-
课程大纲
“统计学习”课程教学大纲
课程名称(中文):统计学习
课程名称(英文):Statistical Learning
任课教师:李艳,yli@stat.ecnu.edu.cn
一、课程简介
本课程主要介绍统计学习的基本理论和方法,包括统计学习思想、模型评价与选择,以及决策树、集成学习、支持向量机、K近邻、 人工神经网络和贝叶斯网络等模型方法,并通过R或Python实现。
预备课程:数学分析、高等代数、概率论、数理统计、回归分析。
二、课程目标
1、掌握基本的统计学习理论和方法。
2、能准确应用统计学习方法于实际的数据分析之中,通过Python或R语言实现相应的方法。
三、教学内容
1、统计学习导论
要点:掌握统计学习的三要素(模型、学习准则和优化算法),PAC学习的思想与特征,统计建模的整体流程与要点。应既能从总体上把握统计学习的全貌,又能抓住其细节上的重要问题。
2、模型评价与选择
要点:掌握模型评价的各项指标(包括统计量和图表),以及模型选择的主要思想和技巧。应深刻理解模型评价指标的定义与功能,能正确评价模型和选择模型,并解读结果。
3、决策树
要点:了解决策树模型的形式由来和基本思路,掌握各种分枝和剪枝策略,重点掌握CART算法理论,应能基于实际数据采用CART,C4.5等经典的决策树算法进行建模分析,并能通过模型、变量重要性、偏依赖图和SHAP values等解读模型结果。
4、集成学习
要点:掌握集成学习的基本原理,以及Bagging、随机森林、Boosting (包括Adaboost、GBM、 XGBoost和 LightGBM)和Stacking等方法的基本思路及其理论,能基于实际数据灵活运用各集成学习方法进行建模分析。
5、支持向量机
要点:掌握支持向量机的基本思路及其理论,重点掌握优化目标、支持向量、对偶算法以及核方法等,能基于实际数据采用支持向量机方法进行建模分析。
6、K近邻
要点:掌握K近邻方法的基本思路及其理论,重点理解距离和邻居数量等概念及其作用,能基于实际数据采用K近邻方法进行建模分析。
7、人工神经网络
要点:掌握人工神经网络的基本概念和特征,重点是掌握参数学习方法(反向传播算法)、网络优化方法(小批量梯度下降法、学习率调整、梯度估计修正、参数初始化方法和归一化方法等)和正则化方法(L1/L2约束、提前终止、权重衰减、丢弃法和数据增强等)。应能基于实际数据,采用神经网络方法进行建模分析。
8、贝叶斯网络
要点:了解因果推断的基本问题,掌握概率图模型表示的基本概念,以及贝叶斯网络的参数学习(极大似然估计、贝叶斯估计、EM算法)和结构学习(基于评分的方法和基于独立性的方法)。应能基于实际数据建立贝叶斯网络,深入解读模型结果。
教学时数分配
每周3学时,教学周:1-18周。
章次
1
2
3
4
5
6
7
8
机动
共计
学时
3
3
6
12
6
3
6
6
9
54
四、教材和参考书目
教材:
机器学习,周志华,清华大学出版社,2016。
参考书:
1、The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd Edition), Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer,2009。
2、Understanding Machine Learning: From Theory to Algorithms,Shai Shalev-Shwartz and Shai Ben-David,Cambridge University,2014。
3、Foundations of Machine Learning (second edition),Mehryar Mohri, Afshin Rostamizadeh,Ameet Talwalkar,The MIT Press,2018。
4、统计学习方法,李航,清华大学出版社,2012。
5、集成学习,周志华著,李楠译,电子工业出版社,2020。
6、深度学习,Ian Goodfellow、Yoshua Bengio、Aaron Courville著,赵申剑等译,人民邮电出版社,2017。
7、神经网络与深度学习,邱锡鹏, 机械工业出版社,2020。
8、Hands-On Machine Learning with Keras & Tensorflow(影印版), Aurélien Géron, 东南大学出版社,2020。
9、Python机器学习(原书第2版),Sebastian Raschka、Vahid Mirjalili著,陈斌 译,机械工业出版社,2019。
10、机器学习与R语言(原书第2版), Brett Lantz著,李洪成,许金炜,李舰译,机械工业出版社,2017。
11、美团机器学习实践,美团算法团队著,人民邮电出版社,2018。
12、Learning Bayesian Networks, Richard E. Neapolitan著,Pearson Education,2003。
13、因果推理:基础与学习算法,Jonas Peters、Dominick Janzing、Bernhard Schölkopf 著,李小和、卢胜男、程国建译,2021。
14、阿里云天池大赛赛题解析——机器学习篇,天池平台著,电子工业出版社,2020。
15、Interpretable Machine Learning: A Guide for Making Black Box Models Explainable, Christoph Molnar著,Lulu Pres,2020.
16、Principles of Data Science,Hamid R. Arabnia, Kevin Daimi, Robert Stahlbock, Cristina Soviany, Leonard Heilig, Kai Brüssau主编,Springer, 2020。
五、考核办法与评价结构比例
总分100分,包含:考勤10%,课堂小测验10%,作业30%,期末考试50%。