684分钟
Python数据分析系列课程:学习数据挖掘
本课程以CRISP-DM为理论指导,系统介绍了sklearn在数据挖掘/机器学习各个环节的功能实现,从数据挖掘实战的角度出发详细介绍如何在sklearn中完成数据预处理、数据降维、数据建模、模型评估等…
本课程以CRISP-DM为理论指导,系统介绍了sklearn在数据挖掘/机器学习各个环节的功能实现,从数据挖掘实战的角度出发详细介绍如何在sklearn中完成数据预处理、数据降维、数据建模、模型评估等各种操作,并突出特征选择、模型调参,模型集成等在数据挖掘实战环境中的重要课题。
课程弱化了各种统计模型的基本原理,强化其具体操作及衍生模型 。学习完本课程后,学员将能够独立使用sklearn完成数据挖掘或机器学习实际项目。
第1章 python机器学习与数据挖掘概述
- 1-1 如何用python做机器学习或数据挖掘?
- 1-2 课程内容介绍
- 1-3 使用sklearn的样本数据集
- 1-4 sklearn基本操作入门
第2章 数据的预处理
- 2-1 连续变量的标准化
- 2-2 考虑异常分布的标准化
- 2-3 分类变量的预处理
- 2-4 缺失值的填充
- 2-5 生成多项式特征
- 2-6 自定义转换器
第3章 特征选择与信息浓缩
- 3-1 特征筛选概述
- 3-2 基于简单统计特征进行筛选
- 3-3 基于统计误差进行筛选
- 3-4 基于建模结果进行筛选
- 3-5 数据降维与信息浓缩
第4章 回归类模型的训练
- 4-1 回归类模型概述
- 4-2 回归类模型的种类
- 4-3 线性回归的sklearn实现
- 4-4 多项式回归
- 4-5 岭回归的基本原理
- 4-6 岭回归的实现
- 4-7 LASSO回归与弹性网络
- 4-8 最小角回归
- 4-9 梯度下降法的基本原理
- 4-10 随机梯度下降回归
第5章 类别预测模型的训练
- 5-1 类别预测模型概述
- 5-2 类别预测模型的实现原理
- 5-3 类别预测模型的种类
- 5-4 logistic回归
- 5-5 神经网络的基本原理
- 5-6 神经网络的实现
- 5-7 树模型的基本原理
- 5-8 树模型的实现
- 5-9 随机梯度下降分类
第6章 聚类模型的训练
- 6-1 聚类分析概述
- 6-2 聚类分析的种类
- 6-3 K均值聚类
- 6-4 birch聚类
- 6-5 DBSCAN聚类
第7章 评估模型效果
- 7-1 类别预测模型的评价
- 7-2 分类模型评价:混淆矩阵
- 7-3 分类模型评价:准确率与召回率
- 7-4 分类模型评价:结果的汇总
- 7-5 分类模型评价:ROC曲线
- 7-6 回归模型的评价
- 7-7 聚类模型的评价
- 7-8 将模型结果与随即预测结果相比较
第8章 数据的拆分
- 8-1 数据拆分方法概述
- 8-2 二分法的sklearn实现
- 8-3 交叉验证的sklearn的实现1
- 8-4 交叉验证的sklearn实现2
第9章 模型参数优化
- 9-1 如何改进数据挖掘模型的效果
- 9-2 参数的网格搜索
- 9-3 参数的随机搜索
- 9-4 验证曲线
- 9-5 学习曲线
第10章 模型集成
- 10-1 用模型集成改进效果的基本思路
- 10-2 投票分类器
- 10-3 模型集成的基本原理
- 10-4 Bagging方法的sklearn实现
- 10-5 随机森林
- 10-6 adaboost方法
- 10-7 GBDT方法
测试题
张文彤
博士,数据分析与挖掘专著的作者