课程适合人群: 机器学习开发、测试、运维工程师。熟悉掌握Python语言、有一定的高等数学、线性代数和概率论知识
本课程重点解答&解决: 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。
本课程亮点+核心价值介绍: 本课程介绍机器学习的python实现。包括“数据分析”“机器学习算法”“数据处理和优化”三大部分。数据分析中主要介绍“基本库”和“数据分析”。机器学习算法中主要介绍“原理”“K邻近算法(KNeighbors)”“朴素贝叶斯”“支持向量机(SVM)”“决策树(DecisionTree)”“集成学习”“聚类”“降维”“神经网络(MLP)”的理念和如何用Python实现。数据处理和优化介绍”数据处理“”数据表达与特征工程“”模型评估“和”管道模型“。
课长: 5天
大纲内容
1数据分析
1.1基本库
1.1.1 Numpy
1.1.2 Pandas
1.1.3 Matplotlib
1.1.4 Scipy
1.2数据分析
1.2.1数据加载
cvs文件
Excel文件
数据库
1.2.2数据清洗和准备
数据概览和类型转换
处理丢失数据
处理重复数据
数据转换
数据替换
数据离散化
数据拆分
过滤异常值
字符串处理
1.2.3数据规整
层次化索引
合并数据集
重塑和轴向旋转
1.2.4可视化
折线
柱状图
直方图和密度图
散点图
1.2.5分组聚合
分组
聚合
基本聚合
桶分析
2 机器学习算法
2.1原理
2.2线性模型(Linear)
2.2.1线性模型原理
2.2.2线性回归(LinearRegression)
2.2.3StatsModels的线性回归
2.2.4逻辑回归算法(Logistical Regression)
2.2.5岭回归算法(Ridge Regression)
2.2.6套索回归算法(Lasso Regression)
2.2.7弹性网络(Elastic Net)
2.3K邻近算法(KNeighbors)
2.3.1K邻近算法原理
2.3.2K邻近分类算法(KNeighborsClassifier)
2.3.3K邻近回归算法(KNeighborsRegressor)
2.4朴素贝叶斯
2.4.1朴素贝叶斯原理(NB)
2.4.2贝努利贝叶斯(BernoulliNB)
2.4.3高斯贝叶斯(GaussianNB)
2.4.4多项式贝叶斯(MultinomialNB)
2.5支持向量机(SVM)
2.5.1支持向量机原理
2.5.2支持向量机分类算法(SVC)
2.5.3支持向量机线性分类算法(LinearSVC)
2.5.4支持向量机回归算法(SVR)
2.5.5支持向量机线性回归算法(LinearSVR)
2.6决策树(DecisionTree)
2.6.1决策树原理
2.6.2决策树分类算法(DecisionTreeClassifier)
2.6.3决策树回归算法(DecisionTreeRegressor)
2.7集成学习
2.7.1集成学习原理
2.7.2随机森林算法(RandomForest)
随机森林分类算法(RandomForestClassifier)
随机森林回归算法(RandomForestRegressor)
2.7.3AdaBost(Adaptive Boosting)
2.7.4装袋算法(Bagging)
2.7.5投票分类(Voting Classifier)
2.7.6堆垛分类(Stacking Classifier)
2.8聚类
2.8.1聚类原理
2.8.2K均值聚类(k-means)
2.8.3凝聚聚类(agglomerative)
2.8.4DBSCAN
2.9降维
2.9.1降维原理
2.9.2主生成分析(PCA)
2.9.3非负矩阵分解(NMF)
2.9.4线性判别分析(LDA)
2.10神经网络(MLP)
2.10.1神经网络原理
2.10.2神经网络分类算法(MLPClassifier)
2.10.3神经网络分类算法(MLPRegressor)
3 数据处理和优化
3.1数据处理
3.2数据表达与特征工程
3.3模型评估
3.4管道模型
1数据分析
1.1基本库
1.1.1 Numpy
1.1.2 Pandas
1.1.3 Matplotlib
1.1.4 Scipy
1.2数据分析
1.2.1数据加载
cvs文件
Excel文件
数据库
1.2.2数据清洗和准备
数据概览和类型转换
处理丢失数据
处理重复数据
数据转换
数据替换
数据离散化
数据拆分
过滤异常值
字符串处理
1.2.3数据规整
层次化索引
合并数据集
重塑和轴向旋转
1.2.4可视化
折线
柱状图
直方图和密度图
散点图
1.2.5分组聚合
分组
聚合
基本聚合
桶分析
2 机器学习算法
2.1原理
2.2线性模型(Linear)
2.2.1线性模型原理
2.2.2线性回归(LinearRegression)
2.2.3StatsModels的线性回归
2.2.4逻辑回归算法(Logistical Regression)
2.2.5岭回归算法(Ridge Regression)
2.2.6套索回归算法(Lasso Regression)
2.2.7弹性网络(Elastic Net)
2.3K邻近算法(KNeighbors)
2.3.1K邻近算法原理
2.3.2K邻近分类算法(KNeighborsClassifier)
2.3.3K邻近回归算法(KNeighborsRegressor)
2.4朴素贝叶斯
2.4.1朴素贝叶斯原理(NB)
2.4.2贝努利贝叶斯(BernoulliNB)
2.4.3高斯贝叶斯(GaussianNB)
2.4.4多项式贝叶斯(MultinomialNB)
2.5支持向量机(SVM)
2.5.1支持向量机原理
2.5.2支持向量机分类算法(SVC)
2.5.3支持向量机线性分类算法(LinearSVC)
2.5.4支持向量机回归算法(SVR)
2.5.5支持向量机线性回归算法(LinearSVR)
2.6决策树(DecisionTree)
2.6.1决策树原理
2.6.2决策树分类算法(DecisionTreeClassifier)
2.6.3决策树回归算法(DecisionTreeRegressor)
2.7集成学习
2.7.1集成学习原理
2.7.2随机森林算法(RandomForest)
随机森林分类算法(RandomForestClassifier)
随机森林回归算法(RandomForestRegressor)
2.7.3AdaBost(Adaptive Boosting)
2.7.4装袋算法(Bagging)
2.7.5投票分类(Voting Classifier)
2.7.6堆垛分类(Stacking Classifier)
2.8聚类
2.8.1聚类原理
2.8.2K均值聚类(k-means)
2.8.3凝聚聚类(agglomerative)
2.8.4DBSCAN
2.9降维
2.9.1降维原理
2.9.2主生成分析(PCA)
2.9.3非负矩阵分解(NMF)
2.9.4线性判别分析(LDA)
2.10神经网络(MLP)
2.10.1神经网络原理
2.10.2神经网络分类算法(MLPClassifier)
2.10.3神经网络分类算法(MLPRegressor)
3 数据处理和优化
3.1数据处理
3.2数据表达与特征工程
3.3模型评估
3.4管道模型
