机器学习概念: 对于某类任务T和性能指标P,若一个计算机程序在任务T中以P度量的性能会随着经验E自我改善,则我们称该程序在从经验E中学习。是一种人工智能技术。
深度学习
神经网络
人工智能
机器学习
机器学习目标:让计算机系统能够基于经验(数据)自动改进性能或进行预测,决策等,最小化学习误差。
减少计算资源
提高计算效率
最大化学习误差
最小化学习误差
机器学习任务:监督学习(分类,回归),无监督学习(聚类,降维,概率密度估计),强化学习。
自然语言处理
机器学习任务
计算机视觉
深度学习
机器学习三要素:1.函数集合{f1,f2,...};2.目标函数J(f):函数的好坏;3.优化算法:找到最佳函数。f*=argminfJ(f)。
优化算法
机器学习模型
函数集合
目标函数
机器学习处理数据的步骤:明确任务,收集数据,数据预处理和特征工程,模型训练,模型评估与超参数调优,模型融合,模型应用。
数据收集
模型部署
数据标注
数据清洗
机器学习作用:预测未来趋势、事件等,精准分类识别各类数据,挖掘数据中的模式与关联,助力自动化决策。
降低计算精度
提升决策效率
减少数据维度
增加模型复杂度
过拟合:是模型对训练数据学习得太好了,以至于它把训练数据中的噪声、随机误差等一些不具有普遍代表性的特征也都学到了。
模型准确率降低
模型泛化能力减弱
模型准确率提高
模型泛化能力增强
欠拟合:指的是机器学习模型在训练过程中,没有充分学习到数据中的特征和模式。
模型过于简单
模型过于复杂
数据量过多
特征选择过多
过拟合和欠拟合会导致什么后果,应该怎样避免:过拟合导致模型泛化能力弱,发生明显的预测错误,通过增加训练数据量、对模型进行裁剪,正则化的方式来缓解,而欠拟合则会导致模型不能对数据进行很好地拟合,解决方法是通过提高特征的数量和质量,增加模型复杂度来防止欠拟合。
增加数据量
减少数据量
增加模型复杂度
减少模型复杂度
模型的泛化能力和鲁棒性怎么评估:泛化能力:用测试集评估,看准确率等指标。进行交叉验证,将训练数据分成样本数目大致相等的K份,每折样本轮流作为验证集,其余K-1折样本为训练集,观察各次表现。鲁棒性:加噪声看性能影响。用对抗样本测准确率。对数据变换后测试。
增加数据量
增加特征数量
交叉验证
减少特征数量
模型评估的主要指标:分类任务:准确率:预测正确的样本占总样本比例。召回率:预测出的正例占实际正例的比例。F1值:综合准确率和召回率的指标。回归任务:均方误差(MSE):预测值与真实值误差平方的均值。平均绝对误差(MAE):预测值与真实值绝对误差的均值。
F1值
准确率
召回率
均方误差(MSE)
监督学习和半监督学习和无监督学习:监督学习是指样本集合中包含标签的机器学习,无监督学习是无标签的机器学习,而半监督学习介于二者之间。
强化学习
半监督学习
无监督学习
监督学习
正则化的概念:在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚⾄删除某个特征的影响)。
减少学习效率
正则化
最大化特征影响
最小化误差
L2正则化:作⽤:可以使得其中⼀些W的都很⼩,都接近于0,削弱某个特征的影响。
L2正则化
L0正则化
L1正则化
无正则化
L1正则化:作⽤:可以使得其中⼀些W的值直接为0,删除这个特征的影响。
无正则化
L2正则化
L1正则化
L0正则化
线性回归概念:线性回归(Linear regression)是利⽤回归⽅程(函数)对⼀个或多个⾃变量(特征值)和因变量(⽬标值)之间关系进⾏建模的⼀种分析⽅式。
决策树回归
线性回归
随机森林回归
逻辑回归
线性回归作用:分析变量间线性关系,用于预测数值型结果。
预测数值结果
预测分类结果
预测图像结果
预测文本结果
线性回归地位:是基础且常用的机器学习/统计分析方法,为理解数据关系、初步建模提供简单有效的途径,是很多复杂模型的基础组成部分。
特殊模型
复杂模型
高级模型
基础模型
线性回归解决了什么问题:预测数值型变量,分析变量间关系。
聚类问题
关联规则问题
回归问题
分类问题
线性回归的输出形式:一次函数;(是一种用于描述自变量(特征)与因变量之间线性关系的统计模型。)
一次函数
对数函数
二次函数
指数函数
线性回归的优势:简单直观,
复杂难懂
难以理解
简单直观
难以实现