关于机器学习的定义,以下哪个说法是正确的?
机器学习是研究如何让计算机自动编写程序的学问
机器学习是研究"学习算法"的学问,其中"学习"定义为:对于某类任务T和性能度量P,如果一个计算机程序在任务T上以性能度量P衡量的性能随着经验E而自我完善,则称该程序从经验E中学习
机器学习就是深度学习,两者是同一个概念
机器学习只需要大量数据,不需要定义任务和性能度量
以下哪个场景最适合使用机器学习方法?
计算两个数的和
按照固定规则对数据进行排序
识别图片中的猫和狗(规则复杂,难以用数学公式描述)
执行简单的if-else判断逻辑
关于分类任务和回归任务的区别,以下说法正确的是?
分类任务输出连续数值,回归任务输出离散类别
分类任务和回归任务都属于无监督学习
分类任务输出离散类别值(如:是/否、猫/狗),回归任务输出连续数值(如:价格、温度)
分类任务不需要标注数据,回归任务需要标注数据
在强化学习中,模型如何学习?
从标注好的数据集中直接学习输入到输出的映射关系
基于数据内在相似性自动划分类别
通过与环境交互,感知环境状态,做出行动,获得奖惩,根据反馈调整策略,目标是最大化奖励函数
结合少量标注数据和大量未标注数据进行学习
关于训练集和测试集,以下说法错误的是?
训练集用于训练模型,测试集用于评估模型的泛化能力
测试集的数据模型在训练时应该从未见过
可以将所有数据都用作训练集,不需要测试集
训练集和测试集应该从同一数据源中划分出来
关于"脏"数据的常见问题,以下哪个不属于?
不完整:缺少属性值或包含缺失值
多噪音:含错误记录或异常点
不一致:存在矛盾或有差异的记录
数据量太大,需要更多存储空间
关于特征选择的三大方法,以下说法正确的是?
过滤法(Filter)需要训练多个模型,计算量大
包装器(Wrapper)与模型无关,独立评估特征相关性
嵌入法(Embedded)将特征选择作为模型构建的一部分,通过正则化惩罚简化模型,如LASSO回归
三种方法都不考虑特征间的关系
关于模型的泛化能力和拟合问题,以下说法正确的是?
训练误差小但泛化误差大,这是欠拟合的表现
训练误差大,模型未学到数据特征,这是过拟合的表现
欠拟合是因为模型过复杂,过拟合是因为模型过简单
过拟合是模型学习了训练数据的噪声,导致在新数据上表现差
关于回归任务的评估指标,以下说法错误的是?
MAE(平均绝对误差)的单位与目标变量相同,对异常值不敏感
MSE(均方误差)对大的误差惩罚更重,单位是目标变量单位的平方
R²(决定系数)的取值范围是[0,1],值越大拟合效果越好
R² = 0表示模型完美拟合了数据
关于分类任务的评估指标,以下说法正确的是?
准确率 = (TP + FP) / (TP + TN + FP + FN),适用于所有场景
精确率 = TP / (TP + FP),关注减少假阳性(误报),适用于垃圾邮件检测等场景
召回率 = TP / (TP + TN),关注减少假阴性(漏报)
F1-score是精确率和召回率的算术平均