关于 PCA 的正交基,以下表述最准确的是?
新正交基是原特征空间的任意一组正交向量
新正交基是能使数据投影后方差最大的一组正交向量
新正交基必须与原特征向量完全一致
新正交基仅用于增加数据维度
LDA 中 “类内方差最小,类间方差最大” 的数学本质是优化什么目标?
最大化(类间散度矩阵行列式 / 类内散度矩阵行列式)
最小化(类间散度矩阵行列式 + 类内散度矩阵行列式)
最大化(类内散度矩阵行列式 - 类间散度矩阵行列式)
最小化(类间散度矩阵行列式 / 类内散度矩阵行列式)
核方法在降维时,为何能处理非线性数据?
直接在低维空间对非线性关系做线性拟合
先将低维数据映射到高维(可能线性可分),再在高维用线性降维方法
强制将高维非线性数据压缩到低维线性空间
仅对线性数据有效,无法处理非线性
等距映射(Isomap)中 “测地线距离” 的核心意义是?
替代高维空间中不准确的欧氏距离,反映流形表面真实距离
等同于高维空间中的欧氏距离
仅用于低维空间内的距离计算
是随机生成的距离,无实际几何意义
局部线性嵌入(LLE)中 “重构权重” 的作用是?
衡量低维空间中邻域点对目标点的非线性贡献
反映高维空间中邻域点对目标点的线性贡献,且低维空间需保持该权重
仅用于高维空间的特征筛选
随机分配权重以简化计算
降维的过程是怎样的?
降低数据集维度,且保证主要信息相似
降低维度并丢弃所有冗余信息(无保留)
增加维度以包含更多信息
仅选择少量特征,不考虑信息保留
当数据集有类别标签时,若要同时优化降维和分类性能,应优先选择哪种方法?
无监督的 PCA
有监督的 LDA
无监督的 Isomap
特征选择(仅选子集)
PCA 中 “信息丢失最少” 是通过什么来保证的?
按主成分的方差从大到小排序,保留前 k 个主成分
随机选择 k 个主成分
保留方差最小的 k 个主成分
仅保留与目标变量无关的主成分
核 PCA 与传统 PCA 的主要区别是?
核 PCA 是有监督的,传统 PCA 是无监督的
核 PCA 先通过核函数将数据映射到高维(可能线性),再做 PCA
核 PCA 只能处理线性数据,传统 PCA 能处理非线性
核 PCA 降维后维度一定比传统 PCA 高
流形学习与线性降维方法(如 PCA、LDA)的最本质区别是?
流形学习是有监督的,线性降维是无监督的
流形学习假设数据嵌入在低维流形中,可处理非线性结构;线性降维假设线性结构
流形学习只能降维到 2 维或 3 维,线性降维无此限制
流形学习计算速度比线性降维快
机器学习中考虑降维的核心原因是?
维度灾难引发过拟合
数据量过小需要简化
计算资源充足想增加复杂度
特征太少需要扩充
以下哪项不是降维的好处?
减少数据存储所需空间
消除数据冗余,提高计算效率
增加数据维度以提升模型复杂度
去除噪声,提高模型性能
特征选择与特征抽取的本质区别是?
特征选择生成原特征的映射,数值改变
特征选择保留原特征的子集,数值不变
特征抽取保留原特征的子集,数值不变
特征抽取不改变原有特征空间
关于 PCA(主成分分析),正确的是?
是有监督的降维方法
目标是找到一组新正交基重新描述数据空间
降维最多到类别数 k-1 维
选择分类性能最好的投影方向
LDA(线性判别式分析)的核心思想是?
投影后类内方差最小,类间方差最大
选择样本点投影具有最大方差的方向
不考虑样本类别输出
降维无维度限制
LDA 与 PCA 的相同点不包括以下哪项?
均可对数据降维
均使用矩阵特征分解思想
LDA 是有监督,PCA 是无监督
均假设数据符合高斯分布
流形学习的核心思想假设是?
低维数据实际嵌入在高维流形结构中
高维数据实际嵌入在低维流形结构中
数据仅能在高维空间体现特征
数据在低维和高维空间特征完全无关
局部线性嵌入(LLE)的步骤不包括?
为每个点寻找邻域 “邻居”
计算用邻居线性表示该点的重构权重
用最短路径算法计算测地线距离
在低维空间要求该点仍被相同权重邻居线性表示
特征选择的特点是?
生成新的特征,是原特征的映射
保留原来特征的一个子集,数值不变
必须将维度降到 2 维或 3 维
会改变原有特征的数值
PCA 的目标是?
在保证类间方差最大的原则下简化数据
在力保数据信息丢失最少的原则下简化多变量数据
仅保留数据中噪声最大的成分
必须使用监督信息进行降维
LDA 降维最多能降到的维度是?
无限制
类别数 k
类别数 k-1
特征数 n(n 为原特征数)
为实现数据可视化,降维通常需要将维度减少到?
4 维或 5 维
2 维或 3 维
任意维度都可可视化
1 维(仅能表示大小)
流形学习属于哪类降维方法?
线性降维方法
有监督降维方法(仅)
非线性降维方法
无监督降维方法(仅)
PCA 和 LDA 都假设数据符合什么分布?
泊松分布
均匀分布
高斯分布(正态分布)
指数分布
LDA 可以用于什么任务?
仅降维
仅分类
降维与分类
仅聚类
特征抽取的结果是?
原来特征的一个子集
新特征是原来特征的一个映射
必须丢弃所有冗余特征
仅保留与目标无关的特征