机器学习使计算机能从数据中提取信息,发现数据中的规律和模式,从而进行
预测和决策
训练和预测
学习和训练
标记和清洗
关于有监督学习正确的是
通过已有的训练样本,即已知数据以及其对应的输出,训练得到一个最优模型
针对数据类别未知的训练样本,需要直接对数据进行建模
文本处理的某些特征提取都属于有监督学习
使用大量未知的数据,以及少量已知数据,来进行模式识别工作
使用Spark MLlib进行机器学习应用说法错误的是
我们只需要关注数据
我们需要传递参数和调试参数
我们需要定义机器学习算法,像分类、回归、聚类等
可以快速地处理大量的数据
数据特征提取属于那个阶段
训练模型评估阶段
部署预测阶段
数据准备阶段
系统部署阶段
Spark MLlib支持的数据类型有
本地向量
带标签本地向量
本地矩阵
带标签本地矩阵
以下那中数据类型通常用来作训练样本
本地向量
本地矩阵
标记点
标记矩阵
关于本地向量描述错误的是
本地向量分为密集向量(Sparse)和稀疏向量(Dense)
Spark MLlib定义了Vectors类来生成本地向量数据
密集向量是由Double类型的数组构成
稀疏向量是由向量长度和两个并列的数组(索引,值)构成
密集向量需要Python哪个模块的支持
pyspark
numpy
Vectors
Double
以下不是Spark MLlib中摘要统计的是
均值
方差
最大值、最小值
相关性
分层抽样sampleBy(col, fractions, seed)中,关于seed描述错误的是
是指抽样的随机程度,值越大随机性越大
seed决定“哪一行被抽中”
seed 可以是任意整数(正数、负数、0 都行)
seed可以不放
Spark MLlib中线性支持向量机的使用描述正确的是
线性支持向量机属于统计计算
线性支持向量机既支持二元分类也支持多元分类
使用线性支持向量机需要先训练模型
线性支持向量机在机器学习中属于半有监督学习
关于逻辑回归描述错误的是
逻辑回归是一个分类算法
网上的广告推荐用的就是它
Spark MLlib支持二项式逻辑回归和多项式逻辑回归
逻辑回归不需要训练模型就能使用