Spark_MLlib基础

Spark_MLlib基础

收藏豆荚
剥了 0 次
年级:大学
科目:职业发展
PurePulsar
2026-04-29
12 颗豆豆
1. 单选题
45 秒

机器学习使计算机能从数据中提取信息,发现数据中的规律和模式,从而进行

预测和决策

训练和预测

学习和训练

标记和清洗

2. 单选题
45 秒

关于有监督学习正确的是

通过已有的训练样本,即已知数据以及其对应的输出,训练得到一个最优模型

针对数据类别未知的训练样本,需要直接对数据进行建模

文本处理的某些特征提取都属于有监督学习

使用大量未知的数据,以及少量已知数据,来进行模式识别工作

3. 单选题
45 秒

使用Spark MLlib进行机器学习应用说法错误的是

我们只需要关注数据

我们需要传递参数和调试参数

我们需要定义机器学习算法,像分类、回归、聚类等

可以快速地处理大量的数据

4. 单选题
45 秒

数据特征提取属于那个阶段

训练模型评估阶段

部署预测阶段

数据准备阶段 

系统部署阶段

5. 多选题
45 秒

Spark MLlib支持的数据类型有

本地向量

带标签本地向量

本地矩阵

带标签本地矩阵

6. 单选题
45 秒

以下那中数据类型通常用来作训练样本

本地向量

本地矩阵

标记点

标记矩阵

7. 单选题
45 秒

关于本地向量描述错误的是

本地向量分为密集向量(Sparse)和稀疏向量(Dense)

Spark MLlib定义了Vectors类来生成本地向量数据

密集向量是由Double类型的数组构成

稀疏向量是由向量长度和两个并列的数组(索引,值)构成

8. 单选题
45 秒

密集向量需要Python哪个模块的支持

pyspark

numpy

Vectors

Double

9. 单选题
45 秒

以下不是Spark MLlib中摘要统计的是

均值

方差

最大值、最小值

相关性

10. 单选题
45 秒

分层抽样sampleBy(col, fractions, seed)中,关于seed描述错误的是

是指抽样的随机程度,值越大随机性越大

seed决定“哪一行被抽中”

seed 可以是任意整数(正数、负数、0 都行)

seed可以不放

11. 单选题
45 秒

Spark MLlib中线性支持向量机的使用描述正确的是

线性支持向量机属于统计计算

线性支持向量机既支持二元分类也支持多元分类

使用线性支持向量机需要先训练模型

线性支持向量机在机器学习中属于半有监督学习

12. 单选题
45 秒

关于逻辑回归描述错误的是

逻辑回归是一个分类算法

网上的广告推荐用的就是它

Spark MLlib支持二项式逻辑回归和多项式逻辑回归

逻辑回归不需要训练模型就能使用

剥豆豆
金牌
会员
无限剥豆豆游戏,更详尽的游戏报告,更多学员的支持
仅需0.6/日
你可能喜欢
2026年3+1活动周-党史&趣味问答
剥了 4 次
中国传统医药小问答
剥了 3 次
第一次试卷
剥了 2 次
骆驼
剥了 2 次
The freshman challenge
剥了 4 次