数据挖掘属于数据存储的一种场景
数据挖掘可以使用现成工具实现,如Excel
请匹配以下工具的描述
Numpy
以array数组作为基本数据类型
Pandas
可以读取本地excel和csv文件
Anaconda
发行版Python
scikit-learn
提供多种数据集和算法
人工智能四要素是
数据
算法
框架
场景
机器学习和数据挖掘的关系是
机器学习>数据挖掘
机器学习<数据挖掘
机器学习=数据挖掘
无关
算法模型是从什么中获取大量经验的
历史数据
预测数据
带标签的数据
人造数据
按学习方式划分,算法可以分为几种类型
有监督学习
无监督学习
半监督学习
强化学习
有监督学习和无监督学习的本质区别在于,有无______
数据
标签
算法
环境交互
请匹配以下名词释义
回归任务
连续值预测
分类任务
离散值预测
强化学习
环境交互
聚类任务
无标签
训练集和测试集的比例通常设置为
1:9
8:2
4:6
9:1
10行5列(含表前列)的结构化数据,说法正确的是
表示有10个样本
表示有5个样本
表示有4个样本
表示有4个特征
数据中0越多,表述数据越_____
稀疏
稠密
离散
方差小
用什么指标反映数据集的离散程度
准确率
方差
损失函数
混淆矩阵
匹配以下接口功能
读取csv文件
pd.read_csv()
创建一维数组
np.array([1,2,3])
获取数组形状
a.shape()
数组切片
a[2:6]
改变数组形状
a.reshape()
请匹配以下接口功能
导入预置数据集
from sklearn.datasets import load_iris
导入预置算法
from sklearn import linear_model
查看数据集标签
target = iris.target
实例化数据集
iris = load_iris()
查看数据集数据
data = iris.data
以下哪些属于缺失值填充方法
众数
KNN
minmax归一化
变量映射
变量映射的填充方法会降低数据维度
异常值可以不被完全处理
请从前到后排列以下步骤
数据采集
数据清洗
算法选择
算法训练
算法部署
以下哪些方法可以用于异常值检测
3σ原则
箱型图
散点图
基于分类模型
归一化是指,将数据处理成接近正态分布