离线批处理方案的应用场景不包括?
占用计算存储资源多
快速高效,实时的数据处理
数据处理格式多样
处理大规模数据
当大数据业务人员希望通过like关键字来查询Hive表中的某些数据时,需要添加以下哪个关键字符用于匹配数据?
%
A
$
&
银行进行客户购买力分析首先获取客户历史账单,确定其中各项商品的计算权重,得出每位客户的购买力评分并存储记录。最后将结果以图表显示。请问该过程对应于以下哪个项目数据流程设计。
数据可视化>数据源>数据落地>数据处理
数据源>数据落地>数据处理>数据可视化
数据源>数据处理>数据落地>数据可视化
数据可视化>数据源>数据处理>数据落地
离线批处理工具不包含以下哪项?
Spark
MapReduce
Storm
SQL
Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译,优化以及查询计划的生成。生成的查询计划存储在()中,并在随后由()调用执行。
HDFS、MapReduce
内存、MapReduce
HDFS、Yarn
HBase、Yarn
Hive创建()时,会将数据移动到数据仓库指向的路径;创建(),仅记录数据所在的路径,不对数据的位置做任何改变
内部表、外部表
内部表、元数据
原元数据、外部表
外部表、托管表
以下关于DataNode的描述不正确的是?
DataNode管理数据块元数据
DataNode执行数据块的读/写操作。
DataNode的数量受数据规模影响。
DataNode是用来存储数据库。
Spark读取任务参数的优先级是?
代码配置>动态参数>配置文件
动态参数>代码配置>配置文件
配置文件>代码配置>动态参数
动态参数>配置文件>代码配置
下列哪个选项对批量数据处理组件的描述是不正确的?
Hive传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛海量数据下表现稳定,但是处理速度较慢。
MapReduce传统批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,使用广泛,海量数据下表现不稳定,但是处理速度较快。
SparkSQL新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据.处理速度高效。
Spark新型批处理引擎,可以用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,适合海量数据,处理速度高效。
ETL工具工作过程不包含以下哪项?
清洗
传递
加载
转换
以下关于HDFS适合做什么描述不正确的是?
流式数据读取
大文件存储与访问
大数据量吞吐
低延迟读取
某大数据业务人员对某些数据创建Hive表结构,其中某个数据为时间类型yyyyMMdd,那么可以使用以下哪一项作为字段类型?
varchar
string
double
int
以下哪种Hive的方法可以用来对数据求和?
trim
data
avg
sum
alter table tableName set tblproperties(EXTERNAL'='FALSE');执行该Hive命令能实现以下哪一个目标?
修改外部表tableName为内部表
删除tableName表的元数据信息
修改内部表tableName为外部表
移动tableName数据到外部存储系统
以下关于HDFS的特点描述不正确的是?
大数据量吞吐
低延迟读取
流式数据读取
大文件存储与访问
Google发布的三篇论文是哪些?
GFS
HDFS
MapReduce
BigTable
以下哪些选项属于离线批处理的特点?
处理时间相对较长
数据不落地、存储量不大
数据吞吐量较大
处理数据量相对较大
大数据场景化解决方案包含以下哪些选项?
离线检索
实时检索
离线批处理
实时流处理
Spark是基于内存的,处理数据时产生的中间产物(计算结果)是存放在内存中,减少了对磁盘的I/O操作,大大的提升了数据的处理速度。
离线批处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用,离线处理对处理时间要求不高。