离线批处理场景练习
离线批处理场景练习
收藏豆荚
剥了 3 次
年级:其他
科目:其他
zhizao
2025-03-13
20 颗豆豆
1. 单选题
30 秒

离线批处理方案的应用场景不包括?

占用计算存储资源多

快速高效,实时的数据处理

数据处理格式多样

处理大规模数据

2. 单选题
30 秒

当大数据业务人员希望通过like关键字来查询Hive表中的某些数据时,需要添加以下哪个关键字符用于匹配数据?

%

A

$

&

3. 单选题
30 秒

银行进行客户购买力分析首先获取客户历史账单,确定其中各项商品的计算权重,得出每位客户的购买力评分并存储记录。最后将结果以图表显示。请问该过程对应于以下哪个项目数据流程设计。

数据可视化>数据源>数据落地>数据处理

数据源>数据落地>数据处理>数据可视化

数据源>数据处理>数据落地>数据可视化

数据可视化>数据源>数据处理>数据落地

4. 单选题
30 秒

离线批处理工具不包含以下哪项?

Spark

MapReduce

Storm

SQL

5. 单选题
30 秒

Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译,优化以及查询计划的生成。生成的查询计划存储在()中,并在随后由()调用执行。

HDFS、MapReduce

内存、MapReduce

HDFS、Yarn

HBase、Yarn

6. 单选题
30 秒

Hive创建()时,会将数据移动到数据仓库指向的路径;创建(),仅记录数据所在的路径,不对数据的位置做任何改变

内部表、外部表

内部表、元数据

原元数据、外部表

外部表、托管表

7. 单选题
30 秒

以下关于DataNode的描述不正确的是?

DataNode管理数据块元数据

DataNode执行数据块的读/写操作。

DataNode的数量受数据规模影响。

DataNode是用来存储数据库。

8. 单选题
30 秒

Spark读取任务参数的优先级是?

代码配置>动态参数>配置文件

动态参数>代码配置>配置文件

配置文件>代码配置>动态参数

动态参数>配置文件>代码配置

9. 单选题
30 秒

下列哪个选项对批量数据处理组件的描述是不正确的?

Hive传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛海量数据下表现稳定,但是处理速度较慢。

MapReduce传统批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,使用广泛,海量数据下表现不稳定,但是处理速度较快。

SparkSQL新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据.处理速度高效。

Spark新型批处理引擎,可以用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,适合海量数据,处理速度高效。

10. 单选题
30 秒

ETL工具工作过程不包含以下哪项?

清洗

传递

加载

转换

11. 单选题
30 秒

以下关于HDFS适合做什么描述不正确的是?

流式数据读取

大文件存储与访问

大数据量吞吐

低延迟读取

12. 单选题
30 秒

某大数据业务人员对某些数据创建Hive表结构,其中某个数据为时间类型yyyyMMdd,那么可以使用以下哪一项作为字段类型?

varchar

string

double

int

13. 单选题
30 秒

以下哪种Hive的方法可以用来对数据求和?

trim

data

avg

sum

14. 单选题
30 秒

alter table tableName set tblproperties(EXTERNAL'='FALSE');执行该Hive命令能实现以下哪一个目标?

修改外部表tableName为内部表

删除tableName表的元数据信息

修改内部表tableName为外部表

移动tableName数据到外部存储系统

15. 单选题
30 秒

以下关于HDFS的特点描述不正确的是?

大数据量吞吐

低延迟读取

流式数据读取

大文件存储与访问

16. 多选题
30 秒

Google发布的三篇论文是哪些?

GFS

HDFS

MapReduce

BigTable

17. 多选题
30 秒

以下哪些选项属于离线批处理的特点?

处理时间相对较长

数据不落地、存储量不大

数据吞吐量较大

处理数据量相对较大

18. 多选题
30 秒

大数据场景化解决方案包含以下哪些选项?

离线检索

实时检索

离线批处理

实时流处理

19. 判断题
30 秒

Spark是基于内存的,处理数据时产生的中间产物(计算结果)是存放在内存中,减少了对磁盘的I/O操作,大大的提升了数据的处理速度。

20. 判断题
30 秒

离线批处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用,离线处理对处理时间要求不高。