Apache推出Structured Streaming的主要原因是
原始流式处理效率低
原始流式处理无法满足数据复杂性需求
原始流处理没有窗口处理
原始流式处理模式不足
以下关于Spark Streaming,描述错误的是
流批处理不统一
不支持事件时间
一致性语义需要手动实现
每批数据会被转换成DateFrame
Structured Streaming的核心是
流批处理统一
一致性语义
实时数据流表
事件时间
关于Structured Streaming输入数据源的描述,错误的是
支持socket数据源
支持文件数据源
支持Kafka数据源
数据源首先转成RDD
Structured Streaming中的数据输出模式描述错误的是
append模式:将新的数据进行追加并输出,支持聚合查询
append模式:将新的数据进行追加并输出,支持简单查询
update模式:更新的数据进行输出,支持聚合查询
update模式:更新的数据进行输出,不支持排序查询
Structured Streaming输出支持的接收器有
File,Kafka,Foreach,Command,Memory
File,Kafka,ForeachBatch,Console,Memory
File,Kafka,Forecho,Console,Memory
HDFS,Kafka,Foreach,Console,Memory
以下关于Structured Streaming输出操作描述正确的是
File接收处理后的RDD,以文件形式输出到HDFS对应目录下
使用Kafka接收器必须先创建主题
Memory接收器以表的形式输出到缓存中
Foreach接收器和ForeachBatch接收器完全相同
Structured Streaming的窗口操作描述正确的是
滚动窗口的窗口之间没有重叠
滑动窗口中一个数据不可以属于多个窗口
会话窗口通过调整会话长度调整窗口大小
窗口操作的时间分为:事件时间、间隔时间和处理时间
Structured Streaming支持两种风格的数据处理:DSL风格和SQL风格
Structured Streaming可以理解为Spark Streaming和Spark SQL的融合