林子雨大数据技术原理与运用期末复习
作者:mmseoamin日期:2023-12-25

一、填空题

1.大数据的数据结构类型包括结构化数据、半结构化数据和___非结构化数据____。

2.大数据的4V10是(只填英文)__数据量大__Volume____、_数据类型多_Variety____、_处理速度快_Velocity____、__价值密度低_Value____和___On-Line____。(5.0分)

  1. 大数据预处理方法包括___数据清洗___、___数据集成_____、___数据变换___和___数据规约_____。

4.四种大数据分析处理系统是批量数据处理(如Hadoop_______)、流式数据处理(如      Storm_____)、交互式数据处理(如Spark________)和图数据处理(如Trinity)。

5.Tableau是一个功能强大的__可视化_____数据分析软件。

6.相比Hadoop1.0,Hadoop2.0引入___Yarn___,用于管理资源和调度任务。

7.HDFS是Hadoop的__分布式文件__系统,负责__存储____和管理数据。

  1. Hadoop文件系统的元数据Metadata包括______名称空间_______、文件到文件块的映射和文件块到___DataNode____的映射三部分。

9、分布式文件系统HDFS由以下组成(只填英文):

1客户端Client,负责把文件切分成小的Block,获取文件的位置信息,读取或者写入数据等等。

2文件目录营理节点___NameNode___,负责整个分布式文件系统的元数据(MetaData)管理。

3.文件存储节点___DataNode___,负责文件数据的存储和读写操作,HDFS将文件数据分割成若干块

(block),每个文件存储节点存储一部分block,这样文件就分布存储在整个HDFS服务器集群中。

4检查点节点____SecondaryNamenode____,是文件存储节点的冷备份,辅助、分担文件目录管理节点工作量。在HA架构里它不存在了,取而代之是热备份,提供高可用性,解决单点故障问题。

10MapReduce采用分而治之的思想,___Maper___是一个映射函数,对列表的

每一个元素进行指定的操作。____Reducer____是一个化简函数,对列表的元素进行合并、归约。

11.NoSQL的四种类型:___键值___存储,如Redis;___列___存储,如HBase;___面向文档___存储,如MongoDB;___图形___存储,如Neo4J。

12相比Hadoop1.0,Hadoop2.0引入___Yarn___,用于营理资源和调度任务。

13.HDFS是Hadoop的___分布式文件___系统,负责___存储___和管理数据。

14.HBase是Hadoop的数据库,是利用Hadoop的___HDFS___作为其文件存储系统,利用Hadoop的___MapReduce___处理Hbase中的海量数据。利用___Zookeeper___作为其协调工具。HBase的体系结构是一个主从式的结构,主节点___HMaster___在整个集群当中只有—个在运行,从节点HRegionServer有很多个在运行。

15.Spark尤其适合__迭代____运算和交互式数据分析,能够提升大数据处理的实时性和准确性,一个主要原因是没有用HDFS,而是用__内存____存储中间结果。

16.HBase是Hadoop的数据库,是利用Hadoop的______作为其文件存储系统,利用Hadoop的______来处理Hbase中的海量数据。利用______作为其协调工具HBase的体系结构是一个主从式的结构,主节点______在整个集群当中只有一个在运行,从节点HRegionServer有很多个在运行。

17CAP原则又称CAP定理,指的是在一个分布式系统中有三个特性(填中文):___一致性___(Consistency)、___可用性___    (Availability)      ___分区容错性___(Partition tolerance)。CAP原则指的是,这三个要素最多只能同时实现___两___个,不可能三者兼顾。

18Spark室用三种编程语言、和___Scala___,___Java___和__Python____。

19.RDD执行过程为一个DAG,根据RDD之间的依赖关系将DAG图划分为不同的阶段,RDD之间的依赖关系分为:___窄依赖___和___宽依赖___。

20在HadoopMapReduce1.0,jobtracker负责资源管理和job掉度/监视,2.0采用Yarn架构,将jobtracker的功能拆分成两个部分(只填英文)__ResourceManager____(英文),负责资源管理,和ApplicationMaster,负责管理整个任务的生命周期。另外,将TaskTracker用___NodeManager___(英文)取代,负责管理集群中单个计算节点的任务。

21创建HDFS的路径/aa,从本地当前目录上传文件abc.txt到HDFS的路径/aa下,SHELL命令

Hdfs dfs-mkdir______/aa

hdfsdfs-put___abc.txt___/aa

22Hive的___元数据___信息存储在MySQL上,另一部分实际的数据文件存放在HDFS上。

二解答题:

15从本地当前目录上传文件abc.txt到HDFS的路径/aa下,SHELL命令是:   (10.0分)

____hdfs__dfs-put abc.txt/aa

或者

Hdfs dfs-copyFromLocal______abc.txt/aa

16运行scala程序计算SPARK_HOME路径下的README文件中包含"a"的行数和包含"b"的行数。

写出scala程序,并上传运行结果截图。

17补充程序,实现把本地某目录下的文件abc.txt上传到HDFS某个目录下。

public class HDFSUpload{

private static InputStream input

private static OutputStream output;

public static void main(String[] args)throws IOException{

//创建HDFS连接对象client

Configuration conf=new Configuration();

conf.set("fs.defaultFS","hdfs://bigdata128:9000"); FileSystem client=FileSystem.get(_conf__);

//创建本地文件的输入流

input=new FileinputStream(“c:\hdfs\abc.txt”);

//创建HDFS的输出流

output=client._create__(new Path("/adir/aaout.txt"));

//写文件到HDFS

IOUtils.copy(input,output);

//防止输出数据不完整

output.flush();

//关闭输入输出流

input.close();

output.close();

}

}

第一章

1.4V1O:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)。On-Line。

2.大数据的数据结构类型包括:结构化数据、半结构化数据、非结构化数据

3.大数据关键技术:数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护。

4.大数据预处理方法:数据清洗、数据集成、数据变换、数据规约。

6.四种大数据分析处理系统是批量数据处理(如Hadoop)、流式数据处理(如Storm)、交互式数据处理(如Spark)和图数据处理(如Trinity)。

第二章

6.Hadoop是基于Java语言开发的。

7.Tableau是一个功能强大的可视化数据分析软件。

8.Hadoop的特性:高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux操作系统上、支持多种编程语言。

9.Hadoop的核心是分布式文件系统(HDFS)和MapReduce。HDFS负责存储和管理数据。

10.MapReduce采用分而治之的思想,Maper是一个映射函数,对列表的每一个元素进行指定的操作。Reducer是一个化简函数,对列表的元素进行合并、归约。

11.Hadoop生态系统:HDFS、Hbase、MapReduce、Hive、Pig、Mahout、ZooKeeper、Flume、Sqoop、Ambari。

12.谷歌的三驾马车:GFS、MapReduce、BigTable。

13. Hadoop伪分布式运行启动后所具有的进程:NodeManager、 Jps NameNode 、DataNode、 SecondaryNameNode、 ResourceManager

第三章

14.Client客户端,HDFS的主节点Master Node,名称节点NameNode,

从节点Slave Node,数据节点DataNode。

块64MB

第四章

15.Hbase表由行和列组成,列分为若干个列族。表由若干行组成,每个行由行键标识。

16.行键,列族,列限定符,时间戳

17.访问表中的行三种方法:通过单个行键访问、通过一个行键的区间来访问,全表扫描

18.Hbase三级寻址:首先访问ZooKeeper,获取-ROOT-表的位置信息;访问-ROOT-表,获得.META表的信息;访问.META表,找到所需的Region位于哪个Region服务器,到该服务器读取数据(用户数据表)

19.Hbase系统架构:客户端、ZooKeeper服务器、Master主服务器、Region服务器。HDFS为底层数据存储系统

第七章

20.MapReduce:工作流程:Map任务运行在数据存储节点上,Map任务结束,生成中间结果,中间结果分发到Reduce任务,相同key的发送到同一个Reduce任务,Reduce任务对中间结果汇总计算得到结果,输出

21. MapReduce各个执行阶段:InputFormatàInputSplitàRecordReader(RR)àMapàShuffleàReduceàOutputFormat

第八章

22.Hadoop1.0不足

(1)抽象层次低(2)表达能力有限(3)开发者自己管理作业之间的依赖关系(4)难以看到程序整体逻辑(5)执行迭代操作效率低(6)资源浪费(7)实时性差

23. Hadoop1.0问题

HDFS(1)单一名称节点,存在单点失效问题(2)单一命名空间,无法实现资源隔离

MaoReduce(3)资源管理效率低

Hadoop2.0改进

HDFS(1)HDFS HA,提供名称节点热备份机制(2)HDFS联邦,管理多个命名空间

MapReduce(3)设计了新的资源管理框架Yarn

第九章

24.Hive系统架构主要由三个模块组成:用户接口模块、驱动模块以及元数据存储模块(Metastore)

第十章

25.Spark生态系统包含Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib、GraphX

26.Spark架构:集群管理器Cluster Manager、工作节点Work Node、任务控制节点Driver、执行进程Executor

27.RDD依赖关系:窄依赖和宽依赖

第十一章

28.数据分为静态数据和流数据,静态数据用批量计算,流数据用实时计算

29.流计算:高性能、海量式、实时性、分布式、易用性、可靠性

30.流计算框架:IBM InfoSphere Streams商业级高级计算平台、IBM StreamBase商业流计算系统。

开源流计算框架Twitter Storm、Yahoo!S4.

公司为支持自身业务开发的流计算框架:DStream(百度开发)、银河流数据处理平台(淘宝)、Super Mario

第十二章

31.大数据Lambda架构:批处理层(MapReduce,Spark),实时处理层(Storm,Spark Streaming)

32.Flink核心组件栈:物理部署层、Runtime核心层、API&Libraries层

33.Flink体系架构JobManager,TaskManager

Flink编程模型:SQL,Table API,DataStream/DataSet API(核心API),有状态数据流处理