数据挖掘第二讲作业

第二讲大数据分析处理概述。

1、hadoop是一个（c）

a.进行大数据分析处理的操作系统。

b.专门存储大数据的数据库。

c.大数据计算框架。

d.收费的商业数据分析服务提供商。

2、hadoop集群可以运行的3个模式是（abc）多选。

a.本地模式。

b.伪分布模式。

c.全分布模式。

d.离线模式。

3、在hadoop中，计算任务被称为job，jobtracker是一个后台服务进程，启动之后，会一直监听并接收来自各个tasktracker发送的心跳信息，包括资源使用情况和任务运**况等信息，它使用的端口号是（b）

a.70 b.30

c.80 d.60

4、在hadoop中，一个作业（job）包含多个任务（task），从jobtracker接收并执行各种命令：运行任务、提交任务、杀死任务等；另一方面，将本地节点上各个任务的状态通过心跳周期性汇报给jobtracker，它使用的端口号是（d）

a.70 b.30

c.80 d.60

5、hadoop是由（b）语言编写的。

6、hadoop中，集群的结构是（a）

结构。结构。

c.串行结构。

d.以上都是。

7、hadoop平台中使用哪种技术可以运行python语言编写的mapreduce**（a）

streaming

c++编程接口。

8、在hadoop中，下列哪项主要提供基础程序包以及和操作系统进行交互（a）

common package

distributed file system

yarnengine

9、hadoop的局限和不足(abcd)

a.抽象层次低，需要手工编写**来完成，使用上难以上手。

b.对于迭代式数据处理性能比较差。

c.中间结果也放在hdfs文件系统中。

d.时延高，只适用batch数据处理，对于交互式数据处理，实时数据处理的支持不够。

10、以下哪项不是hadoop streaming框架的优点（c）

a.可以使用其他语言（包括脚本语言）编写的程序移植到hadoop平台上

b.可以使用性能更好的语言（c/c++）来编写程序。

c.可以不用设置map与reduce过程。

框架汇总通过limit等方式可以灵活的先知应用程序使用的内存等资源。

11、下列哪些选项是hadoop streaming框架的缺点（a）

streaming默认只能处理文本数据，无法直接对二进制数据进行处理

streaming 不方便程序向hadoop平台移植。

中的mapper和reducer默认只能向标准输出写数据，不能方便地处理多路输出。

d.只要程序能从标准输入读取数据、向标准输出写数据，就能使用hadoop streaming

12、在hadoop中，下列哪项主要功能是计算资源的调度（c）

common package

distributed file system

yarnengine

13、在hadoop中，下列哪项负责文件的分布式存储与访问（b）

common package

distributed file system

yarnengine

14、在hadoop中，下列哪项负责计算任务的并行化（d）

common package

distributed file system

yarnengine

15、下列哪项不是hadoop的核心组件（a）

common package

stormengine

yarn16、在mapreduce计算框架中，map主要负责（b）

a.接收一组键值对，并将其映射为多组键值对发送出去。

b.接收一个键，以及相关的值的集合，并对这一组值进行约简操作。

c.在分布式集群上管理以键值对形式存储的数据。

d.计算资源的调度。

17、在mapreduce计算框架中，reduce主要负责（c）

a.接收一组键值对，并将其映射为多组键值对发送出去。

b.接收一个键，以及相关的值的集合，并对这一组值进行约简操作。

c.在分布式集群上管理以键值对形式存储的数据。

d.计算资源的调度

18、hive是一个数据仓库工具，它可以（b）

a.对大数据进行分布式存储。

b.将sql语句转化为mapreduce操作。

c.将传统关系数据库转化为分布式数据库。

d.将行数据库转换为列数据库。

19、hbase是基于hadoop的一个分布式数据库，关于hbase，下列说法正确的是（c）

是一个行数据库。

是一个关系数据库，因此只能存储结构化信息。

是一个列数据库，以键值对的形式存储数据。

不是hadoop的核心组件，可以独立于hadoop运行。

20、hdfs默认block size （b）

a.32mb

b.64mb

c.128mb

d.256m

21、下面哪个程序负责hdfs数据存储。（c）

22、下列哪个程序通常与namenode在一个节点启动？ (d)

23、hdfs中的block默认保存几份 (c)

a.3份 b.2份

c.1份 d.不确定。

24、mahout是一个机器学习工具包，它（a）

a.包含若干机器学习算法的mapreduce实现。

b.提高了hdfs文件存取的速度。

c.增强了hadoop集群的性能。

d.降低了数据通信的时间开销。

25、关于spark，下列说法错误的是：（c）

可以将中间数据缓存在内存中，极大提高运算效率。

采用mapreduce机制进行任务并行化。

是spark的基本数据结构。

非常适合迭代运算。

26、大数据分析处理的基本流程主要包括哪些步骤（d）

a.数据准备。

b.特征工程。

c.建模分析。

d.以上都是。

27、下列哪项不是数据准备需要完成的工作（b）

a.从数据源采集数据并存入hdfs

b.分析数据的特点，提取有效的特征。

c.去除数据中的噪声。

d.过滤无效的或不完整且无法补全的数据。

28、下列哪项通常是集群的最主要瓶颈（c）

b.网络 c.磁盘

d.内存 29、有关特征工程的说法，错误的是（a）

a.特征工程只需要对数据进行统计分析就行，不用了解任务对应的具体应用的领域知识。

b.特征工程包含特征提取和特征选择两个步骤。

c.特征工程的目的是从原始数据中提取具有代表性的数据特征，方便计算机进一步分析处理。

d.特征工程需要综合考虑预期使用的模型进行数据特征的设计。

30、下列哪项不能用来检验特征的有效性（c）

a.信息增益算法。

b.卡方检验算法。

c.主成分分析算法。

d.相关系数。

31、特征选择的策略包括（a）

a.穷举法。

b.前向选择。

c.后向选择。

d.双向选择。

32、在大数据分析处理中，建模分析主要包括：（d）

a.模型选择。

b.模型训练。

c.模型评测。

d.以上都是。

33、特征选择可以（b）

a.选择区分能力强的数据。

b.降低模型分析的时间复杂度。

c.减少无效特征。

d.创建新的特征。

34、有一包含1,000个样本的数据集，经过特征提取和特征选择，平均每个样本提取出了100个特征，共100,000个，其中不重复的特征为10,000个，如果采用向量空间模型将样本表示为向量，那么每个样本被表示为多少位的向量（b）

a.100b.1,000

c.10,000

d.100,000

35、假如你有2014级学生的考勤记录以及他们是否通过考试的数据，以及2023年级学生的考勤记录，需要**2015级学生是否能通过考试，应当选择（a）

a.分类模型。

b.回归模型。

c.频繁项挖掘模型。

d.聚类模型。

36、假如你有2014级学生的考勤记录以及他们的考试分数，以及2023年级学生的考勤记录，需要**2015级学生的考试分数，应当选择（b）

a.分类模型。

b.回归模型。

c.频繁项挖掘模型。

d.聚类模型。

37、假如你有2014级学生的选课信息，想要挖掘那些课程之间具有较高的相关性，即经常被同样的学生同时选择，应当使用（c）

a.分类模型。

b.回归模型。

c.频繁项挖掘模型。

d.聚类模型。

38、假如你有2014级学生的选课信息，想要知道那些学生具有相同的学习兴趣，应当使用（d）

a.分类模型。

b.回归模型。

c.频繁项挖掘模型。

d.聚类模型。

39、常见的分类算法有（abd）

a.朴素贝叶斯算法。

b.决策树算法。

算法。d.支持向量机算法。

40、常见的分类算法有（d）

算法。b.层次聚类算法。

算法。d.逻辑斯蒂回归算法。

数据挖掘第二讲作业

第二讲作业

第二讲作业

第二讲作业

其他用户还读了