CPDA考试应用模拟

发布 2021-04-10 10:10:28 阅读 5230

一、 计算题(题数:4,共 100.0 分)

1.影响中国人口自然增长率的因素有很多,据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。

(3)文化程度,由于。

教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率”的全貌,选择人口增长率。

作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均gdp”作为经济整体增长的代表;选择“居民消费**指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。

从《中国统计年鉴》收集到以下数据(见表1):

设定的线性回归模型为:

算法1多元线性回归。xlsx

1)求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型的经济意义;

2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。

答案解析:1)直接进行线性回归即可得到各个参数(用excel)。多元线性回归模型评价可以从拟合优度、t检验、f检验等多个方面出发。

2)求变量的相关系数矩阵或采用逐步回归法(也可以用datahoop平台做线性回归,会自动删除共线的变量)。

2.对近期上映的10部电影进行调查研究,抽取290人对这10部电影的评分(分值0~10分),结果如下表所示。

1)根据表中数据对这10部电影的评分进行因子分析,并解析各个因子的含义;

2)可否利用电影的评分数据对这290名观影者进行聚类分析?给出你的理由。

算法2因子分析。xlsx

答案解析:1)因子分析选择隐含因子数为3,分别代表动作片、爱情片、动画片的影响评分因子。

2)可以,这290人对电影的偏好有区别,可以进行聚类,相关性分析后排除共线性的影响再进行聚类。

3.某超市为了优化商品摆放结构,对近期顾客购买的商品类型进行了统计,如附表所示。

1)写出所有有效强关联规则(minsupport=10%,minconfidence=50%);

2)结合实际情况分析顾客喜欢的商品搭配,并对该超市提出合理的建议。

算法3关联分析。xlsx

答案解析:关联规则分析中设置参数(minsupport=10%,minconfidence=50%),结果中强关联规则通过调整显示条目全部写出(重复的删除)。结合实际情况分析要写详细。

4.某市为调查驾驶员视力情况(“1”表示视力正常,“0”表示有视力缺陷)、年龄、是否有驾驶教育经历(“1”表示有,“0”表示没有),这三个因素对是否曾引起交通事故(“1”表示发生过,“0”表示未发生过)的影响。

随机抽样调查了45名驾驶员,得到数据如下:

1)建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响,写出详细的思路过程。

2)若要应用此模型**某批驾驶员中可能会引起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些?请说明。

算法4逻辑回归。xlsx

答案解析:逻辑回归,数据预处理包括分析共线性和异常值等,数据分为训练数据和测试数据,综合训练误差和测试误差评价模型。第二问要收集数据、处理数据、应用模型直接**。

一、 计算题(题数:4,共 100.0 分)

1.1993-2024年相关经济数据如附表所示。设定国内生产总值为x1,地产投资总额为x2,全国居民消费水平为x3、全社会固定资产投资房屋竣工面积为x4,作为自变量;全国房屋销售均价设为y,作为因变量。

建立如下。

的多元线性回归模型:

y=b0+b1*x1+b2*x2+b3*x3+b4*x4+ε

b0,b1,b2,b3,b4是未知参数,ε是剩余残差,且e(ε)0,与四个自变量无关。

1)求出参数b0,b1,b2,b3,b4,并评判模型拟合优度和实际意义,写出详细的分析依据和思路过程;

2)根据(1)对模型进行修正。

多元线性回归。xlsx

答案解析:1)直接做线性回归,可得各个参数。通过r^2,f、t检验,p值等分别分析模型。

系数在经济意义上存在不合理性,可能是共线性的影响。(datahoop平台会删除共线的变量,所以这里用excel或spss等做回归。)

2)相关性分析和解释,去掉一些变量,重新做线性回归(在datahoop平台上直接做也可以,平台会自动删除共线的变量)。

2.为了解电影票房的影响因素有哪些,某出品人搜集了2024年至2024年间中国电影发放放映协会统计的过千万票房的国产电影相关统计指标,共涉及275部影片。具体数据如附表所示。

datahoop上传测试集:电影票房数据(2010-2013).xlsx

datahoop上传训练集:电影票房数据(2010-2013).xlsx

对数据进行预处理(包括缺失值、数据类型、离散化等),选择决策树模型进行拟合,并检验和分析模型。要求写出详细的思路和过程。

答案解析:1.影片票房:影片票房是本次模型建模的因变量。通过对选取数据的统计分析,将票房数据进行分类,一共分为8个层次,,分类情况如表所示:

等级 1 2 3 4 5 6 7 8

范围 ≥1000万 ≥2000万 ≥3000万 ≥6000万 ≥1亿万 ≥1亿9000万 ≥3亿 ≥20亿。

<2000万 <3000万 <6000万 <1亿万 <1亿9000万 <3亿 <9亿万

2.影片属性:影片类型分为爱情、喜剧等14种,分类依据是根据豆瓣和mtime里面对该部影片的标签分类。时长单位为分钟,取值范围75-156分钟。

3.影片档期:影片上映年份,含5月1日在内的月归为**1档;含10月1日的月归为**2档月归为贺岁档(不同于网上贺岁档时间分类月归为暑期档,剩下三四月归为普通档。

4.品牌属性:宣发方:明星私企=s,国有宣发公司=g,小私营公司=l,联合发行=c。

电影属性:是否改编,是否真实,是否翻拍,是否有续集。

6.导演、演员影响度:导演年代、导演第几部作品、导演是否得奖、导演是否转型、演员指数1,演员指数2

数据预处理:处理缺失值。

方法:决策树。

案例分析】第一步:用训练集数据训练模型,准确度超过70%,**效果还可以。

第二步:用测试集数据测试,发现准确度很低。

这也是真实数据和真实场景经常会面临的问题。

注意这个题的结论是模型不可以应用于实际。

3.9个顾客编号为(t1,t2,t3,t4,t5,t6,t7,t8,t9)

每一顾客购买的商品记录,

设最小支持度为22%,利用apriori算法进行关联分析,写出所有频繁项集和强关联规则。

25.0分)

我的答案。答案解析:

c1项数集支持度计数。

i1} 6i2} 7

i3} 6i4} 2

i5} 2最小支持度=2/9=22%,即最小支持度频度为2,则。

1— l1频繁项集支持度计数。

i1} 6i2} 7

i3} 6i4} 2

i5} 2c2

项数集支持度计数。

i1,i2} 4

i1,i3} 4

i1,i4} 1

i1,i5} 2

i2,i3} 4

i2,i4} 2

i2,i5} 2

i3,i4} 0

i3,i5} 1

i4,i5} 0

去掉小于最小支持的频度,得到2相频繁集。

2— l2频繁项集支持度计数。

i1,i2} 4

i1,i3} 4

i1,i5} 2

i2,i3} 4

i2,i4} 2

i2,i5} 2

c3项数集支持度计数。

i1,i2,i3} ,2

i1,i2,i5} 2

i1,i3,i5} 1

i2,i3,i4} 0

i2,i3,i5} 1

i2,i4,i5} 0

去掉小于最小支持的频度,得到3相频繁集。

3— l3频繁项集支持度计数。

i1,i2,i3} ,2

i1,i2,i5} 2

c4项数集支持度计数。

i1,i2,i3,i5} 1

去掉小于最小支持的频度,得到4相频繁集为空集。

则再不可能发现新的频集,算法结束。

最终得到的频繁项集为。

i1}i2}

i3}i4}

i5}i1,i2}

i1,i3}

i1,i5}

i2,i3}

i2,i4}

i2,i5}

i1,i2,i3}

i1,i2,i5}

强关联规则将商品记录tf化导入平台设置参数即可得到,不过多展示。

4.对各地区农村居民家庭平均每人生活消费支出进行聚类,即从综合角度来看哪些地区的消费水平类似,并结合实际情况分析模型效果;再对不同的消费项目进行聚类,即对变量进行聚类,来看哪些变量属于一类。

其数据如附表所示。

聚类。xlsx

注:数据**—中华人民共和国国家统计局)

对数据进行预处理,选择合适的算法模型进行聚类,要求写出具体思路。

答案解析:分析数据是否有缺失值、异常值,用k-means聚类要考虑共线性(相关系数大于0.9的一定要处理),进行因子分析或处理强相关变量后再进行聚类。

(分别选取等类,选择轮廓系数大且易于解释的分类结果)

一、 计算题。

应用写作模拟

请将试题的解答全部做在答题纸上 答题纸另发 本试题必须随答题纸一并交回 一 单选题 本大题共10小题,每小题1分,共10分 1 某市工商局拟撤销下级某县工商局不适当的决定应使用的文种是。a通报 b决定 c意见 d 通知。2 某县委和该县 的联合行文可以通用的正式公文文种是。a 通知意见报告请示b报告...

《应用统计学》2019模拟考试题

1 在统计调查中,抽样调查因为诸多优点而最经常被采用。2 按照计量尺度的差异,可以将统计数据分为分类数据 顺序数据和数值型数据三类。3 抽样误差是抽样调查中可以设法消除的误差。4 在假设检验中,如果所计算的p值越小,说明检验结果越不显著。5 不存在趋势的时间序列称为平稳时间序列。6 拉氏物价指数是以...

应用写作模拟试题

一 填空题 填空题 每空 1 分,共 25 分 1.用于在一定范围公布应当遵守或周知的事项的公文是通告 2.公文从行文方向来看,可分为上行文 下行文 平行文。3.应用写作的主要特点是实用性 广泛性 程序性 准确性 4.一份计划应当具备的四个基本要素 目的任务 措施办法 步骤和时间 检查和督促 5.市...