统计学。
第1章统计与数据。
1.统计学:是收集、处理、分析、解释数据并从数据中得结论出的科学。
2.统计分析数据的方法分为两大类:
①描述统计:是研究数据收集、处理和描述的统计学方法。(描述统计的内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据的特征)
②推断统计:是研究如何利用样本数据来推断总体特征的统计学方法。(包括参数估计和假设检验,参数估计是利用样本信息推断所关心的总体特征,假设检验是利用样本信息来判断对总体的某个假设是否成立)
3.统计数据的类型:p6
按数据的计量尺度分:
a.分类数据:只能归于某一类别的非数字型数据(定类尺度,数据表现为分类,是用文字来描述的,格类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的如性别分为男和女;企业性质分为国有、集体、私营、合资、独资等)
b.顺序数据:只能归于某一有序类别的非数字型数据(定序尺度,对数据进行有顺序的分类,如产品分为一等品、二等品、三等品、次品,这些类别之间是可以比较顺序的,也称有序分类数据)
c.数值型数据:按数字尺度测量的观察值(定距、定比尺度,是使用自然或度量单位对事物进行计量的结果,表现为数值形式,说明现象的数量特征)
小结:分类数据和顺序数据说明的是事物的品质特征,通常用文字表示,结果表现为类别,称为定性数据或品质数据。
②按数据的收集方法分:a.观测数据:通过调查或观测而收集到的数据,是在没有对事物进行人为控制的。
条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。
b.实验数据:在试验中控制实验对象而收集到的数据,自然科学领域大多为实验数据。
③按被描述对象与时间的关系分:
a.截面数据:在相同或近似相同的时间点上收集的数据(静态数据、同时间不同空间,描述的是现象在某一时刻的变化情况,如2023年我国各地的国内生产总值数据)
b.时间序列数据:在不同时间点上收集到的数据(动态数据、同空间不同时间,描述的是现象随时间的变化情况,如2000~2023年我国的国内生产总值数据)
4.总体:包含所研究的全部个体(数据)的集合。
(如要检验一批灯泡的使用寿命,那么这一批灯泡构成的集合就是总体,每一个灯泡就是个体;如对于新推出的一种饮料,要想知道消费者是否喜欢,首先必须弄清楚那些人是消费的对象,也就是要确定构成该饮料的消费者这一总体)
5.样本:从总体中抽取的一部分元素的集合。
6.参数:用来描述总体特征的概括性数字度量。
(通常我们所关心的总体的参数有总体的平均数μ、标准差σ、总体比例π等,由于总体数据通常是不知道的,所以参数是一个未知的常数,所以我们才进行抽样,根据样本某些值去估计总体参数)
7.统计量:用来描述样本特征的概括性数字度量。(统计粮食根据样本数据计算出来的一个量,是样本的函数,抽样的目的就是要根据样本统计量去估计总体参数)
8.变量:说明现象某种特征的概念。(特点是从一次观察到下一次观察会呈现出差别或变化,变量的具体表现称为变量值,变量可以分为三种主要类型:分类变量、顺序变量、数值型变量)
9.有限总体:指总体的范围能够明确确定,而且元素的数目是有限可数的。
10.无限总体:指总体所包括的元素是无限的,不可数的。
11.变量的分类:①分类变量:
说明事物类别的一个名称(经济类型、性别);②顺序变量:说明事物有序类别的一个名称(受教育程度、产品等级);③数值型变量:说明事物数字特征的一个名称(商品销售额、年龄、时间、零件尺寸),又可分为离散型变量,只能取可数值的变量,有限个值,其取值都以整位数断开,可以一一列举(产品数量);连续型变量,可以再直线上或区间中取任何值的变量,取值是连续不断的,不能一一列举(年龄、温度、零件尺寸误差)。
12.比如要调查一个学校内所有职工的收入情况,而这所有职工就是我们要研究的总体,从这个总体中抽取一部分职工作为我们的调查对象,这一部分被我们抽取出来的职工就是样本,因为我们要调查的是学校内所有职工的收入情况,而这收入的平均值、最大值、最小值、方差等指标就是我们所关心的参数,而在我们抽出来作为样本的这些职工的收入的具体情况,如这些所调查的样本职工的收入的平均值、最大值、最小值、方差等就是统计量。再如,我们所研究的职工的收入额就是一个变量。
第2章数据的收集。
一)统计调查方式:抽样调查、普查、统计报表。
1.普查:为某一特定目的而专门组织的一次性全面调查。
(适合于特定目的、特定对象的一种调查方式,它主要同于手机处于某一时点状态上的社会经济现象的数量,目的是掌握特定社会经济现象的基本全貌,为国家制定有关政策或措施提供依据)特点:①普查通常是一次性的或周期性的;②普查一般需要规定统一的调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性;③普查的数据一般比较准确,规范化程度也较高,因此它可以为抽样调查或其他调查提供基本的依据;④普查的适用范围较狭窄。
2.抽样调查:从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种数据收集方式。
特点:①经济性 ②时效性强 ③适应面广 ④准确性高。
3.统计报表:是以原始数据为基础,按照统一的表式、指标、报送时间和报送程序进行填报。
二)统计数据的具体收集方法:
询问调查:⑴访问调查⑵邮寄调查⑶**调查⑷计算机辅助调查⑸座谈会⑹个别深度访问。
观察与实验:⑴观察法⑵实验法。
4.调查方案的内容:⑴调查目的⑵调查对象和调查单位⑶调查项目和调查表。
5.调查问卷:是用来收集调查数据的一种工具,是调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式。
组成部分:开头部分:问候语,调表说明,问卷调查;
甄别部分:也称为过滤,它是先对被调查者进行过滤,筛选掉不需要的部分,然后针对特定的被调查者;
主体部分:调查问卷的核心内容,它包括了所要调查的全部问题,主要由问题和答案组成;
背景部分:只要是有关被调查者的一些背景资料、个人信息。
6.设计调查问卷的提问项目时应注意:⑴提问的内容尽可能短⑵用词要确切、通俗(6w准则)⑶一项问题只包含一项内容⑷避免诱导性问题⑸避免否定式的提问⑹避免敏感性问题。
7.封闭性问题的答案的设计主要方法:⑴两项选择法⑵多项选择法⑶顺序选择法⑷评定尺度法⑸双向列联法。
8.问题顺序设计应注意的问题:⑴问题的安排应具有逻辑性⑵问题的顺序应先易后难⑶能引起被调查者兴趣的问题放在前面⑷开放性问题放在后面。
9.统计数据的质量:收集统计数据是统计研究的第一步,如何保证统计数据的质量是数据收集阶段应重点解决的问题,统计数据的误差:
统计数据与客观现实之间的差距,只要有抽样误差和非抽样误差。
10.抽样误差:指在用样本数据进行推断是所产生的随机误差。
按其产生的原因有:由于抽取样本是没有遵循随机原则;由于样本结构与总体结构的差异而产生的;由于样本容量不足而产生的等,这类误差通常是无法消除的,但事先可以进行控制或计算。
11.非抽样误差:调查过程中由于调查者或被调查者的人为因素所造成的误差,调查者所造成的误差主要有:
调查方案中有关规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者造成的误差:因认为因素干扰形成的有意虚报或瞒报调查数据,非抽样误差在理论上是可以消除的。
12.统计数据质量的评价标准:①精度,即最低的抽样误差或随机误差②准确性,即最小的抽样误差或偏差③关联性,即满足用户的决策、管理和研究需要④及时性,即在最短的时间里取得并公布数据⑤一致性,即保持时间序列的可比性⑥最低成本。
第3章数据整理与展示。
1.数据的预处理是数据整理的先前步骤,它是在对数据分类或分组之前所做的必要处理,包括:数据的审核,筛选,排序等。
2.数据的审核:检查数据是否有错误,对于通过调查取得原始数据,应主要从完整性和准确性两个方面去审核。
完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核只要是检查数据是否有错误,是否存在异常值等。对于其他渠道获得的二手数据。
应着重审核数据的实用性和时效性。
3.数据的筛选:一是将某些不符合要求的数据或有明显错误的数据予以剔除;而是将符合某种特定条件的数据筛选出来,而将不符合特定条件的数据予以剔除。
4.数据的排序:按一定顺序将数据排列,以便于研究者通过数据发现一些明显的特征或趋势,找到解决问题的线索。排序后的数据我们称为顺序统计量。
一)品质数据的整理:
1.频数:落在某一特定类别(或组)中的数据个数,称为频数。
2.频数分布:把各个类别及落在其中的相应频数全部列出。
3.由两个变量交叉分类的频数分布表称为列联表或交叉表。
4.比例:一个总体(或样本)中各个部分的数据与全部数据之比。
比例通常反映总体(或样本)的构成或结构。比例是将总体中各个部分的数值都变成同一个基数,也就是都以1为基数。这样就可以对不同类别的数值进行比较了。
百分比是将对比的基数抽象化为100而计算出来的,它表示每100个分母中用有多少个分子。
5.比率:总体(或样本)中各个类别数值之间的比值,是一个总体(或样本)中各不同部分的数量对比。
二)品质数据的图示:p45
1.条形图:是用宽度相同的条形的高度或长短来表示数据多少的图形。
绘制时,各类别可以放在纵轴或横轴。2.饼图:
是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各个组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。
3.环形图:把饼图叠在一起,挖去中间的部分就是环形图,每个样本用一个环来表示,样本中的每一部分数据用环中的一段来表示,环形图可显示多个样本各部分所占的比例,从而有利于构成的比较研究。
饼图只能显示一个样本的各个部分所占的比例。
三)数值型数据的整理:
1.数据分组:根据统计分析的需要,将原始数据按照某种标准划分成不同的组别。分组后再计算出各组数据出现的频数,就形成了一张频数分布表。
2.在组距分组中,一个组的最小值称为下限,一个组的最大值称为上限。
3.每一组的下限和上限之间的中点值,称为组中值。使用组中值代表一组数据时有必要的假定条件,即各组数据在本组内呈均匀分布或组中值两侧呈对称分布。
四)数值型数据的图示:
分组数据看分布:
1.直方图:是用于展示定量数据分布的一种常用图形,它是用矩形的宽度和高度(即面积)来表述频数分布的。
通过直方图可以观察数据分布的大体形状,如是否对称等。
2019统计学考试复习
统计学考试复习资料。简答题 12题选5个 1 统计数据的类型有哪些?1 按计量层次分类 a.分类数据 只能归于某一类别的非数字型数据 对事物进行分类的结果,数据表现为类别,用文字来表述,例如 人口按性别分为男 女两类。b.顺序数据 只能归于某一有序类别的非数字型数据 对事物类别顺序的测度,数据表现为...
统计学复习作业
统计学 作业簿。所在学院。所学专业。姓名。学号。任课教师。中原工学院经济管理学院会计教研室。第一章绪论。一 判断题。1 统计数字的具体性是统计学区别于数学的根本标志。2 社会经济统计是在质与量的联系中,观察和研究社会经济现象的数量方面。3 离散变量的数值包括整数和小数。4 总体和总体单位的概念不是固...
期末复习旅游统计学
第一章绪论。统计的三方面 统计工作,统计资料,统计学。统计工作 指对社会经济现象进行数量方面的搜集 整理 和分析研究等活动过程的总称。统计工作的步骤 设计 调查 整理 分析。统计资料的六个要素 时间 地点 指标名称 计算方法 指标数值 计量单位 会判断是不是一个完整的统计资料 统计学 专门研究社会经...