第四编市场调查中的数据分析。
第十五章市场调查数据的录入与整理
第一节调查问卷的**与编辑。
数据资料的处理过程是从**第一份问卷开始的。按照事先调查方案的计划,尽量确保每份问卷都是有效问卷(所谓“有效”问卷,指的是在调查过程中按照正确的方式执行完成的问卷)。问卷**以后,督导员必须按照调查的要求,仔细的检查问卷。
检查问卷的目的在于将有错误填写,或者是挑出不完整或不规范的问卷,保证数据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可能的结果,通过对调查员的复核,可以检查出哪些调查员没有按照调查的要求去访问,那么,该调查员完成的问卷可能存在很多问题。还有可能出现漏答了某些必须回答的问题,比如被访者的人口特征等基本情况,造成问卷回答不完整。
鉴于这些情况,不管是由于调查员造成的还是被访者的原因,通常有两种方式进行补救:对于出现漏答的问卷,通常要求调查员对受访者进行重访,以补充未答的问题;如果不便于重访或重访后的问卷还有问题,数目不是很多,可以当作缺失值计。如果数量非常大,这份问卷就只能当作废卷处理,并且按照被访对象的抽样条件,补作相关的样本。
问卷检查。问卷的检查一般是指对**问卷的完整性和访问质量的检查,目的是要确定哪些问卷可以接受,哪些问卷要作废。检查的要点包括:
(1) 规定详细的检查规则,一份问卷哪些问题是必须填写完整的,哪些问题出现缺失时可以容忍等,使督导员明确检查问卷的每一项流程。
(2) 对于每份调查员交回来的问卷必须彻底地检查,以确认调查员或者被访者是否按照相关的要求完成了访问,并且完整的记录在问卷恰当的位置。
(3) 应该将问卷分成三种类型,一种是完成的问卷,一种是作废的问卷,第三种是有问题的问卷,但是通过追访还可以利用的问卷。
(4) 如果抽样中有配额的要求,那么应将完成的问卷中的配额指标进行统计分析,确定问卷是否完成配额的要求,以便及时的补充不足的样本。
(5) 通常有下面的情况的问卷是不能接受的:所**的问卷明显不完整,缺了一页或者多页;问卷中有很多内容没有填答;问卷的模式说明调查员(被访者)没有理解或者遵循访问指南回答等;问卷的答案几乎没有什么变化,如在态度的选项上全部选择第x项的情况;问卷的被访者不符合抽样要求;问卷的**日期超过了的访问的时限等。
问卷的校订。
为了加强问卷的准确性,对那些初步接受的问卷还要进行进一步的检查和校订,在校订的过程中,通常会发现问卷中存在有字迹模糊、问题漏选的、前后回答不一致的、答案模棱两可的和跳答错误的问题。
问卷的某些问题答案可能出现字迹模糊的情况,特别是碰上无结构的开放式的问题时,因为调查员记录的不好,答案不容易识别。如果发现这样的问题,必须对受访者进行追访,将积极不清楚的地方填写清楚。
对于漏选的问题处理方法也是一样,出现漏选的题目因为各种原因,无法进行补充访问事后,普通的问题,而且数目不大的情况,通常作为缺失值处理;如果涉及到是受访对象的个人特征的问题,通常只能作为废卷处理。
问卷中有些问题的答案会出现不容易理解的模棱两可的情况,或者是使用了不是通用的缩写方式或词语,或者在该单选一项的问题中,圈选了两项等,都必须通过追访进行补救。另外就是回答时可能出现跳答错误的情况,这可能是因为被访对象没有很好的理解问题。如果出现这种情况,首先要核实被访对象是否符合抽样调查的条件(跳答题目往往是筛选条件),如果符合,进行追问补充,如果不符合条件,问卷只能作废,重新补充样本。
问卷的**、检查与校订可能是非常繁琐、且工作时间很长的工作,但是却是保证数据处理过程中较少误差的重要的步骤。
问卷的编码。
编码是指对一个问题的不同答案进行分组和确定数字**的过程。大多数问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组问题的不同答案的数字编码已经确定。
而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后编码。开放题的事后编码的工作量很大,无法预知会出现多少个新的**和答案,而且有些答案是非常类似的,必须决定是否合并成一类呢,还是分成不同的**。具体地说明编码需要以下几个步骤:
(1) 每个需要编码的项目都必须有一份编码表,将问题和项目的**详细的标注在编码表的顶端位置,由于事先不知道会有多少新的**或答案出现,所以一定要预备足够的空间。
(2) 如果编码的工作由一个编码员完成,出现错误的可能性相对较小。但实际上,因为需要编码的问题可能很多,一个认识没有办法按时完成的,这就需要多个编码员。在这样的情况下,一定要注意多个编码员工作的协调。
应该安排编码员在不同的时间,或者相同的时间相同的地点,使用同一个编码表。这样可以避免编码重复的情况。
(3) 研究人员应详细制定编码的守则,指导编码员如何识别答案,并且将其归类,以及如何分配编码等等,并同时对编码的过程进行监督和检查。编码员在编码的过程中可能有两种倾向:一种是事无巨细将出现的每一种答案够给与新的**,结果**的数量比预料的要多出很多;另一种情况是对答案的归类过于粗糙,可能丢弃了数据中有意义的差异。
对于这两种情况都必须通过守则的规定,尽量避免。碰到无法确认的分类的时候,通常的做法是付与一个新的**,如果需要合并,可以在将来的数据处理过程中完成。
(4) 可以对“不知道”、“无所谓”、“不清楚”、“缺失”事先规定,但是一定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。
(5) 编码的字迹必须清楚,如果可能的话,及时的进行计算机的录入管理。
见图15-1问卷的编码。
第二节调查资料的录入和整理。
数据录入 数据录入是指将问卷或编码表中的每一个项目对应的**转化成计算机能够识别的形式的过程。这个过程需要数据录入装置(计算机)和一个存储介质(数据库软件、磁盘)。市场调查发达的国家在数据的采集中使用cati、capi的方式很普遍,因此键盘录入的过程已在访问的时候就已经完成了。
而且对于简单的问卷调查,使用调查卡进行光学扫描录入也能从时间上节约不少成本。但是国内目前主要还是纸面问卷调查的形式居多,所以在问卷完成后,还需要对问卷进行录入的操作。
大多数问卷信息通过智能录入系统进行,即使用相关的数据库软件包。数据库软件不仅可以存储数据,而且在录入过程中,通过事先的数据库结构的编辑,可以对录入员录入的过程进行逻辑检查,避免数据录入过程**现某种类型的错误,如录入无效的编码或者是太广的编码,同时对于跳答问题的录入也能进行很好的控制,减少错误的条约模式。
数据库软件的录入检查的范围,限制在最常见的逻辑错误上,对于在选项范围内,因为录入员的疏忽而出错的信息,往往是不能察觉,而录入员在问卷的输入过程中,因为速度非常快,即使是非常老练的录入员,也会出现录入错误的情况。
为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方式主要有双机录入或三机录入。所谓双机录入的方式,是将同一份问卷分别由两个录入员进行两次录入,将两次的结果进行逐个比较,相同的部分是被认为没有错误的,如果出现不同的部分,检查问卷,及时修正。所谓三机录入,即将同一份问卷由不同的录入员录入3次,将3次的结果通过计算机进行比较,采用“2排1”的选择,如果 2个结果是相同的,排除那个不同的答案。
三机录入的方式可以减少翻阅问卷的人工。
无论是双机录入还是三机录入,都会增加调查的时间和费用成本,而且是成倍地增加。但是为求得数据的收集录入各个环节的准确性,越来越多的企业和市场调查公司要求数据的正确录入的操作。
如将在图15-1问卷的编码**现的问题进行录入,问卷编号,城市编码,调查员编号,q1、q2、q3llq12-1、q12-2、q12-3、q13、q14,对应的数据库结构见图15-2。这样,输入时每份问卷按数据库中指定的位置输入相应变量的取值,一行数字就是一份问卷。结果所有问卷次依输入完毕就形成一个数据库。
(1) 问卷编码是001号,城市是北京市,12号调查员完成的问卷,圈选的结果是:q1 男性;q2 30岁;q3 大学专科;ll q12圈选的2 3 5;q13 非常同意;q14不同意;
(2) 问卷编码是005号,城市是上海市,2号调查员完成的问卷,圈选的结果是:q1 女性;q2 22岁;q3 大学本科;ll q12圈选的1 3;q13 不同意;q14非常同意;
对应的数据库1)0011121304……23552;2)0052022225……13045
数据的整理。
如果在录入过程中,没有实行双机录入(三机录入)的措施,在录入完成之后,有必要对数据进行全面的整理检查。数据整理主要是尽可能的处理错误或不合理的信息以及进行一致性的检查。虽然经过**问卷、编码过程以及录入的重重检查,但是数据的整理过程是使用计算机进行的,对数据的矫正将更为彻底。
数据整理可使用spss或sas统计软件进行,可以很方便的寻找出超出选项范围、极端值或逻辑上不一样的数据。通常的做法是首先对所有变量进行频数的计算,对连续性的变量进行均值、标准差、最小值、最大值等统计分析,超出范围的数据和极端的数值很容易检查出来。例如,图15-1问卷的编码的调查中,关于年龄的填写,假定缺失值为“0”,如果出现小于16,或者大于60的数值就是超出范围的。
根据对应的问卷编号,变量编码找出问卷,进行核实。
数据整理是对数据进行的最后一道检查程序,这一步完成后,数据应该是“整齐、干净的”,然后进入下一步,对数据进行统计处理分析。
本章小结。1.**问卷:数据资料的处理过程是从**第一份问卷开始的,按照事先调查方案的计划,尽量确保每份问卷都是有效问卷(所谓“有效”问卷,指的是在调查过程中按照正确的方式执行完成的问卷)。
问卷**以后,督导员必须按照调查的要求,仔细的检查问卷。检查问卷的目的在于将有错误填写,或者是挑出不完整或不规范的问卷,保证数据的准确性。
2.问卷编码:编码是指对一个问题的不同答案进行分组和确定数字**的过程。大多数问卷的大多数问题都是封闭式的,在调查之前就已经完成了编码的过程,即每一组问题的不同答案的数字编码已经确定。
而开放式问题,因为不知道会得到什么答案,或者是希望得到比列出的封闭式的选项更详尽的答案,所以在调查结束后,必须对这些开放式的问题进行事后编码。开放题的事后编码的工作量很大,无法预知会出现多少个新的**和答案,而且有些答案是非常类似的,必须决定是否合并成一类呢,还是分成不同的**。
3.数据录入:数据录入是指将问卷或编码表中的每一个项目对应的**转化成计算机能够识别的形式的过程。这个过程需要数据录入装置(计算机)和一个存储介质(数据库软件、磁盘)。
为了保证数据录入的准确性,有必要对录入的结果进行核查,核查的方式主要有双机录入或三机录入。
第十六章数据分析。
第一节常用的统计方法。
变量类型 在编码时我们已经提到过,问卷的每一个题目都可以看做是一个变量,由于所提问题的性质不同,对应的变量类别就不一样,变量的类别由低到高依次为:定类变量、定序变量、定距变量(定比变量)。
1) 定类变量:变量的不同取值仅仅代表了不同类的事物,这样的变量叫定类变量。问卷的人口特征中最常使用的问题,而调查被访对象的“性别”,就是定类变量。
对于定类变量,加减乘除等运算是没有实际意义的。
(2) 定序变量:变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度”,以及态度量表题目等都是定序变量,定序变量的值之间可以比较大小,或者有强弱顺序,但两个值的差一般没有什么实际意义。
(3) 定距变量:变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”,都是定距变量。
定比变量与定距变量在市场调查中一般不加以区分,它们的差别在于,定距变量取值为“0”时,不表示“没有”,仅仅是取值为0。定比变量取值为“0”时,则表示“没有”。上面举的“年龄”、“每月平均收入”也是定比变量,因为它们的“0”值都表示“没有”。
而像“温度”这样的变量中的“0”值并不表示“没有”,而是表示“0℃”这一特定温度,这样的变量是定距变量,但不是定比变量。
在统计分析时,对不同类型的变量要选用不同的方法。一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量,反之则不行。比如适用于定类变量的分析方法,同时也可用于其他类别的变量,反过来适于定距变量的分析方法,一般不能用于其他类别的变量。
由于市场调查中的定类、定序变量较多,为了能够使用更多的统计方法,常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量,这样只适用于定距变量的统计方法,就可以用于这些定类和定序变量了。
市场营销调研数据
市场调查中的数据分析。本编重点。变量类型。频数 百分比 众数 中位数。均值 标准差。卡方分析。单因素方差分析。简单相关系数。因子分析。调查报告的结构。第十五章市场调查数据的录入与整理 第一节调查问卷的 与编辑。第四编市场调查中的数据分析。第十五章市场调查数据的录入与整理 第一节调查问卷的 与编辑。数...
市场营销调研数据
市场调查中的数据分析。本编重点。变量类型。频数 百分比 众数 中位数。均值 标准差。卡方分析。单因素方差分析。简单相关系数。因子分析。调查报告的结构。第十五章市场调查数据的录入与整理 第一节调查问卷的 与编辑。第四编市场调查中的数据分析。第十五章市场调查数据的录入与整理 第一节调查问卷的 与编辑。数...
市场营销调研
一 名词解释 1.抽样误差 抽样误差是在调查中因使用的样本而发生的任何误差。2.参数检验 参数检验是在已知总体分布的条件下对一些主要的参数 均值 百分数 方差等 进行的假设检验。检验时一般假设总体服从正态分布,参数检验包括对平均值的检验和对百分数的检验。3.实验 研究人员改变某些因素,比如 包装 广...