摘要: 本章继续讨论面板数据的分析方法,引入两种新的方法消除不可观测效应。若不可观测效应和解释变量无关,将模型视为随机效应模型更好。
假定不可观测效应模型(unobserved effects model)为:
t=1,2,…,t; i=1,2,…,n14.1)
其在时间上做平均的均值方程为:
那么消除不可观测效应的另一种方法是,用该均值方程去减(14.1),得到:
或者记为:对(14.2)进行混合ols估计就可以了。被称为y的去时间均值数据(time-demeaned data), 等类似称呼。
上述固定效应变换被称为组内变换(within transformation). 14.3)式的混合ols估计量也被称为固定效应估计量或者组内估计量(fixed effects estimator or within estimator)。
几点说明:1) 模型(14.3)的样本点有nt个,待估参数为k个,但该模型的自由度df=nt-n-k=n(t-1)-k个;
2) 模型(14.3)的混合ols估计量和检验统计量要有效,除了原模型要满足高斯-马尔科夫假定外,需要满足以下假设 :和所有时期的所有解释变量都不相关;不能包含时不变的解释变量,即对去时间均值的解释变量要有不完全共线性的要求;满足同方差性和无序列相关性。
3) 有关该模型假设的严格表述见章节附录。
4) 混合ols估计的,其实是有关方程的,因此应该被解释为的时间变异被自变量的时间变异所解释的占比。
5) 我们无法估计时不变解释变量的偏效应,但是可以估计其随时间的变化量,加入这些变化量不是常数。
6) 如果我们模型中加入了时间虚拟变量,那么我们不能将那些在时间上的变化为常数的变量的影响从时间总效应中区分开。
7) 组间估计量(between estimator)可以通过对(14.2)做ols回归得到。但只有假定和时,所得估计才是无偏的;此时,更倾向于用随机效应模型。
虚拟变量回归。
对模型(14.1)的另一个观点是,为每个个体设置一个虚拟变量(甚至还要为每个期间设置一个虚拟变量):
i=2,…,n
其中当样本属于第i个个体(单位)时,,否则为0. 显然此时模型中的待估参数为(n+k)个,我们对上述模型进行ols回归。该估计方法被称为虚拟变量回归(dummy variable regression).
几点说明:1) 虚拟变量回归中的待估参数太多,因此实际使用有时变得很不现实;
2) 虚拟变量回归结果和对去时间均值数据做的回归是一样的;
3) 由于虚拟变量解释了y的大部分变异,因此虚拟变量回归的一般都很大;
4) 可由估计所得来构造f统计量,只要模型满足clm,例如检验n-1个虚拟变量的联合显著性;
5) 有时可以反映其在总体中的分布,其估计可由(14.2)式求得;但其统计性质是很差的,通常其很难满足无偏性和一致性,即使满足无偏也很难满足一致性,因为通常的面板数据都是n>t,显然当t固定,时,的估计信息没有增加。
固定效应方法(fe)还是一阶差分方法(fd)
当t=2时,只要模型形式一致,两种方法的估计结果是一致的,所以不需要选择。此时,fd方法主要在做一个横截面回归,因此横截面回归的估计方法和检验方法可以不加改造的使用。
当t>2时,估计结果就有差异,但在附录的假设fe.1-fe.4下,它们的估计量都是无偏的和一致的,所以下文集中讨论其在同方差假设下的有效性问题(这和误差间的序列相关性有关)。
如果无序列相关,那么fe比fd有效。
如果序列相关,情况比较复杂。例如其服从随机游走过程,那么fd比fe有效。若无序列相关,那么fd比fe有效;若负相关fe可能更好。通常的做法是,报告两种方法的估计结果后进行讨论。
此外,当t>n时,建议使用fd。而解释变量和误差项无关,但严格外生性假设不成立时,由于fe的估计偏误更小,所以选择使用fe(wooldridge,2002).
非平衡面板数据的固定效应方法。
非平衡面板数据(unbalanced panel)是指面板数据中某些个体(单位)缺乏某个时期的数据,造成数据在时期上的不全。对该数据的分析不会带来新的困难,只要注意每个个体的样本数量不再是都是t了,而是,从样本量为,所以估计中,只需要对自由度进行调整就行。
非平衡面板数据的数据缺失如果和无关,那么估计性质就不受数据缺失的影响。
假定不可观测效应模型(unobserved effects model)为:
t=1,2,…,t; i=1,2,…,n14.4)
此时。若和无关,即, ,fd和fe将导致非有效的估计。此时,(14.
4)被称为随机效应模型(random effects assumptions). 本节将在fe的假设上,外加该无关假设进行讨论。
模型(14.4)的复合误差项(composite error)为,由于:
正是由于复合误差正相关性的存在,使得混合ols估计失效。我们可使用gls方法对此进行修正,并且当足够大n和相对小的t将带来更好的统计性质。
消除(14.4)中的序列正相关性的方法是对其做一个均值变换,这需要引入一个变换系数(wooldridge,2002):
然后得到一个由准去均值数据构成的方程:
模型(14.5)中的误差项不存在序列相关性了,故此时可以使用混合ols估计。
几点说明:1) 模型(14.5)允许自变量可以不随时间变化;
2) 其中可以估计,估计方法见课本或者wooldridge(2002);
3) 用代替的可行gls被称为随机效应估计(random effects estimator,re),该估计量在当t固定,时,是一致(不是无偏的)和渐近于正态分布的估计量;
4) 时就是混合ols估计,或者比较小时,re趋近于ols估计;时就是fe,或者比较小时(t比较大时),re趋近于fe估计;该特征可由看出,该系数将的影响缩小了;
5) 的影响,通常fe,re和混合ols都报告是一个不错的选择。
固定效应还是随机效应。
如果, 不成立,那么使用fe. 若该假设成立,一般建议使用re(因为更有效,并且可以包含时不变的自变量),但有例外情况,比如个体的总体不大(总量数据),从而个体不能视为总体的一个随机抽取的样本,此时使用fe.
有关该fe和re的一个例行检验是hausman(1978)检验,若原假设被拒绝则意味着, 是错误的。
各种面板数据分析方法可用于不涉及时间的数据结构。
geronimus and korenman (1992)使用配对姐妹数据来研究未成年生育对未来经济状况的影响。由于不可观测的家庭效应可能是一个重要的解释变量,而且它和其它有关该家庭层面的解释变量特别是兴趣变量未成年生育这个虚拟变量有关,因此混合ols估计会给出一个有偏估计。但通过家庭内的两姐妹之间的差分,可以消除这一家庭效应。
ashenfelter and krueger (1994)使用差分的方法研究了教育的工资回报问题,他们使用了149对同卵生双胞胎,用于控制潜在能力。
这两个例子属于配对样本(matched pairs samples)的例子。如果横截面数据的每个个体都属于一个明确定义的类别(这些类别互补但不重叠),则称这些样本为聚类样本(cluster sample)。显然,fe和re可以用于聚类样本的分析。
聚类样本中的个体是有差异的,但也可能存在不可观测的聚类效应(cluster effect)。当聚类效应和自变量相关时,则倾向于使用fe,而且一般做非平衡面板的fe分析。 如果分析的变量只在类的水平上有所差异,在类的内部没有差异,那么fe将不适用,在聚类效应和解释变量不相关的前提下,可以使用re。
或者使用混合ols,但需要使用允许“聚类相关和异方差性”的稳健标准误。
C14 2德育工作考核评估制度
富顺县古佛镇许家小学德育工作考核评估制度。1 学校德育工作领导小组和德育处负责对本校教职员工的德育工作进行监督 检查 评价 指导。2 学校定期通过问卷 访谈 跟踪调查等形式,收集和听取学生 家长及社会对教师的评价,了解学生在校外及毕业后的品德表现,不断改进德育工作。3 作学校每学期应进行一次德育工作...
高级C答案
一 判断题。二 单项选择题。1 5 abcbc 6 10 bdcaa 11 15 bdbbc 16 20 bccbd 21 25 bdbcb 26 30 ccabb 三 多项选择题。1 abcd 2 abcd 3 abcd 4 abd 5 abcd 6 abc 7 abc 8 bcd 9 abcd ...
C 高级编程
第六章熟悉类与对象。6.1 电子 示例介绍。6.2 编写类。6.2.1 类定义。1.方法与成员。2.访问控制。3.声明的顺序。6.2.2 定义方法。1.访问数据成员。2.调用其他方法。指针。6.2.3 使用对象。1.堆栈中的对象。2.堆中的对象 6.3 对象的生命周期。6.3.1 创建对象。1.编写...