由于计量经济学需要一定的统计学基础,不正确地使用计量经济模型,可能会使估计结果不稳健,导致实证结果的政策分析被质疑。本文从数据、模型和参数等3个角度出发,分析应用精良经济学模型在实证分析中需要注意的问题。
计量经济学作为实证分析的主要手法,已经被中国广大经济研究者接受。但是,正确运用计量经济模型,得出一个稳定、合理以及可靠的参数估计值,还没有一个很好的系统梳理。
由于计量经济学的统计学基础,不正确使用计量经济模型,可能会使估计结果不稳健,从而产生“变色龙”一样的实证结果,导致实证结果的政策分析被广受质疑。
首先,数据是进行实证分析的基础。数据按照来源,可以划分为微观调研数据、机构统计数据以及实验数据。在广为使用的调研数据和统计数据中,系统性误差包括测量误差和样本选择常常存在。如果无视这些误差,可能使估计结果不能满足一致性。如果数据存在系统性测量误差,工具变量方法通常是主要的解决方案;如果数据存在系统性的样本选择问题,Heckman方法是广为使用的校正方法。
其次,从模型的角度来说,任何模型都包括环境假设、机制以及求解3个组成部分。其中,环境假设对计量经济模型的正确使用尤为重要。在运用计量模型时,必须要清楚了解他们的假设条件,并对这些条件作必要的检查和检验。计量经济模型区别于统计模型最重要的假设:变量的外生性、许多因素可以造成变量内生性问题。工具变量是对内生性常见的检验和校正方法。可是有些研究中,工具变量无从寻找,就必须要依靠实验经济学的方法。
伪回归在计量分析中也不鲜见。伪回归可能是由模型本身原因造成的,也可能是数据结构造成的。计量经济学是结合了经济学理论和统计学的定量分析方法,没有经济学理论基础的计量经济分析,很可能会导致伪回归结果。某些特殊的数据结构,如非平稳的时间序列或非平稳的空间数据,都可能导致伪回归结果。
再次,计量经济学的基础虽然是统计学,但是两者之间还存在一些差异。由于技术上的限制,现有的计量经济模型的检验还是基于统计检验,所谓“显著性”都是统计上的显著性,这不同于“经济上的显著性”。在实证分析中,在讨论估计参数在统计上显著性的时候,也必须要讨论经济上的显著性,后者有时可能更重要。
最后,计量经济学的估计结果通常会被运用到政策分析中去,但是Lucas批判(1976)认为参数的估计值可能会随着政策的变化而变化,使计量经济学无法为政策分析服务。为了应对Lucas批判,计量经济学家提出了变量超级外生性的概念。条件于超级外生的变量,数据产生机制对估计参数结果没有影响,这时的政策分析才有意义。
学习计量经济学的最后目的是为进行实证研究,但对初学计量经济学的人而言,要写一篇有实证研究的报告或论文时常有不知如何着手的感觉,这里我便对实证研究的规划以及论文的写作做一些粗浅的建议。
1.计量方法不应太简单(例如只做到最简单的OLS),但也不必过于复杂,体育评论应针对问题采用恰到好处的计量方法。若采用了比较复杂的计量方法,则要说明为什么简单的方法不适合。计量方法的好坏不在其复杂程度,而在于它是否能够帮我们得到正确的估计值,以了解数据中所包含的线.除了估计值以及对应的 t 检定外外,也可做一些 F 检定之对多个系数的假设检定。
解释变量和应变量之间的因果关系一定要正确,也就是说,解释变量是原因在先,应变量是结果在后,有一定的先后顺序。尤其要注意,有些变量数值的产生很可能是和应变量同时决定的,或是因果关系不很明确(也就是说,相对于应变量而言,这些变量是内生的),则在选取这些变量作为解释变量时,便要非常小心。解释变量的内生问题常常是研究被批评的主要原因;
要注意解释变量的同构型,不能不分青红皂白的将一大堆彼此相关性很高的变量(包括相同变量的不同转换、或是几个变数间的各种交乘项)放进回归式内,造成严重的线性重合问题;
经济理论所牵涉到的变量常常是无法观察到的,因此在做实证研究时必须采用替代变量(Proxy),研究者要对所选用之替代变数的合理性详加说明。由于数据总有些缺失,常有人在束手无策之下,采用了很多匪夷所思的替代变数;
5.横断面数据要注意异方差(Heteroscedasticity)的问题,时间数列的数据则要注意干扰项自我相关(Autocorrelation)的问题。
8.若实证模型中有多个应变量(和对应之方程式)值得同时分析,则可考虑采用 Seeming unrelated regression甚至联立回归模型等系统模型,以更有效的利用各回归式之间的相关性。
模型有理论模型和实证模型两类。理论模型是从经济理论中直接导出,而实证模型则是从理论模型衍申出来,是要实际以资料来估计的。理论模型通常需以数学推导,因此文章中可列出一些关键的数式以帮助理论的阐述,但不应长篇累牍的堆积只有间接关系的数式。实证模型通常是以回归模型的形式表示,对模型中所涉及的变量均须给与明确的定义,对解释变量和应变量之间的关系要详尽的说明,也要解释对模型中主要系数(或由这些系数所导出之弹性、乘数等)可能数值的大小及符号有怎样的理论预期。
系数估计的主要结果均须以表列出,在表中每一系数对应之变量名称要写清楚,每一系数估计值旁均须伴随一标准差(s.e.)或 t统计量,也可加列 p 值,对于显著的估计值也可附加诸如星号之特殊标记以提醒读者。显示模型整体表现的统计量,诸如 R2(线性回归模型),F 检定统计量, Durbin-Watson检定统计量(对时间数列资料),也可选择性的列于表内。在表的脚注中,必须说明表中所有的特殊符号和简称,表中变量名称的选取,应尽量采用有意义的中文简称,少用无意义的英文字母组合。制表的基本原则就是要让读者便捷、完整而清楚的了解估计的结果;
对主要回归系数(或由回归系数所导出之弹性、乘数等)估计值的大小、符号及显著与否要详加讨论,对于显著的估计值更要和理论预期值比较,若有明显的矛盾,则要探讨原因;
对重要回归系数若是得不到显著的估计值,则要探讨其中原因。也绝不能对不显著的估计值做出过度的解释,尤其不能宣称不显著的估计值支持或不支持某些特定结论。我们要知道估计值不显著,就是表示所使用的数据不能够提供足够的信息,若是没有足够的信息,当然不能够也不应该做出任何确切的结论;
为增加文章的清晰度,能够条列的结果应尽量条列(但要注意条列式的阐述易流于机械化而让读者失去兴趣),同样的,能够列表的结果应尽量列表,表格应尽可能的明确、独立自主而自成一体(多利用表格下端的附注详加解释表格的内容),尽可能让读者不用在文章中到处找相关说明。此外,图表也是一个非常精准有效之传达信息的方式,应多加利用;
若要根据估计模型对数据外的时期或状况进行预测,则态度必须保守谨慎,尽可能设想预测可能不准的原因;
所有列举的统计数字应尽量保持统一的小数点位数(小数点后三位数或四位数均可),如果有很小或很大的数字,则可以用科学表示法表示(例如1.2345 x 10-4),尽可能显示出三至五位有效数字。
大家都知道文章中每一个章节都有一个主题(章节的标题就是用来点明该主题的),但很多人似乎是不知道,文章中的每一个段落也有各自的主题,也就是说每一个段落只是用来说明一件事情的。很多人常在该分段的时候不分,以致一个段落中常挤进两三个不太相关连的主题,而让读者不易掌握文章重点。
3.相对的另一个问题是,同一个主题,也应该在同一个地方讲清楚,而不应该在文章中不同的地方重复出现(在序论及结论中对各主题之概论则例外),尤其是不应该在不同的地方出现互相矛盾的说法。但有时候在对一个主题的解释过程中,可能需要先了解一些的概念,因此有必要将一个主题的解释,分置于文章中两个不同的段落。若如此则在前一部份解释完成后,应预先告知往后还会有更多的说明。这种做法既让读者有一个全盘了然的感觉,也提醒自己在前后不同地方的说明要彼此呼应而不重复或矛盾。