指示变量

科技工作者之家 2020-11-17

指示变量(indicator variables)又称为虚拟参数(dummyparameter,D)、哑变量、哑元变量、虚拟变量等,是—-种用来表示品质变量且取值只为0和1或其他编码形式的人工变量1。

基本介绍定义指示变量可以用来解释计量经济模型中的定性因素。它们经常被称为虚拟、二元或二分变量,因为它们通常只取1或0两个值,表示某种特征的存在与否或者某种条件的真假。它们也被称为虚拟变量,表示我们为一个定性的、非数值特征创建了一个数值变量。我们交替地使用指示变量和虚拟变量。将这些变量定义为0或1虽是任意的,但是我们会看到,这是非常方便的。一般地,我们定义一个指示变量D为2:

举例分析为了使问题明确化,我们举一个房地产经济学中的例子。房屋的买方和卖方、估税员、房地产估价者和抵押贷款银行家都对预测房屋的现行市场价值感兴趣。预测房价价值的一个常见方法是运用特征价格模型,其中房价被解释为房屋特征(如房屋的大小、地点、卧室数量和房龄等等)的函数。其思路是将一个主体分成若干个组成部分,然后估计其每个特征的价值。

现在,我们假设房屋的大小SQFT(以平方英尺为计量单位)是决定房价PRICE的唯一相关变量。设定的回归模型为:

在该模型中,是居住面积每增加1平方英尺增加的房屋价值,是土地本身的价值。

在房地产领域,最重要的三个词是“地点、地点和地点”。我们如何考虑房产位于理想地区(如在大学或者高尔夫球场附近)的影响?按这样的方式思考,地点是房屋的“定性”特征。

对于房价模型,我们可以定义一个指示变量来考虑房屋是否位于理想的地区,如:

指示变量能够被用来捕捉模型的截距、斜率或者两者同时的变化。我们将依次讨论这些情况2。

截距指示变量指示变量的最常见应用是修正回归模型的截距参数。将一个指示变量D以及一个新的参数引入回归模型,我们得到:

将指示变量D引入回归模型的影响能够通过检验两个地区的回归函数E(PRICE)得到最好的说明。如果公式(3)的模型设定正确,则E(e)=0,且

在理想的地区,D=1,回归函数的截距为。在其他地区,回归函数的截距仅为。假设,这种差异可用图1来描述。

把指示变量D加入回归模型,会导致关系平行移动。在房价模型中,参数的解释为“位置溢价”,即由于房屋位于理想地区带来的房价差异。指示变量D被引入回归模型以表示某个定性因素造成的截距移动,被称为截距指示变量截距虚拟变量。在房价的例子中,我们预计位于理想地点的房屋价格更高,因此我们预测为正值。

最小二乘估计量的性质不受解释变量之一仅包括0或1两个数值这一事实的影响——D被看做任何一个其他解释变量。我们能建立的一个区间估计值,或检验其最小二乘估计值的显著性。这种检验就是地点对房价的影响是否“在统计上显著”的统计检验。如果,则不存在所讨论的位置溢价。

选择参照组

取值D=0O和D=1的方便性能通过公式(4)看出。D=0定义了参照组或基准组,表示不在理想地区的房屋。这些房屋的预期价格仅为。运用公式(3),我们来比较位于理想地区的房价和参照组的房价。

以解释为目的,研究者选择任何一个地区作为参照组都是最方便的。例如,我们能定义指示变量LD来表示非理想地区:

这个指示变量的定义正好与D相反,LD =1-D。如果将LD加入模型设定中:

则我们得到参照组,LD =0,表示房屋在理想地区。

你可能想在回归模型中同时包括变量D和变量LD,以捕捉每种房屋地点对房价的影响。也就是说,你可能考虑如下模型:

在这个模型中,变量D和变量LD的关系是D+LD =1。由于截距变量,我们创造了一个具有完全共线性的模型,最小二乘估计量不适用于这些情况。这种错误有时被描述为陷入虚拟变量陷阱。通过只引入其中的一个指示变量,D或者LD,被省略的变量作为参照组,我们就避免了这个问题(避免虚拟变量陷阱的另一个方法是在模型中省略截距)2。

斜率指示变量假设地点对房价的影响不会导致特征价格回归方程(1)的截距发生变化,而是导致该关系式的斜率发生变化。通过在模型中引入一个等于指示变量和连续变量乘积的解释变量,我们能描述斜率的变化。在该模型中,关系式的斜率代表新增1平方英尺的居住面积的价值。假设在理想地区和非理想地区这样的价值不同,我们将回归模型设定为:

新变量(SQFT×D)是房屋大小和指示变量的乘积,它被称为交互变量,因为它表示地点和房屋大小对房价的交互作用效应。或者,它被称为斜率指示变量斜率虚拟变量,因为它考虑了关系式的斜率变化。当D=1时,对于位于理想地区的房屋,斜率指示变量的值等于SQFT;对于位于其他地区的房屋,其值等于零。尽管它有不同于普通变量的性质,在回归模型中,斜率指示变量与其他解释变量被同等对待。检查两个不同地区的回归函数能最好地说明把斜率指示变量加入经济模型的影响,

在理想地区,房屋每增加1平方英尺的价格是(),在其他地区是。如果在两个地区中,更理想的地区每增加1平方英尺的价格更高,则我们预测。这种情况如图2a所示。

另外一个观测引入斜率指示变量的影响的方法是运用微积分。预期房价对房屋的大小(以平方英尺为衡量单位)求偏微分,得到关系式的斜率:

如果公式(5)满足回归模型的基本假设,其最小二乘估计量具有通常的良好性质。两个地区新增1平方英尺的居住面积带来的价值是否相等能通过假设检验来检验。在该检验中,原假设为,备择假设为。在这种情况下,我们能检验,因为我们预测影响效应是正的。

如果我们假设房屋位置同时影响截距和斜率,则这两种影响能同时被引入一个模型中。得到的回归模型为:

在本例中,两个地区的房价回归函数是:

在图2b中,我们假设,描述房价关系2。

本词条内容贡献者为:

刘军 - 副研究员 - 中国科学院工程热物理研究所

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。