[OLS: 가우스-마르코프 가정] OLS의 기본 가정 중에서 회귀계수의 편의(bias)와 관련된 것은 [오차항의 외생성; $cov(x_{it}, e_{it})=0$]이고, 이것이 위배된다면 [누락변수 편의] 문제가 생길 수 있다. 패널 데이터의 경우 그 특성상 [등분산성] 가정과 [잔차들의 독립성] 가정이 위배될 수 있다. 패널 데이터는 변량이 발생하는 단위가 [개체]와 [시간] 두 가지이다. 이와 관련하여, 잔차들 간 상관관계 또한 두 가지로 나타날 수 있다: [자기상관], [동시상관].
[GLS] GLS는 이분산성과 잔차 간 상관관계를 고려한 추정 방법이다. 잔차에 대한 여러 가정들 - 이분산성, 자기상관, 동시상관 - 은 panels( )
나 corr( )
옵션을 통해 specify할 수 있다. 잔차 행렬의 구조에 대한 여러 가정 하에, 회귀계수와 회귀계수의 표준오차를 GLS 추정자를 통해 추정하게 된다. 다만, GLS를 위한 STATA 명령어인 [xtgls
] 는 N수가 적고, T수가 큰 macro 패널자료를 위해 만들어졌다는 것에 유의해야 한다. 또한 GLS는 회귀계수의 표준오차를 과소추정하는 경향이 있다.
[PCSE] “패널교정표준오차”(PCSE=panel-corrected standard errors) 모형은 이러한 단점을 극복하는 한 가지 방법이다. STATA 명령어로 [xtpcse
]를 사용한다. 이때 회귀계수는 OLS 추정자를 통해 추정되지만, 표준오차를 추정할 때 디폴트로 [이분산성]과 [동시상관]을 가정한다. PCSE 또한 자료 자체가 [macro 패널(N < T)]이어야 하고, 동시에 [균형 패널]이어야 하므로 제약이 있다.
때문에 패널자료를 분석하는 다른 방법으로 오차성분모형(Error Component Model)을 많이 사용한다.
오차성분모형의 핵심은 오차항을 [$u_i$, 관찰되지 않은 개체 특수한 이질성]과 [$e_{it}$, 그걸 제외한 진짜 “찌꺼기”]로 분리하는 것이다. 그 중 [$u_i$] 를 어떻게 처리해주는지에 따라서 여러 모형이 구분된다.
xtreg, fe
] 명령어를 통해 FE 분석 시 제일 아래에 출력되는 F-검정 결과를 통해 판단할 수 있다. 이때 영가설은 [”모든 i에 대해 $u_i$=0이다”]이다.xtreg, re
] 명령어를 통해 RE 분석 후 post-estimation command 인 [xttest0
]을 통해 [$var(u_i)=0$; 즉, random effect = 0]인지 아닌지를 테스트할 수 있다.[mixed effects] 혼합효과 모형에서의 “고정효과”, “임의효과”는 오차성분모형에서의 “FE”, “RE”와 구분되는 개념이다. 혼합효과 모형에서 fixed effects는 [상위 수준에서 절편(intercept) 또는 기울기/계수(slope/coefficient)가 하나로 고정되어 있다]는 것을 의미한다. 한편, random effect는 [상위 수준에 따라 절편 또는 기울기/계수가 다른 값을 갖는다]는 것을 의미한다. 상위 수준에서 값이 달라지는지 여부가 절편에서 발생하는지, 또는 절편과 독립변수의 계수 모두에서 발생하는지에 따라 [random intercepts] 모형과 [random slope] 모형으로 구분할 수 있다.
[자기상관] 패널자료는 그 특성상 자기상관 또는 계열상관 문제가 발생할 수 있다.
자기상관 검정 방법에는 여러 가지가 있었다: [브르쉬-갓프리 검사, 더빈-왓슨 검사, 울드릿지 방식 xtserial]
자기상관이 존재함을 확인했다. 그럼 어떤 모형들이 자기상관 문제를 적극적으로 고려하는가? : [1차차분모형, 지연된 종속변수, 자기회귀모형] (자기상관 문제를 고려해서 표준오차를 더 강건하게 추정하는 방식도 존재한다.)
각각의 모형의 장단점을 생각해보자:
FD의 장점은 자기상관이 대부분의 경우에 제거된다는 데 있다. 자기상관이 제거되는지 여부는 [xtserial 차분변수들
] 을 통해 확인할 수 있었다. 자기상관이 제거되었다면 STATA에서는 변수명 앞에 D.
를 붙여주고 회귀분석을 하면 된다.
이때 절편을 추정할지 말지는 연구자 각자의 논리에 따라 결정하면 된다. 만약 시점에 걸쳐 독립변수가 변하지 않더라도 종속변수가 변화하는 상황이 말이 된다면 절편까지 추정해주면 된다. 이 경우 절편은 모형의 우변에 포함한 변수들에 변화가 없을 때 종속변수의 변화라고 해석하면 되겠다. 반대로, 독립변수가 변화하지 않으면 종속변수 또한 변화하지 않는다는 가정 하에서는 [,nocons
] 옵션을 통해 절편을 추정하지 않으면 된다.
단점은 수준 변수가 아니라 차분 변수를 사용하는 것이기 때문에, 해석할 때 [독립변수가 (단기간에) 증가할 때 종속변수가 (단기간에) 변화한다]고 해석해주어야 한다. 또한 실질적으로 시간 갭이 일정한 경우에만 차분하는 게 의미가 있을 것이다.
Lagged DV의 장점은 (물론 논쟁이 있기는 하지만), 만약에 지연된 종속변수의 회귀계수가 0이 아니라면, 이를 모형에 포함시켜야 [누락변수 편의]가 발생하지 않는다는 점이다. 실질적인 단점은 지연 종속변수를 모형에 포함하게 되면 [다른 독립변수들의 효과가 상쇄될지도 모른다]는 것이다. 이 장점과 단점은 사실상 동전의 양면이다. 추가로, 차분 변수와 마찬가지로 지연 변수 또한 시간 갭이 일정해야 실질적 의미를 갖는다는 점에서 주의해야 한다.
AR(1)는 이전 시점의 오차가 다음 시점의 오차에 $\rho$ 만큼의 영향을 준다는 전제 하에, 적극적으로 오차들 간 자기상관을 모델링에 반영(예: cochrane-orcutt)하는 방식이다. 다만, 자기상관이 [1차]인 경우, 그리고 종속변수 (또는 자료가) [정상성]을 충족하는 경우에 사용 가능하다는 제약이 있다.
[단위근과 정상성] 정상성이 충족되기 위한 조건으로 세 가지가 있었다: [$y_t$의 기댓값과 분산이 시점 t와 무관하게 항상 일정하고, 자기공분산이 시점 t가 아닌 시차 s에 의존]. 단위근이란, 오늘의 영향력이 미래에 어느 정도의 영향력을 갖는가를 결정하는 모수라고 보면 된다. 단위근이 존재하면 비정상성을 띠게 된다.
단위근 또는 비정상성 존재에는 대표적으로 두 가지 원인이 있을 수 있다. 첫 번째는 추세 때문에 비정상인 경우이다. 이때에는 [시간 변수를 모형에 포함해서 추세를 통제해주어] 비정상성을 제거할 수 있다. 이 경우, [추세]만 통제하고 제거해주면 자료가 stationary stochastic process를 따르게 된다고 말할 수 있다. 두 번째는 추세 외의 모종의 이유로 비정상인 경우이다. 이 경우에는 시간 변수를 포함해준다고 해서 비정상성이 제거되지 않는다. 따라서 [차분 변수]를 사용하는 대안을 고려해야 한다.
[그래서 어떤 모형을 선택할 것인가?] 절대적으로 뛰어난 어떤 모형이 있는 것도 아니고, 정답 또한 없다. 우선 각 모형을 사용할 수 있는 일련의 제약 조건이나 장단점을 이해해야 할 것이다. 또한 분석의 대상이 되는 패널 데이터 구조(N, T의 상대적 크기, 단위근 유무 등), 스토리 상의 논리(개체 간 차이가 중요한지, 개체 내 변화가 중요한지 등), 주요 변수들의 분포나 변량(연속형인지, 개체 간 및 개체 내 변량은 얼마나 되는지 등)에 따라서 가장 “효과적”으로 주장하는 바를 보여줄 수 있는 모형을 선택하는 것이 중요하다. 메인 가설을 테스트하기 위해 여러 모형을 종합적으로 고려하는 것도 좋은 방법이다(강건성 검토). 마지막으로, 특정 모형을 선택하여 분석한 후에도 발생 가능한 잔차 간 상관관계나 이분산성 문제를 고려하기 위해서 post-estimation tests를 해보는 것이 좋다.
[이항 종속변수] 마지막으로, 종속변수가 이항 변수인 경우에는 잔차의 개념이 없기 때문에, 자기상관, 동시상관, 이분산성의 개념 또한 적용하기 어렵다. 하지만 여전히 관찰되지 않은 개체 간 이질성($u_i$) 개념은 존재하므로, 이를 어떻게 처리하는지에 따라 FE와 RE로 구분할 수 있다.
다만, 종속변수가 이항 변수인 경우, 0에서 1로 값이 바뀌거나 1에서 0으로 바뀌는 경우가 드물 수 있다. 이 경우 종속변수의 개체 내 변량 자체가 매우 적어져서 패널 로짓을 사용하는 것 자체가 비효율적일 수 있으므로 주의해야 한다.