[OLS: 가우스-마르코프 가정] OLS의 기본 가정 중에서 회귀계수의 편의(bias)와 관련된 것은 [ ]이고, 이것이 위배된다면 [ ] 문제가 생길 수 있다. 패널 데이터의 경우 그 특성상 [ ] 가정과 [잔차들의 독립성] 가정이 위배될 수 있다. 패널 데이터는 변량이 발생하는 단위가 [ ]와 [ ] 두 가지이다. 이와 관련하여, 잔차들 간 상관관계 또한 두 가지로 나타날 수 있다: [ ], [ ].
[GLS] GLS는 이분산성과 잔차 간 상관관계를 고려한 추정 방법이다. 잔차에 대한 여러 가정들 - 이분산성, 자기상관, 동시상관 - 은 panels( )
나 corr( )
옵션을 통해 specify할 수 있다. 잔차 행렬의 구조에 대한 여러 가정 하에, 회귀계수와 회귀계수의 표준오차를 GLS 추정자를 통해 추정하게 된다. 다만, GLS를 위한 STATA 명령어인 [ ] 는 N수가 적고, T수가 큰 macro 패널자료를 위해 만들어졌다는 것에 유의해야 한다. 또한 GLS는 회귀계수의 표준오차를 과소추정하는 경향이 있다.
[PCSE] “패널교정표준오차”(PCSE=panel-corrected standard errors) 모형은 이러한 단점을 극복하는 한 가지 방법이다. STATA 명령어로 [ ]를 사용한다. 이때 회귀계수는 OLS 추정자를 통해 추정되지만, 표준오차를 추정할 때 디폴트로 [ ]과 [ ]을 가정한다. PCSE 또한 자료 자체가 [ ]이어야 하고, 동시에 [ ]이어야 하므로 제약이 있다.
때문에 패널자료를 분석하는 다른 방법으로 오차성분모형(Error Component Model)을 많이 사용한다.
오차성분모형의 핵심은 오차항을 [ ]과 [ ]로 분리하는 것이다. 그 중 [ ] 를 어떻게 처리해주는지에 따라서 여러 모형이 구분된다.
[mixed effects] 혼합효과 모형에서의 “고정효과”, “임의효과”는 오차성분모형에서의 “FE”, “RE”와 구분되는 개념이다. 혼합효과 모형에서 fixed effects는 [ ]는 것을 의미한다. 한편, random effect는 [ ]는 것을 의미한다. 상위 수준에서 값이 달라지는지 여부가 절편에서 발생하는지, 또는 절편과 독립변수의 계수 모두에서 발생하는지에 따라 [ ] 모형과 [ ] 모형으로 구분할 수 있다.
[자기상관] 패널자료는 그 특성상 자기상관 또는 계열상관 문제가 발생할 수 있다.
자기상관 검정 방법에는 여러 가지가 있었다: [ , , ]
자기상관이 존재함을 확인했다. 그럼 어떤 모형들이 자기상관 문제를 적극적으로 고려하는가? : [ , , ] (자기상관 문제를 고려해서 표준오차를 더 강건하게 추정하는 방식도 존재한다.)
각각의 모형의 장단점을 생각해보자:
FD의 장점은 자기상관이 대부분의 경우에 제거된다는 데 있다. 자기상관이 제거되는지 여부는 [ ] 을 통해 확인할 수 있었다. 자기상관이 제거되었다면 STATA에서는 변수명 앞에 D.
를 붙여주고 회귀분석을 하면 된다.
이때 절편을 추정할지 말지는 연구자 각자의 논리에 따라 결정하면 된다. 만약 시점에 걸쳐 독립변수가 변하지 않더라도 종속변수가 변화하는 상황이 말이 된다면 절편까지 추정해주면 된다. 이 경우 절편은 모형의 우변에 포함한 변수들에 변화가 없을 때 종속변수의 변화라고 해석하면 되겠다. 반대로, 독립변수가 변화하지 않으면 종속변수 또한 변화하지 않는다는 가정 하에서는 [ ] 옵션을 통해 절편을 추정하지 않으면 된다.
단점은 수준 변수가 아니라 차분 변수를 사용하는 것이기 때문에, 해석할 때 [ ]고 해석해주어야 한다. 또한 실질적으로 시간 갭이 일정한 경우에만 차분하는 게 의미가 있을 것이다.
Lagged DV의 장점은 (물론 논쟁이 있기는 하지만), 만약에 지연된 종속변수의 회귀계수가 0이 아니라면, 이를 모형에 포함시켜야 [ ]가 발생하지 않는다는 점이다. 실질적인 단점은 지연 종속변수를 모형에 포함하게 되면 [ ]는 것이다. 이 장점과 단점은 사실상 동전의 양면이다. 추가로, 차분 변수와 마찬가지로 지연 변수 또한 시간 갭이 일정해야 실질적 의미를 갖는다는 점에서 주의해야 한다.
AR(1)는 이전 시점의 오차가 다음 시점의 오차에 $\rho$ 만큼의 영향을 준다는 전제 하에, 적극적으로 오차들 간 자기상관을 모델링에 반영(예: cochrane-orcutt)하는 방식이다. 다만, 자기상관이 [ ]인 경우, 그리고 종속변수 (또는 자료가) [ ]을 충족하는 경우에 사용 가능하다는 제약이 있다.
[단위근과 정상성] 정상성이 충족되기 위한 조건으로 세 가지가 있었다: [ , , ]. 단위근이란, 오늘의 영향력이 미래에 어느 정도의 영향력을 갖는가를 결정하는 모수라고 보면 된다. 단위근이 존재하면 [ ]을 띠게 된다.
단위근 또는 비정상성 존재에는 대표적으로 두 가지 원인이 있을 수 있다. 첫 번째는 추세 때문에 비정상인 경우이다. 이때에는 [ ] 비정상성을 제거할 수 있다. 이 경우, [ ]만 통제하고 제거해주면 자료가 stationary stochastic process를 따르게 된다고 말할 수 있다. 두 번째는 추세 외의 모종의 이유로 비정상인 경우이다. 이 경우에는 시간 변수를 포함해준다고 해서 비정상성이 제거되지 않는다. 따라서 [ ]를 사용하는 대안을 고려해야 한다.
[ 📌 그래서 어떤 모형을 선택할 것인가?] 절대적으로 뛰어난 어떤 모형이 있는 것도 아니고, 정답 또한 없다. 우선 각 모형을 사용할 수 있는 일련의 제약 조건이나 장단점을 이해해야 할 것이다. 또한 분석의 대상이 되는 패널 데이터 구조(N, T의 상대적 크기, 단위근 유무 등), 스토리 상의 논리(개체 간 차이가 중요한지, 개체 내 변화가 중요한지 등), 주요 변수들의 분포나 변량(연속형인지, 개체 간 및 개체 내 변량은 얼마나 되는지 등)에 따라서 가장 “효과적”으로 주장하는 바를 보여줄 수 있는 모형을 선택하는 것이 중요하다. 메인 가설을 테스트하기 위해 여러 모형을 종합적으로 고려하는 것도 좋은 방법이다(강건성 검토). 마지막으로, 특정 모형을 선택하여 분석한 후에도 발생 가능한 잔차 간 상관관계나 이분산성 문제를 고려하기 위해서 post-estimation tests를 해보는 것이 좋다.
[이항 종속변수] 마지막으로, 종속변수가 이항 변수인 경우에는 잔차의 개념이 없기 때문에, 자기상관, 동시상관, 이분산성의 개념 또한 적용하기 어렵다. 하지만 여전히 관찰되지 않은 개체 간 이질성($u_i$) 개념은 존재하므로, 이를 어떻게 처리하는지에 따라 FE와 RE로 구분할 수 있다.
다만, 종속변수가 이항 변수인 경우, 0에서 1로 값이 바뀌거나 1에서 0으로 바뀌는 경우가 드물 수 있다. 이 경우 종속변수의 개체 내 변량 자체가 매우 적어져서 패널 로짓을 사용하는 것 자체가 비효율적일 수 있으므로 주의해야 한다.