파이널 체크리스트 (정답)

[OLS: 가우스-마르코프 가정] OLS의 기본 가정 중에서 회귀계수의 편의(bias)와 관련된 것은 [오차항의 외생성; $cov(x_{it}, e_{it})=0$]이고, 이것이 위배된다면 [누락변수 편의] 문제가 생길 수 있다. 패널 데이터의 경우 그 특성상 [등분산성] 가정과 [잔차들의 독립성] 가정이 위배될 수 있다. 패널 데이터는 변량이 발생하는 단위가 [개체]와 [시간] 두 가지이다. 이와 관련하여, 잔차들 간 상관관계 또한 두 가지로 나타날 수 있다: [자기상관], [동시상관].
[GLS] GLS는 이분산성과 잔차 간 상관관계를 고려한 추정 방법이다. 잔차에 대한 여러 가정들 - 이분산성, 자기상관, 동시상관 - 은 panels( ) 나 corr( ) 옵션을 통해 specify할 수 있다. 잔차 행렬의 구조에 대한 여러 가정 하에, 회귀계수와 회귀계수의 표준오차를 GLS 추정자를 통해 추정하게 된다. 다만, GLS를 위한 STATA 명령어인 [xtgls] 는 N수가 적고, T수가 큰 macro 패널자료를 위해 만들어졌다는 것에 유의해야 한다. 또한 GLS는 회귀계수의 표준오차를 과소추정하는 경향이 있다.
[PCSE] “패널교정표준오차”(PCSE=panel-corrected standard errors) 모형은 이러한 단점을 극복하는 한 가지 방법이다. STATA 명령어로 [xtpcse]를 사용한다. 이때 회귀계수는 OLS 추정자를 통해 추정되지만, 표준오차를 추정할 때 디폴트로 [이분산성]과 [동시상관]을 가정한다. PCSE 또한 자료 자체가 [macro 패널(N < T)]이어야 하고, 동시에 [균형 패널]이어야 하므로 제약이 있다.

때문에 패널자료를 분석하는 다른 방법으로 오차성분모형(Error Component Model)을 많이 사용한다.
오차성분모형의 핵심은 오차항을 [$u_i$, 관찰되지 않은 개체 특수한 이질성]과 [$e_{it}$, 그걸 제외한 진짜 “찌꺼기”]로 분리하는 것이다. 그 중 [$u_i$] 를 어떻게 처리해주는지에 따라서 여러 모형이 구분된다.
1. [BE] BE는 [시간]에 따른 변량을 없애고, [개체 간] 변량 만을 가지고 회귀분석 하는 것이다.
  1. BE의 단점은 [개체 간] 변량 만을 사용하기 때문에 덜 효율적이라는 점이다.
2. [FE] LSDV는 [$u_i$]를 [추정해야 할 모수]로 간주하여 통제한다.
3. [FE] WG는 [$u_i$]를 [제거]하여 통제한다.
  1. FE의 장점은 $u_i$를 통제하였기 때문에 추정되는 회귀계수가 [consistent]하다고 말할 수 있다는 점이다. 단점은 [시불변 변수]의 효과를 볼 수 없게 된다는 점이다.
4. [RE] RE는 [$u_i$]가 [랜덤하다]고 가정한다.
  1. RE의 장점은 개체 간 변량, 개체 내 변량을 모두 사용한다는 점에서 BE나 FE에 비해 훨씬 [효율적]이라는 점이다. 또한 FE에서 추정하지 못했던 [시불변 변수]의 효과까지 추정할 수 있다.
  2. 단점은 [$cov(u_i, x_{it})=0$; 즉, $u_i$가 정말 랜덤하다]라는 가정 하에 분석을 하기 때문에, 이 가정이 정말 맞는지 확인을 해주어야 한다는 것이다.
5. [FE vs. RE] 이를 간접적으로 확인하는 방법이 [하우스만 검정]이다. (모형 자체가 잘 specified되었다는 전제 하에) FE 추정치는 항상 [consistent]하므로, RE 추정치가 이와 통계적으로 유의하게 다른지를 테스트하는 것이다. 만약 p <.05라서 영가설을 기각하게 되면, [RE]보다는 [FE]를 택하는 것이 좋다. 만약 영가설을 기각하지 못한다면, [RE 추정치도 consistent한 동시에 더 효율적]이기 때문에 [RE]를 선택하는 것이 좋겠다.
6. [Pooled OLS vs. FE] [xtreg, fe] 명령어를 통해 FE 분석 시 제일 아래에 출력되는 F-검정 결과를 통해 판단할 수 있다. 이때 영가설은 [”모든 i에 대해 $u_i$=0이다”]이다.
7. [Pooled OLS vs. RE] [xtreg, re] 명령어를 통해 RE 분석 후 post-estimation command 인 [xttest0]을 통해 [$var(u_i)=0$; 즉, random effect = 0]인지 아닌지를 테스트할 수 있다.
8. Pooled OLS, FE, RE 중에서 모형을 선택한 후에는, 해당 모형에 [이분산성], [자기상관], [동시상관] 문제가 존재하는지 확인해주면 된다.
[mixed effects] 혼합효과 모형에서의 “고정효과”, “임의효과”는 오차성분모형에서의 “FE”, “RE”와 구분되는 개념이다. 혼합효과 모형에서 fixed effects는 [상위 수준에서 절편(intercept) 또는 기울기/계수(slope/coefficient)가 하나로 고정되어 있다]는 것을 의미한다. 한편, random effect는 [상위 수준에 따라 절편 또는 기울기/계수가 다른 값을 갖는다]는 것을 의미한다. 상위 수준에서 값이 달라지는지 여부가 절편에서 발생하는지, 또는 절편과 독립변수의 계수 모두에서 발생하는지에 따라 [random intercepts] 모형과 [random slope] 모형으로 구분할 수 있다.
1. 애초에 혼합효과 모형을 사용해야 하는지를 어떻게 판단할까? 종속변수의 전체 분산 중 상위 수준에서 설명될 수 있는 분산의 크기를 보여주는 [ICC]를 계산하면 된다. [ICC]가 크면 상위 수준에서 종속변수의 변량이 cluster되어 있는 정도가 크다는 의미이다. 따라서 다층모형 또는 혼합모형을 사용해야 한다.
2. 무작위 효과 모형에서 상위 수준 개체 별로 관심 독립변수가 종속변수에 미치는 기울기가 다르다는 결과가 나왔다. 그렇다면 왜 그 기울기가 개체 별로 다른가? 이에 답하기 위한 방법으로 [cross-level interaction]을 모형에 넣는 것이 유용하다.
3. [성장곡선모형]은 수준 1(시간) 및 수준 2(개체) 독립변수 간 cross-level interaction이 있는 무작위 효과 모형이라고 볼 수 있다. 시간의 흐름에 따른 종속변수의 변화와, 그 변화의 정도가 개체 수준에 따라 다른지 여부에 있을 때 사용한다.
[자기상관] 패널자료는 그 특성상 자기상관 또는 계열상관 문제가 발생할 수 있다.
1. 자기상관 검정 방법에는 여러 가지가 있었다: [브르쉬-갓프리 검사, 더빈-왓슨 검사, 울드릿지 방식 xtserial]
  1. 자기상관의 차수가 궁금하다면 [브르쉬-갓프리나 더빈-왓슨 검사]에서 lags()옵션을 통해 확인할 수 있다.
2. 자기상관이 존재함을 확인했다. 그럼 어떤 모형들이 자기상관 문제를 적극적으로 고려하는가? : [1차차분모형, 지연된 종속변수, 자기회귀모형] (자기상관 문제를 고려해서 표준오차를 더 강건하게 추정하는 방식도 존재한다.)
3. 각각의 모형의 장단점을 생각해보자:
  
  FD의 장점은 자기상관이 대부분의 경우에 제거된다는 데 있다. 자기상관이 제거되는지 여부는 [xtserial 차분변수들] 을 통해 확인할 수 있었다. 자기상관이 제거되었다면 STATA에서는 변수명 앞에 D. 를 붙여주고 회귀분석을 하면 된다.
  
  이때 절편을 추정할지 말지는 연구자 각자의 논리에 따라 결정하면 된다. 만약 시점에 걸쳐 독립변수가 변하지 않더라도 종속변수가 변화하는 상황이 말이 된다면 절편까지 추정해주면 된다. 이 경우 절편은 모형의 우변에 포함한 변수들에 변화가 없을 때 종속변수의 변화라고 해석하면 되겠다. 반대로, 독립변수가 변화하지 않으면 종속변수 또한 변화하지 않는다는 가정 하에서는 [,nocons] 옵션을 통해 절편을 추정하지 않으면 된다.
  
  단점은 수준 변수가 아니라 차분 변수를 사용하는 것이기 때문에, 해석할 때 [독립변수가 (단기간에) 증가할 때 종속변수가 (단기간에) 변화한다]고 해석해주어야 한다. 또한 실질적으로 시간 갭이 일정한 경우에만 차분하는 게 의미가 있을 것이다.
  
  Lagged DV의 장점은 (물론 논쟁이 있기는 하지만), 만약에 지연된 종속변수의 회귀계수가 0이 아니라면, 이를 모형에 포함시켜야 [누락변수 편의]가 발생하지 않는다는 점이다. 실질적인 단점은 지연 종속변수를 모형에 포함하게 되면 [다른 독립변수들의 효과가 상쇄될지도 모른다]는 것이다. 이 장점과 단점은 사실상 동전의 양면이다. 추가로, 차분 변수와 마찬가지로 지연 변수 또한 시간 갭이 일정해야 실질적 의미를 갖는다는 점에서 주의해야 한다.
  
  AR(1)는 이전 시점의 오차가 다음 시점의 오차에 $\rho$ 만큼의 영향을 준다는 전제 하에, 적극적으로 오차들 간 자기상관을 모델링에 반영(예: cochrane-orcutt)하는 방식이다. 다만, 자기상관이 [1차]인 경우, 그리고 종속변수 (또는 자료가) [정상성]을 충족하는 경우에 사용 가능하다는 제약이 있다.
[단위근과 정상성] 정상성이 충족되기 위한 조건으로 세 가지가 있었다: [$y_t$의 기댓값과 분산이 시점 t와 무관하게 항상 일정하고, 자기공분산이 시점 t가 아닌 시차 s에 의존]. 단위근이란, 오늘의 영향력이 미래에 어느 정도의 영향력을 갖는가를 결정하는 모수라고 보면 된다. 단위근이 존재하면 비정상성을 띠게 된다.

단위근 또는 비정상성 존재에는 대표적으로 두 가지 원인이 있을 수 있다. 첫 번째는 추세 때문에 비정상인 경우이다. 이때에는 [시간 변수를 모형에 포함해서 추세를 통제해주어] 비정상성을 제거할 수 있다. 이 경우, [추세]만 통제하고 제거해주면 자료가 stationary stochastic process를 따르게 된다고 말할 수 있다. 두 번째는 추세 외의 모종의 이유로 비정상인 경우이다. 이 경우에는 시간 변수를 포함해준다고 해서 비정상성이 제거되지 않는다. 따라서 [차분 변수]를 사용하는 대안을 고려해야 한다.
[그래서 어떤 모형을 선택할 것인가?] 절대적으로 뛰어난 어떤 모형이 있는 것도 아니고, 정답 또한 없다. 우선 각 모형을 사용할 수 있는 일련의 제약 조건이나 장단점을 이해해야 할 것이다. 또한 분석의 대상이 되는 패널 데이터 구조(N, T의 상대적 크기, 단위근 유무 등), 스토리 상의 논리(개체 간 차이가 중요한지, 개체 내 변화가 중요한지 등), 주요 변수들의 분포나 변량(연속형인지, 개체 간 및 개체 내 변량은 얼마나 되는지 등)에 따라서 가장 “효과적”으로 주장하는 바를 보여줄 수 있는 모형을 선택하는 것이 중요하다. 메인 가설을 테스트하기 위해 여러 모형을 종합적으로 고려하는 것도 좋은 방법이다(강건성 검토). 마지막으로, 특정 모형을 선택하여 분석한 후에도 발생 가능한 잔차 간 상관관계나 이분산성 문제를 고려하기 위해서 post-estimation tests를 해보는 것이 좋다.
[이항 종속변수] 마지막으로, 종속변수가 이항 변수인 경우에는 잔차의 개념이 없기 때문에, 자기상관, 동시상관, 이분산성의 개념 또한 적용하기 어렵다. 하지만 여전히 관찰되지 않은 개체 간 이질성($u_i$) 개념은 존재하므로, 이를 어떻게 처리하는지에 따라 FE와 RE로 구분할 수 있다.

다만, 종속변수가 이항 변수인 경우, 0에서 1로 값이 바뀌거나 1에서 0으로 바뀌는 경우가 드물 수 있다. 이 경우 종속변수의 개체 내 변량 자체가 매우 적어져서 패널 로짓을 사용하는 것 자체가 비효율적일 수 있으므로 주의해야 한다.