OLS 회귀분석의 기본 가정, 이상치, 다중공선성

1. 실습 개요

2. 타당성 그리고 OLS 기본 가정들

외적 타당성은 연구 가설과 발견이 얼마나 일반화될 수 있는지와 관련된 사항으로 특수한 통계적 방법론 적용이나, 측정, 조작화만으로 확보할 수 있는 것이 아닙니다. (이론이 중요!)

내적 타당성에 영향을 주는 요인들로는 크게 누락변수 편의, 잘못된 함수 형태, 측정 오류, 표본 선택 편의, 인과관계의 쌍방향성 등이 있습니다.

관찰 자료 (+ 빈도주의적 접근) 를기반으로 분석할 때는 특히 분명하고 엄밀한 변수 설정과 모델 구성, 계획적인 샘플 추출,그리고 명확한 측정 등등이 중요합니다.
(모델과 그로부터 도출되는 증거에 관한 이야기!)

선행연구 검토를 통한 인과관계 파악, 실험 데이터 이용, 가중치 적용을 대안으로 고려할 수 있고 본격 가설 검정에 들어가기에 앞서 변수간 관계를 나타내는 도식도를 그리는 방법도 좋습니다.

내적 타당성 중 “잘못된 함수식”에서 기인하는 오류와 그 완화

가우스-마르코프 정리 for 최소제곱추정

  1. 종속변수와 설명 변수들(독립, 통제, 교차항, 제곱항, 로그변환 등)은 선형 관계

  2. 잔차 (모델로 설명되지 않은 부분) 평균은 0, 동일한 분산 값을 가지는 정규분포

  3. 잔차와 관찰된 각 독립변수는 독립 → 강한가정: 비편향성

참고할 만한 링크: https://stats.oarc.ucla.edu/stata/webbooks/reg/

 **선형관계 위반** 

<aside> 🧑🏻‍💻 reg satis_dem satis_poli satis_econ female age house_inc liberal

acprplot satis_poli, lowess
acprplot satis_econ, lowess acprplot liberal, lowess

</aside>

녹색과 올리브 색 두 선이 상당히 일치하지 않는 경우 의심을 해보아야 합니다.

선형 관계가 아닐 것으로 판단될 경우, 다항식으로 변형하는 등 다른 가능성을 살핍니다.

등분산성 위반

<aside> 🧑🏻‍💻 reg satis_dem satis_poli satis_econ female age house_inc liberal

predict my_Yhat //e.g., 정유미: satis_dem (9) satis_poli (8) predict my_Resid, resid satis_econ (4) female (1) age (1) house_inc (2) liberal (3) mean(satis_dem) mean(my_Yhat)

hist(my_Resid) ttest my_Resid=0

gen my_Resid_sq = my_Resid^2 scatter my_Resid_sq my_Yhat || (lowess my_Resid_sq my_Yhat), ytitle(잔차 제곱) xtitle(Y 추정치)

reg satis_dem satis_poli satis_econ female age house_inc liberal estat hettest estat imtest, white

reg satis_dem satis_poli satis_econ female age house_inc liberal, robust

</aside>

Breusch-Pagan Test, White test 모두 영가설은 “등분산성”입니다. 이를 기각하는 (p<0.05) 증거가 확인될 경우 이분산성을 고려한 분석을 시행합니다.

등분산성 가정은 많은 경우 위반됩니다. 거의 모든 경우 robust 옵션을 추가하면 좋습니다.

잔차간 독립 및 잔차-설명변수 독립

<aside> 🧑🏻‍💻 reg satis_dem satis_poli satis_econ female age house_inc liberal, robust linktest ovtest

</aside>

 linktest 에서 종속변수는 모델과 같은 종속변수, 독립변수는 Y_hat 과 (Y_hat)^2 입니다. 

 모델이 충분한 설명을 하고 있다면, Y_hat은 모델을 반영하고 있으므로 그 계수가 유의하게
 나타나야 하고 Y_hat 에 제곱을 한 것은 사실상 의미가 없어지므로 그 계수가 유의하지 
 않아야 합니다. 

 ovtest 에서 영가설은 생략된 변수가 없다는 것. 즉 이를 기각하면 생략된 변수가 있음을 
 고려해야 합니다. 그러나 거의 대부분 경우 생략된 변수가 존재합니다. 

 모델에 포함되지 않아(omitted) 잔차에 남아있지만, 모델 변수들과 상관성을 지니고 있는 
 요인들을 최대한 통제하여 모델의 적합도를 높일 필요가 있습니다. (쉽지 않음)

 즉, 온전한 통제를 위해서는 실험에 준하는 다른 방법론이 필요합니다. 

 잔차와 또 다른 잔차들 사이 독립이 아닌 경우는 대개 다층 자료에 해당합니다. 

잔차 정규분포 위반

<aside> 🧑🏻‍💻 reg satis_dem satis_poli satis_econ female age house_inc liberal, robust predict my_Resid, resid

kdensity my_Resid, normal swilk my_Resid

</aside>

 추정 단계에서 사용하는 함수들은 대부분 잔차의 분포가 어떠한지와 관련되어 있습니다. 
 OLS에서 전제하는 정규분포 가정이 위배된다면 여타 분포를 상정해볼 수 있습니다. 

연습문제 8-1


응답자가 현재 본인 경제 상황을 안정적으로 생각할수록 (q51), 5년 후 한국 경제 전망을 긍정적으로 평가 (q11) 할 것이라는 연습문제 7-2 의 가정을 다시 살피도록 하겠습니다.

  1. 5년 후 한국 경제에 대한 전망을 종속변수, 현재 자신의 경제 상황을 얼마나 안정적으로 생각하는지를 주요 독립변수, 그리고 성별과 연령, 작년 가구소득과 이념을 통제변수로 하는 회귀분석을 다시 시행하세요.

  2. 회귀모형에서 종속변수 예측치(ŷ) 와 잔차를 추출한 뒤 적절한 변수명으로 저장하세요. 또한 잔차제곱을 나타내는 변수도 하나 생성해주세요.

  3. 잔차의 분포상을 나타내는 Kernel Density Plot 을 그려 대략적인 모양을 확인하세요. 표준정규분포와 비교하거나 ttest 를 통해 잔차 평균이 0으로부터 얼마나 벗어나 있는지를 함께 확인하셔도 좋습니다.

  4. 도식적으로, 그리고 통계적인 방법으로 모델의 등분산성 가정을 검증하세요. 만약 이분산성이 확인된다면 어떠한 조치가 필요할지 생각하고 수행해 보세요.

  5. 잔차-잔차, 잔차-설명변수 독립 가정이 위배되는지 여부를 확인하고, 해결법을 떠올려 보세요.

  6. 선형성 가정은 무엇과 무엇의 선형관계를 의미하는지 생각해보시고, 본인 경제 상황 만족도 및 이념을 중심으로 선형성을 검증하는 방법을 사용해 보세요.