<aside> 💫 1) 이름: 이헌
소속: 델라웨어 대학교 (University of Delaware) 정치학 전공
전공: 정치심리 (여론, 정치행태) 및 정치학 방법론
</aside>
<aside> 💫 일정표 01/25 - 회귀분석과 가설검정 (모형)* / 상호작용 효과 intro 01/26 - 상호작용 효과 main / 이차항 / 로그변환 01/27 - 회귀분석 가정들 / 이상치 / 다중공선성 01/30 - 로짓 분석 전반부* 01/31 - 로짓 분석 후반부 및 여타 범주형 자료 분석
자료 한국행정연구원 사회조사센터 “2020년 사회통합실태조사” KSIS2020
실습목표 1) 전반부에서 다룬 핵심 내용을 복습하며 변수들을 다루는 법에 보다 익숙해집니다. 2) 메인 강의에서 중요하게 다루어진 이론적 사항을 STATA 와 함께 재차 논의합니다. ⭐ 3) 가상의 가설들을 마련하고 그를 검증, 시각화하면서 응용력을 다져갑니다. 4) 실제 논문 작성에서 많이 사용하는 부분을 실습을 통해 집중적으로 연습합니다.
</aside>
KSIS 2020 데이터를 열람하여 다음을 살펴보도록 하겠습니다.
tabulate q13 // 성장과 분배에 대한 태도 (0:성장중요 10:분배중요)
clonevar distribution=q13
tab q16_1 // 어려운 처지 도와주자 (1:전혀동의 X 4:매우 동의)
tab q16_1, nol
clonevar help_hard=q16_1
tab q25 // 주관적 정치 이념 (1:매우보수 5:매우진보)
tab q25, nol
clonevar liberal= q25
“어려운 처지의 사람을 도와야 한다는 생각에 동의할수록 성장보단 분배를 중요하게 생각할 것.”
reg distribution help_hard
추정된 회귀계수(coefficient) $\hat{\beta_1}=$ .126 의미는?
= 최소제곱(OLS) 방법으로 계산된 값으로 잔차를 최소로 줄이는 추정치에 해당합니다.
X가 한 단위 증가할 때 Y가 몇 단위 변화하는지!
추정된 계수의 표준 오차(std. err): .091 의미는?
= 추정치가 퍼져있는 정도(편차)를 나타냅니다.
회귀분석에서 가설 검정의 논리는 다음과 같습니다.
= 주어진 변수가 아무런 설명력이 없다는, 즉 $\beta_1=0$ 이라는 귀무가설 (영가설)을 “기각할 만한 증거”를 우리가 가진 샘플 및 샘플로부터 계산한 추정치 $\hat{\beta_1}$ 이 제공하는가?
= 아무런 효과가 없다고 가정된 (영가설이 참인) 세상에서 우리가 도출한 회귀계수 추정치가 너무나도 드문 5% 도 채 안 되는 일이라면….? 그 가설적인 세상을 기각할 만한 충분한 증거!
정리하자면, 영가설에서 가정된 $\beta_1$ 과 샘플로부터 추정해 낸 $\hat{\beta_1}$ 을 비교하여 얼마나 드문지를 확인하는 과정으로 이해할 수 있습니다.
확률을 계산하기 위해서는 좌측 같은 “분포”가 필요합니다.
중심성이야 가설이 일러주고, 그에 대한 추정치는 샘플로부터 계산할 수 있지만 애석하게도 “진짜 표준오차”는 계산하지도, 전제하지도 못합니다. 그래서 우리는 앞서 “추정”한 계수의 표준 오차를 대신 사용합니다.
중심극한정리에 따르면 샘플에서 얻은 추정치는 정규분포 위에 올려지게 됩니다. (샘플을 여러번 뽑으면 그때마다 추정치는 달라지겠지만, 어떠한 중심을 기준으로 그 주변에는 많이 모이니까요)
학자들은 위에서 분모를 추정한 녀석으로 대체할 경우, 그 값이 t 분포를 따름을 발견했습니다.
진짜 $\beta_1$ 의 표준오차는 모르지만 $\hat{\beta_{1}}$의 표준오차는 구할 수 있고 우리는 그를 이용하는 것입니다.
STATA 결과창을 보면 … Coef. 는 .126 이고 Std. err. 는 .029 입니다. 전자를 후자로 나눠볼까요?
그 값은 t 값, 즉 4.31 과 같습니다. t 가 0에서 충분히 멀면 영가설을 기각할 만한 증거가 됩니다.
p-value 는 $\beta_{1}$ 를 0으로 두는 가상의 t-분포 상에서 우리가 계산해 낸 $\hat{\beta_1}$ 이 얼마나 드문 일인지 확률로 나타낸 값입니다.
[95% conf. interval] 은 $\hat{\beta_1}$ 를 토대로 $\beta_{1}$ 이 위치할 것으로 생각되는 구간을 나타냅니다.
통상적으로 p-value 가 .05 이하거나 신뢰구간이 0을 포함하지 않으면 통계적으로 유의하다 합니다. (95% 신뢰수준에서 통계적으로 유의하다.)
우측 변에 어떠한 독립(설명) 변수도 포함하지 않는다면, 그저 종속(결과) 변수의 평균에 대한 추정과 그 추정치의 표준 오차만 가지고 이야기를 풀어갈 수밖에 없습니다.
그리고 종속변수의 분산(변이) 에는 여전히 설명되지 않은 채 남아있는 부분들이 많습니다.
이처럼 독립변수에 아무것도 포함하지 않은 모델을 임의로 Model 1 이라 하겠습니다.
Model 1: $Y_i=\beta_0 + U_i$
한편 회귀분석에서는 우변에 독립변수를 보태며, 종속변수의 분산을 설명하기 시작합니다.
Model 1 오차항에서 어느 정도 분량을 끄집어 내어 설명하는 것입니다.
이처럼 독립변수가 추가된 모델을 아래와 같이 Model 2 라고 하겠습니다.
Model 2: $Y_i=\beta_0 + \beta_1*X_{1i} + U_i$
Model 2 와 Model 1 의 차이는 $\beta_1$ 의 유무입니다. 즉, 모델 1에서는 $\beta_1$ 을 추정하지 않고 0으로 고정해버렸다고 볼 수 있는데요, 우리는 이를 제약을 걸었다 (restrict) 라고 합니다.
Model 1 은 restricted model 이 되고 (회귀계수를 0으로 고정해버렸으니…)
Model 2 는 상대적으로 unrestricted model 이 됩니다.
한편, 우리의 직관에 따르면 Model 2 가 Model 1 에 비해 (설명력에 있어) 개선되었음을 파악할 수 있는데요, 이러한 개선 정도를 통계적으로 검증할 때 우리는 F-분포를 사용합니다.
이때 “개선이 되었다” 는 의미는 Y의 분산 중 설명되는 부분이 많아짐 (설명되지 않는 부분이 적어짐)을 의미합니다. cf. 분산은 Y에 대한 개별 관측값들이 얼마나 퍼져있는지를 의미하지요.
SS (Sum of Squared) / df (Degrees of Freedom) / MS (Mean of Squared)
SST (각 개별 관측값이 평균으로부터 떨어져있는 거리들의 합) = SSExplained + SSResidual
위에서 Total 는 Y의 총 퍼짐 정도 (Y 분산과 관련) 를 의미하고, Model 은 그 총 퍼짐들 (변이) 중 모델이 끄집어 낸 부분들, Residual 은 퍼짐들 중 남겨진 부분을 의미합니다.
즉, Model 1 (아무 독립 변수도 안 붙은, $\beta_1$ 이 0으로 고정 또는 restricted 된, baseline 모델) 은 Model 2 (설명 변수 하나가 붙은, $\beta_1$ 을 고정하지 않고 샘플을 통해서 추정해야 하는) 에 비하여 설명되지 않은 거스러미를 줄이지 못한, 개선되지 않은 모델이라고 볼 수 있습니다.
e.g. $(20129.1320 - 20084.3655) / 1 \\over 20084.3665 / 8334$ = 18.575839… ~ F(1, 8334) = $MSE \\over MSR$
계산된 F 값은 자유도를 (1, 8334) 를 가지는 F 분포 위에 올려지게 됩니다.
우리가 여기서 기각하고 싶은 영가설은 “model 2 (unrestricted model) 가 model 1 (restricted model) 보다 설명력에 있어 나은 구석이 없다”입니다.
그렇지만 우리가 계산한 F 값은 0 이라고 보기엔 너무나도 드문 일인 것으로 보입니다.