<aside> 💡 실습 목표

연습문제를 풀면서 이제까지 배운 내용을 복습합니다. 데이터를 불러오고, 전처리하고, 데이터와 변수의 분포를 기술적으로 살펴보고, 가설을 검정하고, 분석 결과를 진단하고, 시각화하고, 표로 내보내는 일련의 과정을 반복 학습합니다.

실습 데이터: KGSS 2016_sub.dta

</aside>

연습문제 5-1. 국정운영평가 결정 요인


국정운영평가는 대통령에 대한 국민 여론을 엿볼 수 있는 중요한 변수입니다. 보통 뉴스에서 국정 지지율이 오르고 내렸다고 말할 때 이 지표를 근거로 삼습니다. 뉴스에서 접하는 수치는 집합 수준의 퍼센트(예: 긍정 대 부정 평가)로 나타나기 때문에, 누가 어떤 이유로 긍정 또는 부정 평가를 했는지 알 수는 없습니다. KGSS 2016년 데이터를 가지고 응답자 개인 수준에서 국정운영평가를 결정하는 요인들이 무엇이 있는지 분석해 봅시다.

<aside> 🧑‍💻 문제 1. 종속변수: 국정운영평가(curgov)

1-1) 먼저 기술통계량을 확인해 보세요. 어떤 전처리가 필요한가요?

1-2) 필요한 전처리를 하여 gov_eval이라는 새로운 변수로 저장해 주세요.

1-3) 전처리한 국정운영평가 변수의 히스토그램을 그려 보세요. 분포가 어떠한가요?

</aside>

먼저, 국정운영을 책임지는 대통령에 대한 감정이 국정운영평가로 이어질 수 있습니다. 2016년 당시 대통령은 박근혜 전 대통령이었습니다. 따라서 박근혜 호감도 변수(thrmmtr5)를 첫 번째 가설의 주요 독립변수로 설정하겠습니다.

가설 1. 박근혜 호감도가 높을수록 국정운영평가가 긍정적일 것이다.

다음으로, 심리적인 이유보다 경제적인 이유가 중요할 수도 있겠습니다. 가계의 경제 상황에 대한 만족도가 낮다면 대통령이 국정운영을 잘 못하고 있다고 평가할 수도 있습니다. 따라서 두 번째 가설의 주요 독립변수는 가계상태 만족도(satfin)입니다.

가설 2. 가계상태 만족도가 높을수록 국정운영평가가 긍정적일 것이다.

<aside> 🧑‍💻 문제 2. 독립변수: ****박근혜 호감도(thrmmtr5), 가계상태 만족도(satfin)

2-1) 박근혜 호감도 변수의 기술통계량을 확인해 보세요. 필요한 전처리를 통해 like_park라는 새로운 변수로 저장해 주세요.

2-2) 가계상태 만족도 변수의 기술통계량을 확인해 보세요. 필요한 전처리를 통해 sat_house라는 새로운 변수로 저장해 주세요.

2-3) 전처리한 독립변수들의 분포를 확인해 보세요.

</aside>

통제변수들 또한 전처리를 해줍니다.

<aside> 🧑‍💻 문제 3. 통제변수

3-1) 교육수준(educ) 변수의 구조를 살펴봅시다. “서당한학” 범주 값을 제거하는 전처리가 필요합니다. educ 변수에 필요한 전처리를 하여 edu라는 이름의 새로운 변수를 생성해 주세요.

3-2) 응답자 월평균 소득(rincom0) 변수의 구조를 살펴봅시다. dk 범주 값을 제거하는 전처리가 필요합니다. 필요한 전처리를 하여 inc라는 이름의 새로운 연속형 변수를 생성해 주세요.

3-3) 성별(sex) 변수를 더미변수로 만들어 줍니다. 이때 남성은 1, 여성은 0의 값을 갖는 male변수를 만들어 주세요.

3-4) 정당일체감(prtyid16) 변수의 구조를 살펴봅시다. dk 범주 값을 제거하는 전처리가 필요합니다. 필요한 전처리를 하여 pid라는 이름의 새로운 변수를 생성해 주세요.

3-5) 정치 이념(partylr) 변수의 구조를 살펴봅시다. dk 범주 값을 제거하는 전처리가 필요합니다. 필요한 전처리를 하여 ideo라는 이름의 새로운 변수를 생성해 주세요.

</aside>

이제 가설 검정에 필요한 변수들이 다 준비되었습니다.

<aside> 📌 정리

본격적인 회귀분석에 앞서, 주요 독립변수와 종속변수 간 관계를 기초적으로 살펴보겠습니다.

<aside> 👨‍💻 문제 4. 이변량 관계

4-1) 종속변수와 독립변수들 각각의 산점도를 그려 변수 간 관계를 살펴보세요.

4-2) 변수들 간 관계를 상관분석을 통해 기초적으로 살펴보세요.

</aside>

일단 두 변수 간 유의한 관계가 있어 보입니다. 회귀분석을 해봅시다.

<aside> 👨‍💻 문제 5. 회귀분석

5-1) 위의 가설들을 서로 다른 단순회귀분석을 써서 각각 검정하세요. 회귀계수의 통계적 유의성, 회귀계수의 크기, 모형의 적합도 등을 고려해 결과를 해석해주세요.

5-2) 이번에는 통제변수들을 모형에 포함해 봅시다. 각각의 독립변수에 대한 모형과(모형1~모형2), 모든 독립변수들을 포함한 통합 모형을 설정하고, 다중회귀분석을 하여 결과를 해석해 주세요. est store 명령어를 통해 각각의 분석 결과를 m1~m3로 저장해 둡시다.

</aside>

아래부터는 통합 모형에 관한 질문입니다.

<aside> 👨‍💻 문제 6. 회귀분석 진단

6-1) 독립변수와 오차의 독립성 가정을 확인해 보세요.

6-2) 오차의 정규성 가정을 시각화하여 확인해 봅시다.

6-3) 오차의 등분산성 가정을 시각화하여 확인해 봅시다.

6-4) 등분산성/이분산성에 대한 통계적 검정을 시행합니다. 등분산성 가정을 만족시키나요?

6-5) 이분산성을 고려한 분석을 하고, 등분산성 가정 하에서 진행한 분석과 비교하세요.

</aside>