1. 전반부 TA 소개

<aside> 🙇🏻 이름: 김도원

소속: 서울대학교 정치외교학부 정치학 전공 박사과정 수료

전공 분야: 정치심리학/정치커뮤니케이션, 정치학 방법론

프로그래밍 언어: R, Stata, Python

코스다 TA 경력: 패널분석, 중급통계

</aside>

2. 개요

2.1. 전반부 실습 계획

<aside> 📢 1/16 데이터 불러오기, 데이터 살펴보기, 변수 전처리, 기초 시각화 연습

1/17 다른 확장자 데이터 파일 Stata로 불러오기, 전처리, 기초통계, 단순선형회귀(가설 검정, 결과 해석, 결과 시각화, 결과 내보내기)

1/18 단순선형회귀 이어서: 복습, 문제점 진단 및 해결

1/19 다중선형회귀: 전처리, 가설 검정, 결과 해석 및 시각화

1/20 다중선형회귀 이어서: raw 데이터 불러오는 것부터 다중선형회귀 분석 결과 시각화까지 연습하기

</aside>

2.2. 참고 사항

실습 자료는 수업 전에 미리 올려드립니다(코스다 방법론 홈페이지 수업 게시판, 노션 링크). 다만 실습 시간에 스스로 따라해보는 연습이 매우 중요하기 때문에, do파일은 매일 실습이 끝난 후에 수업 자료실과 노션에 올릴 예정입니다.


<aside> 💡 실습 목표

  1. Raw data를 STATA로 불러오고, 분석에 용이한 형태로 데이터를 가공하는 방법을 익힙니다.
  2. 자료의 생김새와 변수들의 분포 및 관계를 살펴보는 법을 연습합니다.
  3. 가설 검정에 필요한 변수들을 전처리하는 연습을 반복합니다.

실습 데이터

STATA 내장 데이터, 2016 KGSS 일부 (KGSS 2016_sub.dta)

</aside>

3. 전처리

3.1. 연습용 STATA 내장 데이터 불러오기

<aside> 🧑🏻‍💻 // stata 내장 데이터 사용하기 webuse nlswork.dta, clear

</aside>

Datasets | Stata Press

STATA 내장 데이터가 무엇이 있는지 알고 싶다면 클릭!

3.2. 데이터, 변수 탐색하기

<aside> 🧑🏻‍💻 browse // 데이터 편집기 창 뜸 → 데이터 전체 탐색할 때 유용 summarize // 요약해라 describe // 묘사해라

list [변수명] [if] [in] [,option] // 특정 조건에 해당하는 변수의 값들을 나열해라 e.g. list age if idcode in 1**/**10 // age 변수의 값을 나열하되, idcode가 1부터 10까지인 경우만

</aside>

<aside> 🧑🏻‍💻 count // n수 계산해라 count [if] // 특정 조건에 해당하는 n수를 계산해라 e.g. count if age > 20 // age 변수 값이 20보다 큰 케이스들 총 몇 개인지 계산해라 count if age>=20 & age < 30 // 20대인 케이스들이 총 몇 개인지 계산해라

tabulate // 빈도표를 보여줘라 e.g. tab race

tabulate, nolabel // 빈도표를 보여주되, 라벨 없이 숫자 값으로 보여줘라 e.g. tab race, nol

# 만약 변수 두 개를 넣으면 어떻게 될까? tab [변수1] [변수2] // cross-tabulation; 교차빈도표를 보여줘라 e.g. tab race south ** 참고: tab [변수1] [변수2], chi2 : chi-square test*

# 여러 변수들의 빈도표를 한 번에 보고 싶다면? tab1 [변수1] [변수2] [변수3] e.g. tab1 age south union

tabstat // 기술통계량을 보여줘라

e.g. tabstat ln_wage

tabstat ln_wage, by(race)

tabstat ln_wage, stat(mean sd min max)

tabstat ln_wage, stat(mean sd min max) by(union)

</aside>

3.3. 변수 전처리

TIP 원래 데이터와 변수 최대한 건드리지 말 것. 새로운 데이터 다른 이름으로 저장/새로운 변수를 만들어서 사용