<aside> 🙇🏻 이름: 김도원
소속: 서울대학교 정치외교학부 정치학 전공 박사과정 수료
전공 분야: 정치심리학/정치커뮤니케이션, 정치학 방법론
프로그래밍 언어: R, Stata, Python
코스다 TA 경력: 패널분석, 중급통계
</aside>
<aside> 📢 1/16 데이터 불러오기, 데이터 살펴보기, 변수 전처리, 기초 시각화 연습
1/17 다른 확장자 데이터 파일 Stata로 불러오기, 전처리, 기초통계, 단순선형회귀(가설 검정, 결과 해석, 결과 시각화, 결과 내보내기)
1/18 단순선형회귀 이어서: 복습, 문제점 진단 및 해결
1/19 다중선형회귀: 전처리, 가설 검정, 결과 해석 및 시각화
1/20 다중선형회귀 이어서: raw 데이터 불러오는 것부터 다중선형회귀 분석 결과 시각화까지 연습하기
</aside>
실습 자료는 수업 전에 미리 올려드립니다(코스다 방법론 홈페이지 수업 게시판, 노션 링크). 다만 실습 시간에 스스로 따라해보는 연습이 매우 중요하기 때문에, do파일은 매일 실습이 끝난 후에 수업 자료실과 노션에 올릴 예정입니다.
<aside> 💡 실습 목표
실습 데이터
STATA 내장 데이터, 2016 KGSS 일부 (KGSS 2016_sub.dta)
</aside>
<aside> 🧑🏻💻 // stata 내장 데이터 사용하기 webuse nlswork.dta, clear
</aside>
STATA 내장 데이터가 무엇이 있는지 알고 싶다면 클릭!
<aside> 🧑🏻💻 browse // 데이터 편집기 창 뜸 → 데이터 전체 탐색할 때 유용 summarize // 요약해라 describe // 묘사해라
list [변수명] [if] [in] [,option] // 특정 조건에 해당하는 변수의 값들을 나열해라
e.g. list age if idcode in 1**/**10 // age 변수의 값을 나열하되, idcode가 1부터 10까지인 경우만
</aside>
<aside>
🧑🏻💻 count // n수 계산해라
count [if] // 특정 조건에 해당하는 n수를 계산해라
e.g. count if age > 20 // age 변수 값이 20보다 큰 케이스들 총 몇 개인지 계산해라
count if age>=20 & age < 30 // 20대인 케이스들이 총 몇 개인지 계산해라
tabulate // 빈도표를 보여줘라
e.g. tab race
tabulate, nolabel // 빈도표를 보여주되, 라벨 없이 숫자 값으로 보여줘라
e.g. tab race, nol
# 만약 변수 두 개를 넣으면 어떻게 될까?
tab [변수1] [변수2] // cross-tabulation; 교차빈도표를 보여줘라
e.g. tab race south
** 참고: tab [변수1] [변수2], chi2 : chi-square test*
# 여러 변수들의 빈도표를 한 번에 보고 싶다면?
tab1 [변수1] [변수2] [변수3]
e.g. tab1 age south union
tabstat // 기술통계량을 보여줘라
e.g. tabstat ln_wage
tabstat ln_wage, by(race)
tabstat ln_wage, stat(mean sd min max)
tabstat ln_wage, stat(mean sd min max) by(union)
</aside>
TIP 원래 데이터와 변수 최대한 건드리지 말 것. 새로운 데이터 다른 이름으로 저장/새로운 변수를 만들어서 사용