본문 바로가기

R/쉽게 배우는 R 데이터분석

한국인의 삶을 파악하라! - 01

반응형

'한국복지패널데이터' 분석 준비하기

 

한국복지패널데이터는 한국보건사회연구원에서 가구의 경제활동을 연구해 정책 지원에 반영할 목적으로 발간하는 조사 자료입니다. 전국에서 7000여 가구를 선정해 2006년부터 매년 추적 조사한 자료로, 경제활동, 생활실태, 복지욕구 등 천여 개 변수로 구성되어 있습니다. 다양한 분야의 연구자와 정책전문가들이 복지패널데이터를 활용해 논문과 연구보고서를 발표하고있습니다. 복지패널데이터는 엄밀한 절차로 수집되었고, 다양한 변수를 담고 있기 때문에 데이터 분석을 연습하는 데 훌륭한 재료입니다. 데이터는 다양한 삶의 모습이 담겨 있습니다. 한국복지패널데이터를 분석하면 대한민국 사람들이 어떻게 살아가고 있는지 알 수 있습니다.

 

1. 데이터 준비하기

깃허브(bit.ly/doit_rb)에서 Koweps_hpc10_2015_beta1.sav 파일을 다운로드해 프로젝트 폴더에 삽입합니다. 이 파일은 2016년에 발간된 복지패널데이터로, 6,914가구, 16,664명에 대한 정보를 담고있습니다.

 

2.패키지 설치 및 로드하기

실습에 사용할 복지패널데이터는 통계분석 소프트웨어인 SPSS 전용 파일로 되어있습니다. foreign 패키지를 사용하면 SPSS, SAS, STATA 등 다양한 통계분석 소프트웨어의 파일을 불러올 수 있습니다.

 

install.packages("foreign")

library(foreign)
library(dplyr)
library(ggplot2)
library(readxl)

3. 데이터 불러오기

foreign 패키지의 read.spss()를 이용해 복지패널데이터를 불러옵니다. 원본은 복구해야 할 상황에 대비해 그대로 두고 복사본을 만들어 분석에 활용하겠습니다.

 

# 데이터 불러오기
raw_welfare <- read.spss(file = "Koweps_hpc10_2015_beta1.sav",
                         to.data.frame = T)

# 복사본 만들기
welfare <- raw_welfare

 

4. 데이터 검토하기

데이터를 불러왔으니 데이터의 구조와 특징을 파악해 보겠습니다.

 

head(welfare)
tail(welfare)
View(welfare)
dim(welfare)
str(welfare)
summary(welfare)
...
(출력 결과 생략)

 

앞 장에서 예제로 사용했던 데이터들은 변수의 수가 적고 변수명이 이해할 수 있는 단어로 되어 있기 때문에 데이터 구조를 쉽게 파악할 수 있었습니다. 반면 복지패널데이터와 같은 대규모 데이터는 변수의 수가 많고 변수명이 코드로 되어 있는 경우가 많기 때문에 전체 구조를 한눈에 파악하기 어렵습니다. 이런 경우 데이터 전체를 한 번에 파악하기보다 변수명을 쉬운 단어로 바꾼 후 분석에 사용할 변수들을 각각 파악해야 합니다.

 

5. 변수명 바꾸기

분석에 사용할 몇 개의 변수를 이해하기 쉬운 변수명으로 바꾸겠습니다. 규모가 큰 조사자료는 보통 데이터의 특성을 설명해 놓은 코드북(Codebook)과 함께 제공됩니다. 코드북에는 코드로 된 각각의 변수명이 무엇을 의마하는지 나타나 있습니다. 코드북을 보면 데이터의 특성에 대해 감을 잡을 수 있고, 분석에 어떤 변수를 활용할 것인지, 분석 방향에 대한 아이디어를 얻을 수 있습니다.

 

한국복지패널 사이트에서 제공하는 코드북에서 실습에 사용할 변수의 일부를 선정해 깃허브에 공유해 두었습니다(Koweps_Codebook.xlsx). 다운로드해서 변수의 특성을 파악할 때 참고하세요.

 

먼저, 붆석에 사용할 7개 변수의 이름을 쉬운 단어로 바꾸겠습니다.

 

 welfare <- rename(welfare,                  
                   sex = h10_g3,              # 성별
                   birth = h10_g4,            # 태어난 연도
                   marriage = h10_g10,        # 혼인 상태
                   religion = h10_g11,        # 종교
                   income = p1002_8aq1,       # 월급
                   code_job = h10_eco9,       # 직업 코드
                   code_region = h10_reg7)    # 지역 코드

 

데이터 분석 절차

분석을 하는 데 필요한 준비가 끝났습니다. 이제 앞에서 선정한 변수들을 이용해 분석을 하겠습니다. 9장은 여러 가지 분석 주제를 다루고 있습니다. 각 분석은 두 단계 절차로 진행합니다.

 

1단계. 변수 검토 및 전처리

가장 먼저 분석에 사용할 변수들을 전처리합니다. 변수의 특성을 파악하고 이상치를 정제한 다음 파생변수를 만듭니다. 전처리는 분석에 활용할 변수 각각에 대해 실시합니다. 예를 들어 '성별에 따른 월급 차이'를 분석한다면 성별, 월급 두 변수를 각각 전처리합니다.

 

2단계. 변수 간 관계 분석

전처리가 완료되면 본격적으로 변수 간 관계를 파악하는 분석을 합니다. 데이터를 요약한 표를 만든 후 분석 결과를 쉽게 이해할 수 있는 그래프를 만듭니다.

반응형