본문 바로가기

R/쉽게 배우는 R 데이터분석

한국인의 삶을 파악하라! -03

반응형

비정규직이 많아지면서 안정된 직장에 취업하는 것도 어려워졌지만, 젊은 세대를 더욱 힘들게 하는 것은 세대 간 소득 겨차가 심해서 사회가 불평등하게 느껴진다는 점입니다. 나이에 따라 월급이 어떻게 다른지 데이터 분석을 통해 알아보겠습니다.

먼저 나이 변수를 검토하고 전처리하겠습니다. 월급 변수 전처리는 앞 실습에서 완료했으니 생략하고 변수 간 관계를 분석하겠습니다.

 

분석절차

1. 변수 검토 및 전처리

-나이,월급

 

2.변수 간 관계 분석

-나이에 따른 월급 평균표 만들기, 그래프 만들기

 

나이 변수 검토 및 전처리

1. 변수 검토하기

나이와 월급의 관계를 분석하려면 나이 변수가 있어야 합니다. 그런데 한국복지패널데이터에는 나이 변수는 없고 태어난 연도 변수만 있기 때문에 태어난 연도를 이용해서 나이 변수를 만들어야 합니다. 먼저 태어난 연도 변수를 검토한 후 나이 변수를 만들겠습니다.

 

> class(welfare$birth)
[1] "numeric"

> summary(welfare$birth)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1907    1946    1966    1968    1988    2014 
   
> qplot(welfare$birth)

 

2. 전처리

코드북을 보면 태어난 연도는 1900~2014 사이의 값을 지니고, 모름/무응답은 9999로 코딩되어 있는 것을 알 수 있습니다. 이 정보를 바탕으로 전처리 작업을 하겠습니다.

 

> # 이상치 확인
> summary(welfare$birth)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1907    1946    1966    1968    1988    2014 
   
> # 결측치 확인
> table(is.na(welfare$birth))

FALSE 
16664 

 

출력된 결과를 보면 이상치와 결측치가 없습니다. 따라서 파생변수를 만드는 단계로 넘어가면 됩니다. 만약 이상치가 발견된다면 아래와 같이 전처리한 후 다음 작업을 진행해야 합니다.

 

> # 이상치 결측 처리
> welfare$birth <- ifelse(welfare$birth == 9999, NA, welfare$birth)
> table(is.na(welfare$birth))

FALSE 
16664 

 

3. 파생변수 만들기 - 나이

태어난 연도 변수를 이용해 낭 ㅣ변수를 만들겠습니다. 2015년에 조사가 진행됐으니 2015에서 태어난 연도를 뺀 후 1을 더해 나이를 구하면 됩니다. 변수를 만들고 summary(), qplot()을 이용해 특징을 살펴보겠습니다.

> welfare$age <- 2015 - welfare$birth + 1
   
> summary(welfare$age)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2.00   28.00   50.00   48.43   70.00  109.00 

> qplot(welfare$age)

 

나이와 월급의 관계 분석하기

월급 변수 처리는 02에서 완료했습니다. 나이와 월급 변수의 전처리 작업이 모두 끝났으니 이제 나이에 따른 월급을 분석할 차례입니다.

 

1. 나이에 따른 월급 평균표 만들기

먼저 나이별 월급 평균표를 만들겠습니다.

 

> age_income <- welfare %>%
+   filter(!is.na(income)) %>%
+   group_by(age) %>%
+   summarise(mean_income = mean(income))

> head(age_income)

# A tibble: 6 x 2
    age mean_income
  <dbl>       <dbl>
1    20        121.
2    21        106.
3    22        130.
4    23        142.
5    24        134.
6    25        145.

 

2. 그래프 만들기

앞에서 만든 표를 이용해 그래프를 만들겠습니다. x축을 나이, y축을 월급으로 지정하고 나이에 따른 월급의 변화가 표현되도록 선 그래프를 만들겠습니다.

 

ggplot(data = age_income, aes(x = age, y = mean_income)) + geom_line()

 

 

 

반응형