본문 바로가기

분류 전체보기

(116)
한국인의 삶을 파악하라! -05 02에서는 데이터 전체를 이용해서 성별 월급 차이를 분석했습니다. 그런데 성별 월급 차이는 연령대에 따라 다른 양상을 보일 수 있습니다. 이번에는 성별 월급 차이가 연령대에 따라 다른지 분석해 보겠습니다. 연령대, 성별, 월급 변수 모두 앞에서 전처리 작업을 완료했으니 바로 변수 간 관계를 분석하겠습니다. 분석절차 1. 변수 검토 및 전처리 -연령대, 성별, 월급 2. 변수 간 관계분석 -연령대 및 성별 월급 평균표 만들기, 그래프 만들기 연령대 및 성별 월급 차이 분석하기 1. 연령대 및 성별 월급 평균표 만들기 각 연령대에서 성별에 따른 월급 차이가 있는지 알아보기 위해 연령대 및 성별에 따른 월급 평균표를 만들겠습니다. sex_income % filter(!is.na(income)) %>% grou..
한국인의 삶을 파악하라! -04 연령대에 따른 월급 차이 - "어떤 연령대의 월급이 가장 많을까?" 앞에서는 각 나이별 평균 월급을 분석했습니다. 이번에는 나이를 연령대로 분류해서 비교해 보겠습니다. 분석절차 1. 변수 검토 및 전처리 -연령대, 월급 2. 변수 간 관계 분석 -연령대별 월급 평균표 만들기, 그래프 만들기 연령대 변수 검토 및 전처리하기 파생변수 만들기 - 연령대 앞에서 만든 나이 변수를 이용해 연령대 변수를 만들겠습니다. 표의 기준에 따라 연령대 변수를 만든 후 각 범주에 몇 명이 있는지 살펴보겠습니다. welfare % mutate(ageg = ifelse(age % summarise(mean_income = mean(income)) a..
한국인의 삶을 파악하라! -03 비정규직이 많아지면서 안정된 직장에 취업하는 것도 어려워졌지만, 젊은 세대를 더욱 힘들게 하는 것은 세대 간 소득 겨차가 심해서 사회가 불평등하게 느껴진다는 점입니다. 나이에 따라 월급이 어떻게 다른지 데이터 분석을 통해 알아보겠습니다. 먼저 나이 변수를 검토하고 전처리하겠습니다. 월급 변수 전처리는 앞 실습에서 완료했으니 생략하고 변수 간 관계를 분석하겠습니다. 분석절차 1. 변수 검토 및 전처리 -나이,월급 2.변수 간 관계 분석 -나이에 따른 월급 평균표 만들기, 그래프 만들기 나이 변수 검토 및 전처리 1. 변수 검토하기 나이와 월급의 관계를 분석하려면 나이 변수가 있어야 합니다. 그런데 한국복지패널데이터에는 나이 변수는 없고 태어난 연도 변수만 있기 때문에 태어난 연도를 이용해서 나이 변수를 만..
대한민국 시도별 인구, 결핵 환자 수 단계 구분도 만들기 대한민국의 인구통계와 지도 데이터를 이용해 단계 구분도를 만들어 보겠습니다. kormaps2014 패키지를 이용하면 대한민국의 지역 통계 데이터와 지도 데이터를 사용할 수 있습니다. 1. 패키지 준비하기 먼저 kormaps2014 패키지를 이용하는데 필요한 stringi 패키지를 설치하겠습니다. 그런 다음, devtools 패키지를 설치한 후 install_github()를 이용해 패키지 개발자가 깃허브에 공유한 kormaps2014 패키지를 설치하고 로드하겠습니다. install.packages("stringi") install.packages("devtools") devtools::install_github("cardiomoon/kormaps2014") library(kormaps2014) 2. 대한..
한국인의 삶을 파악하라! - 02 "성별에 따라 월급이 다를까??" 과거에 비해 여성들이 활발하게 사회 진출을 한다고는 하지만 직장에서 받는 대우에는 여전히 차별이 존재합니다. 데이터 분석을 통해 성별에 따라 월급 차이가 있는지 알아보겠습니다. 먼저 성별과 월급 두 변수를 검토하고 전처리한 뒤 변수 간의 관계를 분석하겠습니다. 분석 절차를 요약하면 아래와 같습니다. 1단계 : 변수 검토 빛 전처리 -성별 -월급 2단계 : 변수 간 관계 분석 -성별 월급 평균표 만들기 -그래프 만들기 1. 변수 검토하기 class()로 sex 볂수의 타입을 파악하고, table()로 각 범주에 몇 명이 있는지 알아보겠습니다. 출력 결과를 보면 sex는 numeric 타입이고 1과 2로 구성됩니다. 1은 7578명, 2는 9086명이 존재합니다. > cla..
한국인의 삶을 파악하라! - 01 '한국복지패널데이터' 분석 준비하기 한국복지패널데이터는 한국보건사회연구원에서 가구의 경제활동을 연구해 정책 지원에 반영할 목적으로 발간하는 조사 자료입니다. 전국에서 7000여 가구를 선정해 2006년부터 매년 추적 조사한 자료로, 경제활동, 생활실태, 복지욕구 등 천여 개 변수로 구성되어 있습니다. 다양한 분야의 연구자와 정책전문가들이 복지패널데이터를 활용해 논문과 연구보고서를 발표하고있습니다. 복지패널데이터는 엄밀한 절차로 수집되었고, 다양한 변수를 담고 있기 때문에 데이터 분석을 연습하는 데 훌륭한 재료입니다. 데이터는 다양한 삶의 모습이 담겨 있습니다. 한국복지패널데이터를 분석하면 대한민국 사람들이 어떻게 살아가고 있는지 알 수 있습니다. 1. 데이터 준비하기 깃허브(bit.ly/doit_rb)에..
2018년 요식업계 통화량 시각화 지난 글에서는 2018년 전체의 csv 파일을 하나의 data frame으로 만드는데 초점을 두었습니다. 이번에는 2018년 전체의 데이터를 가지고 시각화하여 이를 파악해보도록 하겠습니다. 2018년 Data 시각화 시각화하기에 앞서 어떠한 방향으로 시각화를 할 지 생각해봐야겠습니다. 1월 Data에 비해 1년 전체의 Data는 얼 별로 파악이 가능하다는 점입니다. 일 단위로 파악을 하는것이 아닌, 조금 더 기간을 두고 파악이 가능합니다. > head(year_18_food_data_frame) 기준일 요일 성별 연령대 시도 시군구 읍면동 업종 통화건수 1 20180101 월 남 10대 서울특별시 강남구 도곡동 중국집 5 2 20180101 월 남 10대 서울특별시 강남구 삼성동 중국집 5 3 20180..
R studio에서 한글 read.csv 오류 R studio에서 한글이 포함된 csv 파일을 read 하다보면 아래와 같은 에러가 발생합니다. >xxxx