이번에는 1월 중국집 이용 통화량 분석을 해보겠습니다. 지난 19.01 치킨 판매업종 이용 통화량 분석을 시도 해보았으며, 매우 흡사하게 진행을 할 예정입니다.
구체적인 인사이트는
-> 치킨집, 중국집, 피자집 데이터를 모두 합쳤을 때
-> 18년 2월~ 19년 1월까지의 데이터를 모두 합쳤을 때
입니다.
Data
데이터는 아래에서 다운받도록 하겠습니다.
Data 준비
먼저 분석에 알맞게 Data를 준비 하겠습니다. Data 준비는 지난 블로그에서 실행했던것과 유사하며, 추가로 컬럼명을 영어로 변경시켰습니다.
Call_cfood_01 <- read.csv("CALL_CFOOD_01MONTH.csv")
# 컬럼 명 영어로 변경
colnames(Call_cfood_01) <- c("date", "wday", "gender", "age", "city", "county", "town", "type", "call")
# 날짜 데이터 형 변환
Call_cfood_01$date <- as.character(Call_cfood_01$date)
Call_cfood_01$date <- as.POSIXct(Call_cfood_01$date, format = "%Y%m%d")
# 요일 데이터 순서 조정
Call_cfood_01$wday <- factor(Call_cfood_01$wday,
levels = c("월", "화", "수","목","금","토","일"))
NA값 확인
NA값 확인하기
> # Na값 확인
> sum(is.na(Call_cfood_01))
[1] 0
지난번처럼 연령, 요일 별 Data를 그룹화 해보겠습니다.
연령, 요일별 Data를 그룹화 해보겠습니다. 치킨의 경우에 금,토,일에 통화 건수가 높게 나타났는데 이번자료에서는 어떻게 나오는지 확인 해보도록 하겠습니다.
library(dplyr)
# 연령, 요일 별 Data 그룹화
data_by_years_days <- Call_cfood_01 %>%
group_by(age,wday) %>%
summarize(call = sum(call)) %>% as.data.frame()
이후 통화 건수를 순서대로 정렬해보겠습니다.
> data_by_years_days %>% arrange(call)
age wday call
1 10대 일 1846
2 10대 월 2022
3 10대 토 2105
4 10대 금 2211
5 10대 화 2264
6 10대 목 2610
7 10대 수 2625
......
37 40대 금 14731
38 40대 화 16669
39 40대 일 16929
40 40대 수 16941
41 40대 토 17557
42 40대 목 17831
1.연령대는 10대보다 40대가 많음을 확인할 수 있습니다.
2.통화량이 가장 많은 요일이 금,토가 아님을 확인할 수 있습니다.
3.단지 금,토에 치킨주문건이 많은것인지 의구심을 가져보겠습니다.
4.통화량도 치킨의 최대보다 현저히 못미침을 알 수 있습니다.(치킨주문건 최대 약 22,000건)
하지만 아직 분석으로써 부족함이 보입니다.
기존에 1월 치킨 판매량에서 분석 했던방법으로 했으나 부족한 부분이 있습니다.
시작부터 방향성을 잘 못 잡았을 경우.
그렇다면 어느 지역에서 더 많이 통화가 더 많이 이루어졌는지 알아보는게 좋을지를 고려해야겠습니다.
평일이 주말보다 더 많은 이유를 생각해보면, 직장인들의 식사라고 생각하면 될 지 고려해야할 것 같습니다.
아직은 19년 1월의 치킨,중국집밖에 하지 않았습니다.
그렇기에 치킨,중국집,피자 데이터를 모두 합치고 재확인을 해봐야 하겠습니다.
피자 데이터는 다음 글에서 살펴보도록 하겠습니다.
'서울시 먹거리 분석' 카테고리의 다른 글
시각화 해석 (0) | 2020.02.18 |
---|---|
19.01 요식업계 통화량 시각화 (0) | 2020.02.18 |
19.01 피자집 이용 통화량 분석 (0) | 2020.02.18 |
19.01 치킨집 이용 통화량 분석 (0) | 2020.02.16 |
기획하기 (0) | 2020.02.15 |