본문 바로가기

서울시 먹거리 분석

원인 파악

반응형

이번 글에서는 시각화 시킨 자료를 해석한 토대로 왜 이러한 현상이 생겼는지 파알을 해보고, 이에 대한 가설을 세워보려고 한다.

 

 

요일별 그래프 원인 파악

 

1월 1일 화요일부터 1월 31일 목요일까지의 트렌드를 보면 주 단위로 주기가 보인다.

주말에 보통 증가한다는 것을 대략적으로 볼 수 있다.

그런데 노란색 원이 이상하다는 것을 알 수 있다.

왜 주말마다 증가하는 현상이 아닐까..?

 

 

도메인 지식을 활용해보자

사실 19년 1월에는 아시안컵 축구대회가 열렸으며, 저때는 아마 대한민국과 다른나라가 축구를 했을 것으로 예상된다.

축구 일정을 확인해보겠습니다.

 

  • 조별리그
  • 1월 7일 (월) 22:30 대한민국 필리핀
  • 1월 16일 (수) 22:30 대한민국 중국
  • 1월 22일 (화) 22:00 대한민국 바레인
  • 1월 25일 (금) 22:00 대한민국 카타르

 

위에서 볼 수 있듯이, 7, 16, 22, 25일에 대한민국 대표팀의 축구 경기가 열렸었습니다. 이제 지난글에서 사용한 코드를 이용하여 데이터를 파악해보겠습니다.

 

> group_by_data[group_by_data$type == "chicken",]
         date wday type  call
1  2019-01-01   화 치킨 13635
4  2019-01-02   수 치킨  9273
7  2019-01-03   목 치킨 10358
10 2019-01-04   금 치킨 13502
13 2019-01-05   토 치킨 16022
16 2019-01-06   일 치킨 13923
19 2019-01-07   월 치킨 10481
22 2019-01-08   화 치킨 10648
25 2019-01-09   수 치킨 10861
28 2019-01-10   목 치킨 11359
31 2019-01-11   금 치킨 15200
34 2019-01-12   토 치킨 16388
37 2019-01-13   일 치킨 15001
40 2019-01-14   월 치킨  9667
43 2019-01-15   화 치킨 11012
46 2019-01-16   수 치킨 14101
49 2019-01-17   목 치킨 11111
52 2019-01-18   금 치킨 14725
55 2019-01-19   토 치킨 15799
58 2019-01-20   일 치킨 14873
61 2019-01-21   월 치킨  9521
64 2019-01-22   화 치킨 14037
67 2019-01-23   수 치킨 10484
70 2019-01-24   목 치킨 11354
73 2019-01-25   금 치킨 19690
76 2019-01-26   토 치킨 16608
79 2019-01-27   일 치킨 14663
82 2019-01-28   월 치킨  9139
85 2019-01-29   화 치킨  9820
88 2019-01-30   수 치킨 10492
91 2019-01-31   목 치킨 11586

 

그리고 각 요일별 평균을 보면 아래와 같이 나오는 것을 확인할 수 있습니다. 이떄 축구 대회가 있던 날은 제외하고 평균을 냈습니다.

 

 

> group_by_data %>% 
+   group_by(wday) %>% 
+   filter(type == "chicken") %>% 
+   filter(date != "2019-01-07") %>%
+   filter(date != "2019-01-16") %>%
+   filter(date != "2019-01-22") %>%
+   filter(date != "2019-01-25") %>%
+   summarize(call = mean(call)) %>% 
+   as.data.frame()
  wday      call
1   월  9442.333
2   화 11278.750
3   수 10277.500
4   목 11153.600
5   금 14475.667
6   토 16204.250
7   일 14615.000

 

이를 지난 축구대회가 열렸던 월, 화, 수, 금요일과 비교를 해보겠습니다.

  • 월요일 평균 9442.333 -> 2019-01-07 월요일 10461
  • 화요일 평균 11278.750 -> 2019-01-22 화요일 14037
  • 수요일 평균 10277.500 -> 2019-01-16 수요일 14101
  • 금요일 평균 14475.667 -> 2019-01-25 금요일 19690

위를 보면 알 수 있듯이, 평소와는 다르게 늘어난 것을 확인할 수 있습니다.

그렇다면 축구 대회와 같은 특정 이벤트가 있으면 이러한 경우를 띄게 되는것은 아닐까라는 의문점과, 얼마만큼의 통화량이 증가할 지 생각해볼 수 있겠다. 약 30% 정도가 증가함을 확인할 수 있습니다.

 

통화량에 영향을 주는 또 다른 이벤트가 있을까..?

처음에는 단순히 축구만을 확인했습니다. 데이터를 들여다보니 또 다른 특이점이 있습니다.

토, 일요일을 제외한 휴일. 1월 1일 화요일을 보면 역시 평소와 다르게 데이터량이 늘어나있는것을 확인할 수 있습니다.

2018년 12월 31일 데이터를 확인해본다면, 치킨의 데이터가 증가되어있을 것이라고 예측해볼 수 있습니다.

이후 글에서 다시한번 확인해봐야겠습니다.

치킨은 휴일 전날에 통화량이 증가하는 반면, 피자는 휴일 당일에 통화량이 증가하는 경향을 확인할 수 있습니다.

 

> group_by_data %>% 
+   group_by(wday) %>% 
+   filter(type == "pizza") %>% 
+   filter(date != "2019-01-01") %>%
+   # filter(date != "2019-01-16") %>%
+   # filter(date != "2019-01-22") %>%
+   # filter(date != "2019-01-25") %>%
+   summarize(call = mean(call)) %>% 
+   as.data.frame()
  wday    call
1   월 4015.50
2   화 4338.25
3   수 4396.20
4   목 4666.60
5   금 5441.00
6   토 6114.25
7   일 6381.25

> group_by_data %>% 
+   filter(type == "pizza") %>% 
+   filter(date == "2019-01-01")
        date wday type call
1 2019-01-01   화 피자 6400

 

도메인지식이 없을때는 이 인사이트를 파악할 방법이 있을까..?

축구, 휴일이라는 어느정도 도메인지식이 있으니 이에 대해서 원인 파악이 가능했습니다.

도메인지식이 매우 강조되지만, 앞으로 마주치게 될 대부분의 데이터는 도메인 지식이 거의 zero에 가까운 상태에서 Data를 마주치게 될 것입니다. 따라서, 도메인 지식이 없다고 가정을 해보고 이 원인을 파악해보려는 노력을 해보았습니다.

이번에 시도한 방법은 검색어 트렌드를 파악해보는 것입니다.

 

Google Trend

먼저 사용한 것은 Google Trend입니다. 링크: 구글 트렌드
구글 트렌드에서 서울, 2019년 1월의 검색어 유입흐름을 보고, 관련 키워찾아 보려고 했습니다.

그러나 결과는 좋지 않았습니다. 축구에 대한 언급은 하지않고 어떤 치킨을 먹을지에 대한 언급이 나타나 있습니다.

조금 더 중심으로 들어갈 방법을 찾아야 할 것 같습니다.

 

 

Naver Data Lab

두번째 사용한 것은 네이버 DataLab 입니다. 링크: 네이버 검색어 트렌드
이번에도 치킨과1월의 검색어로 찾아 보려고 시도를 했습니다.

역시 이것으로 축구에 대한 단서는 알아 낼 수 없었습니다.

 

지역별 그래프 원인 파악하기

지역별 그래프의 원인을 파악해보겠습니다.

지난 글에서 그래프로 알아본 것은 아래와 같습니다.

 

  1. 치킨의 주요 통화량 지역 상위 5개는 강서구, 강남구, 관악구, 영등포구, 서초구 순으로 되어있습니다.
  2. 중국집의 주요 통화량 지역 상위 5개는 강남구, 중구, 강서구, 서초구, 서대문구 순으로 되어있습니다.

막상 이에 대해 알아보려 하다보니 도메인 지식에 한계가 오고 있습니다.

서울에 있는 회사의 위치, 가정집의 분포도, 자취생의 분포도, 중고등학교 등등의 모든 데이터를 모두 파악하고 있고, 이 요식업계의 지식도 있어야 하는데 막상 시도 해보려니 쉽지가 않습니다.

도메인 지식이 없이 순전히 Data로만 바라보다보면반쪽짜리 결과가 나올 수 있으니 지역별 확인은 앞으로 천천히 알아보도록 하겠습니다.

 


이로써 그래프에 대한 원인 파악을 했습니다.

깊게 파고들수록 호기롭게 시작했고 그렸던 그림과는 달리 여러 가지로 새로운 점들이 발견되고, 모르는 분야가 많다는것을 느끼게 됐습니다.

 

도메인 지식이 없이 이 Data로 분석을 해서 모든 것을 파악했다는 착각을 하는 사람이 아무도 없길 바랍니다.

 

이 Data를 어떻게 사용해서 Insight를 찾아야 하는지에 대해 알아보는 글을 작성하도록 하겠습니다.

 

반응형

'서울시 먹거리 분석' 카테고리의 다른 글

2018년 요식업계 통화량 시각화  (0) 2020.02.22
2018년 csv파일 불러오기  (0) 2020.02.20
시각화 해석  (0) 2020.02.18
19.01 요식업계 통화량 시각화  (0) 2020.02.18
19.01 피자집 이용 통화량 분석  (0) 2020.02.18