분류 전체보기 (116) 썸네일형 리스트형 AWS에 구축한 Rstudio plot 한글 깨짐 현상 해결법 AWS에서 Rstudio server를 구축하고 사용 중 plot에 한글을 적용하면 깨지는 현상이 발생한다. 이 때 아래와 같은 방법으로 처리해준다면 해결된다. AWS 서버 구축 후 아래의 코드를 입력했을 때, 아래와 같이 깨짐 현상을 확인해보자. plot(c(1:5),main="가나다") 제목부분이 깨짐 현상이 된 것을 확인할 수 있다. 우선 AWS Rstudio server의 폰트를 먼저 확인해야 한다. 리눅스환경에서 fc-list를 입력해 보자. $ fc-list /usr/share/fonts/default/Type1/c059016l.pfb: Century Schoolbook L:style=Bold /usr/share/fonts/default/Type1/c059033l.pfb: Century Sch.. 모델 평가 방법 - 2 교차 검증 주어진 데이터 전체를 사용해 모델을 만들 경우, 해당 데이터에는 잘 동작하지만 새로운 데이터에는 좋지 않은 성능을 보이는 모델을 만들 가능성이 있다. 이러한 현상이 발생하는 주요 이유 중 하나가 과적합이다. 과적합 발생 여부를 알아내려면 주어진 데이터 중 일부는 모델을 만드는 훈련 데이터로 사용하고, 나머지 일부는 테스트 데이터로 사용해 모델을 평가해야 한다. 테스트 데이터는 모델의 파라미터를 정하는 데도 필요하다. 예를 들어, k 최근접 이웃 알고리즘을 적용할 때 몇 개의 이웃을 보도록 k를 설정해야 하는지의 문제를 생각해보자. k가 크면 여러 이웃을 볼 것이고, k가 작으면 적은 개수의 이웃을 보게 된다. 그리고 적절한 k 값은 데이터에 따라 다르다. 따라서 어떤 k를 사용해야 하는지는 테.. 모델 평가 방법 좋은 모델을 만들려면 먼저 어떤 모델이 좋은 것인가부터 정해야 한다. 이 절에서는 다양한 평가 메트릭, ROC 커브, 교차 검증(Cross Validation)을 통해 모델을 평가하는 방법에 대해 알아본다. 평가 메트릭 분류가 Y, N 두 종류가 있다고 할 때 분류 모델에서의 모델 평가 메트릭(metric)은 모델에서 구한 분류의 예측값과 데이터의 실제 분류인 실제 값의 발생 빈도를 나열한 그림 9-17의 혼동 행렬(Confusion Matrix)로부터 계산한다. 혼동 행렬에서 True Positive에 해당하는 셀은 실제 값이 Y고, 예측도 Y였던 경우의 수, False Positive는 실제 값은 N이었는데 예측이 Y로 된 경우의 수를 기록한다. 같은 방식으로 False Negative와 True N.. 전처리-2 변수 선택 주어진 데이터의 변수 중 모델링에 가장 적합한 변수만 택하는 과정을 변수 선택(Variable Selection) 또는 피처 선택(Feature Selection)이라 한다. 변수 선택 방법은 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성(예를 들면, 상호 정보량Mutual Information이나 상관 계수)으로부터 변수를 택하는 필터 방법(Filter Method)과 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 택해나가는 래퍼 방법(Wrapper Method), 모델 자체에 변수 선택이 포함된 임베디드 방법(Embedded Method)(예를 들면, LASSO)으로 분류된다. 여기서는 필터 방법 중 대표적인 몇 가지 기법을 살펴본다. 0에 가까운 .. 전처리-1 분류 알고리즘을 적용하기에 앞서 모델링에 알맞은 형태로 데이터를 처리해주어야 한다. 이를 전처리(Preprocessing)라 한다. 전처리의 예에는 데이터를 정규화하거나, 다른 형태로 재표현하거나, 결측치NA를 다른 값으로 대치해주는 작업 등이 있다. 데이터 변환 데이터 정규화(Feature Scaling) 데이터 정규화는 변숫값의 분포를 표준화하는 것을 의미한다. 표준화는 변수에서 데이터의 평균을 빼거나 변수를 전체 데이터의 표준 편차로 나누는 작업을 포함한다. 이렇게 하면 변숫값의 평균이 0이 되고 값의 퍼짐 정도(분포) 또한 일정해진다. 데이터 정규화는 k 최근 이웃 분류 알고리즘(kNN, k-Nearest Neighbor), 서포트 벡터 머신(SVM, Support Vector Machine), .. 데이터 탐색 기계 학습의 첫 단계는 데이터를 이해하는 것이다. 데이터의 특징은 값의 최소, 최대, 평균 등의 기술 통계를 구해보거나 데이터를 시각화해 이해할 수 있다. 기술 통계 summary()는 "summaryBy()" 절에서 살펴본 함수로, 데이터에 대한 간략한 분포 정보를 알려준다. Hmisc에는 기술 통계 정보를 알려주는 describe()와 summary.formula()가 있다. 이 절에서는 이들 세 함수를 사용한 데이터 탐색 방법을 알아본다. -Hmisc::describe : 통계 요약 정보를 구한다. Hmisc::describe( x, # 데이터 프레임 # NA만 저장된 변수에 대한 처리를 지정한다. TRUE일 경우 출력의 맨 뒤에 NA만 저장한 변수를 # 나열한다. FALSE일 경우 NA만 저장된 .. 변수 선택 선형 회귀 모델을 만들 때 주어진 여러 변수 중 어떤 변수를 설명 변수로 해야 할지는 모델링을 수행하는 사람의 배경 지식에 따라 결정할 수 있다. 하지만 이러한 배경 지식이 없거나, 배경 지식이 있어도 여전히 어떤 변수들을 선택해야 할지 정확히 결정할 수 없다면 변수의 통계적 특성을 고려해 기계적으로 설명 변수를 채택하는 방법을 사용할 수 있다. 이 절에서는 이러한 기계적인 변수 선택 방법에 대해 살펴본다. 변수 선택 방법 중선형 회귀 모델에서의 설명 변수를 선택하는 방법 중 한 가지는 특정 기준(예를 들면, F통계량이나 AIC)을 사용해 변수를 하나씩 택하거나 제거하는 것이다. 단계적 변수 선택 방법은 다음의 3가지 경우로 구분할 수 있다. 전진 선택법(forward selection) : 절편만 있는.. 이상치 이상치(Outlier)는 주어진 회귀 모델에 의해 잘 설명되지 않는 데이터 점들을 뜻한다. 이상치 검출에서는 잔차, 특히 외면 스튜던트화 잔차(Externally Studentized Residual)를 사용한다. 외면 스튜던트화 잔차는 rstudent()를 사용해 구하며 이상치는 car::outlierTest()를 사용해 쉽게 구할 수 있다. -rstudent : 외면 스튜던트화 잔차를 구한다. rstuden( model #lm또는 glm 함수가 반환한 모델 객체 ) -car::outlierTest : 본페로니(Bonferroni)이상값 검정을 수행한다. car::outlierTest( model, # lm또는 glm 객체 ) 다음은 Orange 데이터에서 외면 스튜던트화 잔차를 계산하는 예다. cor.. 이전 1 ··· 6 7 8 9 10 11 12 ··· 15 다음