R/R을 이용한 데이터 처리&분석 실무 (39) 썸네일형 리스트형 전처리-2 변수 선택 주어진 데이터의 변수 중 모델링에 가장 적합한 변수만 택하는 과정을 변수 선택(Variable Selection) 또는 피처 선택(Feature Selection)이라 한다. 변수 선택 방법은 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성(예를 들면, 상호 정보량Mutual Information이나 상관 계수)으로부터 변수를 택하는 필터 방법(Filter Method)과 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 택해나가는 래퍼 방법(Wrapper Method), 모델 자체에 변수 선택이 포함된 임베디드 방법(Embedded Method)(예를 들면, LASSO)으로 분류된다. 여기서는 필터 방법 중 대표적인 몇 가지 기법을 살펴본다. 0에 가까운 .. 전처리-1 분류 알고리즘을 적용하기에 앞서 모델링에 알맞은 형태로 데이터를 처리해주어야 한다. 이를 전처리(Preprocessing)라 한다. 전처리의 예에는 데이터를 정규화하거나, 다른 형태로 재표현하거나, 결측치NA를 다른 값으로 대치해주는 작업 등이 있다. 데이터 변환 데이터 정규화(Feature Scaling) 데이터 정규화는 변숫값의 분포를 표준화하는 것을 의미한다. 표준화는 변수에서 데이터의 평균을 빼거나 변수를 전체 데이터의 표준 편차로 나누는 작업을 포함한다. 이렇게 하면 변숫값의 평균이 0이 되고 값의 퍼짐 정도(분포) 또한 일정해진다. 데이터 정규화는 k 최근 이웃 분류 알고리즘(kNN, k-Nearest Neighbor), 서포트 벡터 머신(SVM, Support Vector Machine), .. 데이터 탐색 기계 학습의 첫 단계는 데이터를 이해하는 것이다. 데이터의 특징은 값의 최소, 최대, 평균 등의 기술 통계를 구해보거나 데이터를 시각화해 이해할 수 있다. 기술 통계 summary()는 "summaryBy()" 절에서 살펴본 함수로, 데이터에 대한 간략한 분포 정보를 알려준다. Hmisc에는 기술 통계 정보를 알려주는 describe()와 summary.formula()가 있다. 이 절에서는 이들 세 함수를 사용한 데이터 탐색 방법을 알아본다. -Hmisc::describe : 통계 요약 정보를 구한다. Hmisc::describe( x, # 데이터 프레임 # NA만 저장된 변수에 대한 처리를 지정한다. TRUE일 경우 출력의 맨 뒤에 NA만 저장한 변수를 # 나열한다. FALSE일 경우 NA만 저장된 .. 변수 선택 선형 회귀 모델을 만들 때 주어진 여러 변수 중 어떤 변수를 설명 변수로 해야 할지는 모델링을 수행하는 사람의 배경 지식에 따라 결정할 수 있다. 하지만 이러한 배경 지식이 없거나, 배경 지식이 있어도 여전히 어떤 변수들을 선택해야 할지 정확히 결정할 수 없다면 변수의 통계적 특성을 고려해 기계적으로 설명 변수를 채택하는 방법을 사용할 수 있다. 이 절에서는 이러한 기계적인 변수 선택 방법에 대해 살펴본다. 변수 선택 방법 중선형 회귀 모델에서의 설명 변수를 선택하는 방법 중 한 가지는 특정 기준(예를 들면, F통계량이나 AIC)을 사용해 변수를 하나씩 택하거나 제거하는 것이다. 단계적 변수 선택 방법은 다음의 3가지 경우로 구분할 수 있다. 전진 선택법(forward selection) : 절편만 있는.. 이상치 이상치(Outlier)는 주어진 회귀 모델에 의해 잘 설명되지 않는 데이터 점들을 뜻한다. 이상치 검출에서는 잔차, 특히 외면 스튜던트화 잔차(Externally Studentized Residual)를 사용한다. 외면 스튜던트화 잔차는 rstudent()를 사용해 구하며 이상치는 car::outlierTest()를 사용해 쉽게 구할 수 있다. -rstudent : 외면 스튜던트화 잔차를 구한다. rstuden( model #lm또는 glm 함수가 반환한 모델 객체 ) -car::outlierTest : 본페로니(Bonferroni)이상값 검정을 수행한다. car::outlierTest( model, # lm또는 glm 객체 ) 다음은 Orange 데이터에서 외면 스튜던트화 잔차를 계산하는 예다. cor.. 중선형 회귀 중선형 회귀(Multiple Linear Regression)는 하나 이상의 독립 변수가 사용된 선형 회귀다. 즉, Y = β_0 +(β_1)(X_1) + (β_2)(X_2) + … + (β_p)(X_p) + ε처럼 여러 독립 변수가 사용된 형태의 모델을 말한다. 중선형 회귀 모델을 만들고 평가하는 방법에 대해 살펴보자. 모델 생성 및 평가 중선형 회귀에서 lm()에 지정하는 포뮬러는 독립 변수가 여러 개므로, 단순 선형 회귀에 비해 복잡한 형태다. 여러 독립 변수가 주어지면 이들을 +로 연결해 나열하여 중선형 회귀 모델을 만들 수 있다. 다음 코드는 아이리스 데이터의 Sepal.Length를 Sepal.Width, Petal.Length, Petal.Width를 사용해 예측하는 모델을 만든다. >(ms.. 선형 회기-2 적합도 검정 통계 분석에서는 종종 데이터가 특정 분포를 따름을 가정한다. 특히 데이터의 크기가 일정 수 이상이라면 데이터가 정규 분포를 따름을 별 의심 없이 가정하기도 한다. 하지만 실제로 그 분포를 따르는지 확인해볼 수도 있다. 카이 제곱 검정 데이터가 특정 분포를 따르는지 살펴보기 위해 분할표를 만들고, 식 7-2의 카이 제곱 검정(Chi Squared Test)을 사용할 수 있다. 다만 독립성 검정과 달리 Eij를 비교하고자 하는 분포로부터 계산한다. MASS::survey 데이터를 사용해 글씨를 왼손으로 쓰는 사람과 오른손으로 쓰는 사람의 비율이 30% : 70%인지 여부를 분석해보자. 아래에서 수행한 chisq.test()에서 귀무가설은 분할표에 주어진 관측 데이터가 30% : 70%의 분포를 .. 선형 회귀-1 이 장에서는 선형 회귀(Linear Regression)에 대해서 다룬다. 선형 회귀는 종속 변수(또는 반응 변수)를 독립 변수(또는 설명 변수)에 의해 설명하는 모델을 다루는 회귀 분석(Regression Analysis)의 한 종류다. 이 장에서는 lm( ) 함수를 사용한 선형 회귀, 작성된 모델의 평가 및 모델링을 위해 사용할 설명 변수의 선택에 대해 알아본다. 선형 회귀의 기본 가정 선형 회귀(Linear Regression)는 i번째 관측값을 뜻하는 변수들이 (X_i1, X_i2, …, X_ip, Y_i) 형태로 주어졌을 때 종속 변수 Yi와 p개의 독립 변수 X_i1, X_i2, …, X_ip를 다음과 같은 선형 식으로 표현한다. Y_i = β_0 + (β_1)(X_i1) + (β_2)(X_i.. 이전 1 2 3 4 5 다음