본문 바로가기

분류 전체보기

(116)
중선형 회귀 중선형 회귀(Multiple Linear Regression)는 하나 이상의 독립 변수가 사용된 선형 회귀다. 즉, Y = β_0 +(β_1)(X_1) + (β_2)(X_2) + … + (β_p)(X_p) + ε처럼 여러 독립 변수가 사용된 형태의 모델을 말한다. 중선형 회귀 모델을 만들고 평가하는 방법에 대해 살펴보자. 모델 생성 및 평가 중선형 회귀에서 lm()에 지정하는 포뮬러는 독립 변수가 여러 개므로, 단순 선형 회귀에 비해 복잡한 형태다. 여러 독립 변수가 주어지면 이들을 +로 연결해 나열하여 중선형 회귀 모델을 만들 수 있다. 다음 코드는 아이리스 데이터의 Sepal.Length를 Sepal.Width, Petal.Length, Petal.Width를 사용해 예측하는 모델을 만든다. >(ms..
선형 회기-2 적합도 검정 통계 분석에서는 종종 데이터가 특정 분포를 따름을 가정한다. 특히 데이터의 크기가 일정 수 이상이라면 데이터가 정규 분포를 따름을 별 의심 없이 가정하기도 한다. 하지만 실제로 그 분포를 따르는지 확인해볼 수도 있다. 카이 제곱 검정 데이터가 특정 분포를 따르는지 살펴보기 위해 분할표를 만들고, 식 7-2의 카이 제곱 검정(Chi Squared Test)을 사용할 수 있다. 다만 독립성 검정과 달리 Eij를 비교하고자 하는 분포로부터 계산한다. MASS::survey 데이터를 사용해 글씨를 왼손으로 쓰는 사람과 오른손으로 쓰는 사람의 비율이 30% : 70%인지 여부를 분석해보자. 아래에서 수행한 chisq.test()에서 귀무가설은 분할표에 주어진 관측 데이터가 30% : 70%의 분포를 ..
선형 회귀-1 이 장에서는 선형 회귀(Linear Regression)에 대해서 다룬다. 선형 회귀는 종속 변수(또는 반응 변수)를 독립 변수(또는 설명 변수)에 의해 설명하는 모델을 다루는 회귀 분석(Regression Analysis)의 한 종류다. 이 장에서는 lm( ) 함수를 사용한 선형 회귀, 작성된 모델의 평가 및 모델링을 위해 사용할 설명 변수의 선택에 대해 알아본다. 선형 회귀의 기본 가정 선형 회귀(Linear Regression)는 i번째 관측값을 뜻하는 변수들이 (X_i1, X_i2, …, X_ip, Y_i) 형태로 주어졌을 때 종속 변수 Yi와 p개의 독립 변수 X_i1, X_i2, …, X_ip를 다음과 같은 선형 식으로 표현한다. Y_i = β_0 + (β_1)(X_i1) + (β_2)(X_i..
상관 분석 상관 분석(Correlation Analysis)은 두 확률 변수 사이의 관련성을 파악하는 방법이다. 상관 계수(Correlation Coefficient)는 두 변수 간 관련성의 정도를 의미하며, 이를 계산하는 방법에는 피어슨 상관 계수, 스피어만 상관 계수, 켄달의 순위 상관 계수 등이 있다. 그러나 흔히 상관 계수라고하면 피어슨 상관 계수를 뜻한다. 상관 계수 값이 크면 데이터 간의 관계가 존재한다는 의미며, 보통 한쪽 값이 커질 때 다른 쪽 값이 커지는 정도가 크다. 그러나 상관 계수가 크다고 해서 변수 간에 인과관계가 있음을 뜻하지는 않는다. A가 커짐에 따라 B가 커지는 것을 보고 A가 B를 야기한다고 판단했으나 실제로는 또 다른 변수 C가 A와 B를 동시에 증가시키고 있거나(이를 교락 변수(..
분할표 분할표(Contingency Table)는 명목형(Categorical) 또는 순서형(Ordinal) 데이터의 도수(frequency)를 표 형태로 기록한 것이다. 분할표가 작성되면 카이 제곱 검정(Chi Square Test)으로 변수 간에 의존 관계가 있는지를 독립성 검정으로, 도수가 특정 분포를 따르는지를 적합도 검정(Goodness of Fit)으로 살펴볼 수 있다. 분할표가 사용되는 한 가지 경우는 기계 학습으로 데이터의 양성(Positive), 음성(Negative)을 예측할 때다. 예를 들어, 이메일 텍스트를 보고 해당 이메일이 스팸인지 아닌지를 예측하는 경우를 생각해보자. 이때 두 가지 변수는 예측값(모델로 스팸인지를 판단한 결과)과 실제 값(실제로 해당 이메일이 스팸인지 여부)이다. 이런..
표본 추출 현대의 데이터는 기하급수적으로 증가하고 있다. 예를 들어, 구글에서 사용자들이 검색하는 질의를 분석하는 경우를 생각해보자. 특정 알고리즘이 검색을 개선하는지를 알아보기 위해 사용자들이 입력한 모든 질의를 분석하는 것은 아무리 분산 컴퓨터 능력이 받쳐준다 할지라도 낭비에 가깝다. 그보다는 특정 기간에 있었던 질의만 분석한다거나, 특정 조건을 만족하는 질의만 분석하는 것이 효율적일 것이다. 이처럼 전체 데이터(모집단,Population) 중 일부를 표본(샘플, Sample)으로 추출하는 작업은 데이터 분석에서 필수다. 표본 추출(샘플링,Sampling)은 훈련 데이터(Training Data)와 테스트 데이터(Test Data)의 분리에서도 중요하다. 전체 데이터 중 80%를 훈련 데이터, 20%를 테스트 ..
기초 통계량 이 절에서는 데이터의 가장 기본적인 특징을 알려주는 기초 통계량을 계산하는 방법을 알아본다. 이 절에서 설명할 통계량은 표본 평균, 분산, 표준 편차, 다섯 수치 요약, 최빈값 등이다. 표본 평균, 표본 분산, 표본 표준 편차 표본 평균, 표본 분산, 표본 표준 편차는 표본 X1, X2, …, Xn의 n개 표본이 있을 때 다음과 같이 계산한다. 수식은 책의 표 7-3을 참고하기 바란다. 분산의 계산에서 분모에 n이 아니라 n-1을 사용하고 있다는 점에 유의하기 바란다. R에서 기본적으로 계산하는 분산과 표준 편차는 전체 데이터 중 일부를 샘플로 추출한 뒤 이에 대해 분산과 표준 편차를 계산하는 표본 분산과 표본 분산과 표본 표준 편차다. 따라서 n-1을 분모로 사용한다. 아래에 평균, 표본 분산, 표본 ..
난수 생성 및 분포 함수 R은 주어진 통계 분포를 따르는 난수를 발생시키는 다양한 함수를 제공한다. 이 함수들은 난수(random)를 뜻하는 r 뒤에 분포명을 붙인 형태이다. 아래는 이항분포, F분포, 기하분포 등 주요 분포에 대한 함수를 정리했다. 전체목록은 도움말 help("distributions")로 볼 수 있다. 확률 분포 난수 발생 함수 이항(Binomial)분포 rbinom F 분포 rf 기하(Geometric)분포 rgeom 초기하(Hypergeometric)분포 rhyper 음 이항(Negative Binomial)분포 rmbinom 정규(Normal)분포 rnorm 포아송(Poisson)분포 rpois t분포 rt 연속 균등IUniform)분포 runif 이 함수들의 인자는 원하는 난수의 개수와 각 확률 분포의..