본문 바로가기

분류 전체보기

(116)
AWS 인스턴스 볼륨 값 설정 일전에 AWS에서 구축해두었던 서버의 볼륨값을 변경해보겠습니다. 1.AWS 좌측 카테고리에서 "볼륨"을 클릭한다. 2.볼륨을 수정할 인스턴스를 "마우스 우클릭" 후 "볼륨 수정"을 누른다. 3.내가 원하는 볼륨 값 기입하기. (최대 30GB까지 무료) 4.수정을 누른 후 "예"를 누른다. 5. "닫기"를 누르면 수정된 값이 반영됩니다. 6.Rstudio의 Terminal에서 "df -h" 명령어 입력 후 변경된 볼륨값 확인(필자는 24GB로 변경하였다.) 7. 변경된 값을 확인하기 바랍니다. 이상으로 AWS의 인스턴스 볼륨 값을 변경하는 방법을 알아보았습니다.
코드 수행 시간 측정 코드가 생각보다 느리게 실행된다면 속도 향상에 앞서 어떤 부분에 시간이 오래 걸리는지를 조사할 필요가 있다. 이런 목적으로 코드 성능을 평가하는 방법에는 system.time()을 사용해 간단히 함수의 수행 시간을 출력해보는 방법과 Rprof() 함수를 사용해 좀 더 본격적인 보고서를 출력해보는 방법이 있다. 명령문 실행 시간 측정 system.time()은 인자로 주어진 명령이 수행하는 데 걸린 시간을 측정한다. -system.time : 표현식을 평가하는 데 걸린 CPU 시간을 구한다. system.time( expr #평가할 표현식 ) 다음은 1부터 N까지 더하는 함수인 sum_to_n( )의 수행 시간을 N=10,000, N=100,000, N=1,000,000인 경우에 대해 각각 측정해본 예다...
데이터 구조의 변형과 요약 reshape2(참고자료 [4], [5] 참고)는 데이터의 모양을 바꾸거나 그룹별 요약 값을 계산하는 함수들을 담고 있는 패키지다. 변환된 데이터는 측정치를 variable과 value라는 두 컬럼으로 표현하므로 데이터의 통계치 계산이 편리해진다. reshape2가 제공하는 볂환은 크게 melt()와 cast() 두 함수로, 이 둘은 4장에서 다른 stack(), unstack() 함수와 유사한 기능을 한다. 다음 표에 이 두 함수의 역할에 대해 정리하였다. 함수 의미 melt() 여러 컬럼으로 구성된 데이터를 데이터 식별자(id), 측정 변수(variable), 측정값(value)이라는 3개 컬럼으로 변환한다. 만약 한 데이터에 대해 다수의 측정 변수와 측정값이 있다면 이들은 여러 행으로 표현된다. 이..
데이터 정렬 이 절에서는 데이터를 정력하는 함수인 sort()와 order()를 설명한다. sort()는 주어진 데이터를 직접 정렬해주는 함수며, order()는 데이터를 정렬했을 때의 순서를 반환한다. sort() sort()는 주어진 벡터를 정렬한 결과를 반환한다. -sort : 벡터를 정렬한다. sort( x, #정렬할 벡터 decreasing=FALSE, # 내림차순 여부 # na.last는 NA 값을 정렬한 결과의 어디에 둘 것인지를 제어한다. n.last=TRUE는 NA값을 #정렬한 결과의 마지막에 두고, na.last=FALSE는 정렬한 값의 처음에 둔다. #기본값인 na.last=NA는 NA값을 정렬 결과에서 제외한다. na.last=NA ) 다음ㅁ은 임의의 값이 저장된 벡터를 각각 오름차순과 내림차순..
데이터 분리 및 병합 이 절에서는 주어진 데이터를 조건에 따라 분리하는 split(), subset() 함수 그리고 분리되어 있는 데이터를 공통된 값에 따라 병합하는 merge() 함수에 대해서 설명한다. 데이터를 분리하는 함수를 사용하면 조건에 만족하는 데이터를 미리 선택할 수 있어 이어지는 처리를 쉽게 할 수 있다. 또, 분리된 데이터는 merge()로 재병합할 수 있다. 다음에 이들 함수의 특징을 요약했다. 함수 특징 split() 주어진 조건에 따라 데이터를 분리한다. subset() 주어진 조건을 만족하는 데이터를 선택한다. merge() 데이터를 공통된 값에 기준해 병합한다. split() split()은 조건에 따라 데이터를 분리하는데 사용한다ㅣ. -split : 주어진 기준에 따라 데이터를 분리한다. split..
apply 계열 함수 - 2 sapply() sapply()는 lapply()와 유사하지만 리스트 대신 행렬, 벡터 등의 데이터 타입으로 결과를 반환하는 특징이 있는 함수다. -sapply: 벡터, 리스트, 표현식, 데이터 프레임 등에 함수를 적용하고 그 결과를 벡터 또는 행렬로 반환한다. sapply( x, #벡터, 리스트, 표현식 또는 데이터 프레임 FUN, #적용할 함수 ..., #추가 인자. 이 인자들은 FUN에 전달된다. ) 예를 들어, 아이리스의 컬럼별로 평균을 구하는 경우를 살펴보자. 다음 코드에서 볼 수 있듯이 lapply()는 결과를 리스트로 반환하지만, sapply()는 벡터를 반환한다. >lapply(iris[,1:4], mean) $Sepal.Length [1] 5.84333 $Sepal.Width [1] 3...
apply 계열 함수 - 1 R에는 벡터, 행렬 또는 데이터 프레임에 임의의 함수를 적용한 결과를 얻기 위한 apply 계열 함수가 있다. 이 함수들은 데이터 전체에 함수를 한 번에 적용하는 벡터 연산을 수행하므로 속도가 빠르다. 다음은 apply 계열 함수를 요약한 것이다. 함수 설명 다른 함수와 비교했을 때의 특징 apply() 배열 또는 행렬에 주어진 함수를 적용한 뒤 그 결과를 벡터, 배열 또는 리스트로 반환 배열 또는 행렬에 적용 lapply() 벡터, 리스트 또는 표현식에 함수를 적용하여 그 결과를 리스트로 반환 결과가 리스트 sapply() lapply와 유사하지만 결과를 벡터, 행렬 또는 배열로 반환 결과가 벡터, 행렬 또는 배열 tapply() 벡터에 있는 데이터를 특정 기준에 따라 그룹으로 묶은 뒤 각 그룹마다 주..
데이터 프레임의 행과 컬럼 합치기 rbind()와 cbind()는 각각 행 또는 컬럼 형태로 주어진 벡터, 행렬, 데이터 프레임을 합쳐서 결과로 행렬 또는 데이터 프레임을 만드는 데 사용한다. 이들 함수는 분리되어 저장된 데이터를 합치는 데 유용하게 사용할 수 있다. 함수 의미 rbind(...) 지정한 데이터들을 행으로 취급해 합친다. cbind(...) 지정한 데이터들을 컬럼으로 취급해 합친다. 예를 들어, c(1,2,3), c(4,5,6)이라는 두 벡터는 r bind()를 사용해 각 벡터를 한 행으로 하는 행렬로 합칠 수 있다. >rbind(c(1,2,3),c(4,5,6)) [,1] [,2] [,3] [1,] 1 2 3 [2,] 4 5 6 마찬가지로 데이터 프레임 역시 rbind()를 사용하여 행을 합칠 수 있다. 다음은 2개 행을..