R/R로 배우는 텍스트마이닝 (1) 썸네일형 리스트형 CHAPTER 1. 정돈 텍스트(깔끔한 텍스트) 형식 정돈 데이터 원리(tidy data principles)를 따르면 이전보다 더 데이터를 아주 쉽고 효과적으로 처리할 수 있기는 하지만, 텍스트까지 쉽고 효과적으로 처리할 수 있다고 보기는 어렵다. 해들리 위컴(Wickham 2014)이 설명한 것처럼 정돈 데이터(tidy data)에는 특정한 구조가 있다. 각 변량(variable)이 1개 열을 구성한다. 각 관측(observation)이 1개 행을 구성한다. 관측 단위의 각 유형(type)은 1개 테이블을 구성한다. 따라서 우리는 정돈 텍스트 형식(tidy text format)이란 1개 행마다 1개 토큰이 있게 구성한 테이블(a table with one token per row)이라고 정의한다. 토큰(token)이란 분석을 위해 사용하고자 하는, 단.. 이전 1 다음