변형 (Transform)
책의 두 번째 파트에서는 데이터 시각화를 깊이 있게 다루었습니다. 책의 이 파트에서는 데이터 프레임 내부에서 마주하게 될 가장 중요한 변수 유형에 대해 배우고, 이를 다루는 데 사용할 수 있는 도구들을 배울 것입니다.
이 장들은 필요에 따라 읽을 수 있습니다. 순서에 상관없이 읽을 수 있도록 대부분 독립적으로 설계되었습니다.
12 논리형 벡터 에서는 논리형 벡터에 대해 배웁니다. 논리형 벡터는 가장 단순한 유형의 벡터이지만 매우 강력합니다. 수치 비교를 통해 이를 생성하는 방법, 부울 대수를 사용하여 결합하는 방법, 요약에 사용하는 방법, 조건부 변형에 사용하는 방법을 배웁니다.
13 숫자 에서는 데이터 과학의 원동력인 수치형 벡터를 위한 도구들을 깊이 있게 다룹니다. 개수 세기와 많은 중요한 변형 및 요약 함수에 대해 더 배우게 됩니다.
14 문자열 에서는 문자열 작업을 위한 도구들을 제공합니다: 문자열을 자르고, 나누고, 다시 합치는 방법을 배웁니다. 이 장은 주로 stringr 패키지에 초점을 맞추지만, 문자열에서 데이터를 추출하는 데 전념하는 더 많은 tidyr 함수들도 배우게 됩니다.
15 정규 표현식 (Regular expressions) 에서는 문자열 조작을 위한 강력한 도구인 정규 표현식을 소개합니다. 이 장을 통해 키보드 위를 고양이가 걸어간 것 같은 암호 같은 문자열에서 복잡한 문자열 패턴을 읽고 쓰는 수준으로 나아가게 될 것입니다.
16 팩터(Factors) 에서는 R이 범주형 데이터를 저장하는 데 사용하는 데이터 유형인 팩터를 소개합니다. 변수가 가질 수 있는 가능한 값의 집합이 고정되어 있거나, 문자열의 알파벳 순서가 아닌 정렬을 사용하고 싶을 때 팩터를 사용합니다.
17 날짜와 시간 에서는 날짜와 날짜-시간 작업을 위한 핵심 도구들을 제공합니다. 불행히도 날짜-시간에 대해 더 많이 배울수록 더 복잡해지는 것처럼 느껴지지만, lubridate 패키지의 도움을 받아 가장 일반적인 과제들을 극복하는 방법을 배우게 될 것입니다.
18 결측값(Missing values) 에서는 결측값을 심층적으로 다룹니다. 이전에도 몇 번 부분적으로 논의했지만, 이제는 암시적 결측값과 명시적 결측값의 차이점, 그리고 왜 그리고 어떻게 이들 사이를 변환하는지 이해할 수 있도록 전체적으로 논의할 때입니다.
19 조인(Joins) 에서는 두 개(또는 그 이상)의 데이터 프레임을 하나로 결합하는 도구들을 제공하며 이 파트를 마무리합니다. 조인을 배우면서 키(keys)의 개념과 씨름하고, 데이터셋의 각 행을 어떻게 식별할지 생각하게 될 것입니다.