전체 게임
이 파트의 목표는 Figure 1 에서 보여주는 것처럼 데이터 과학의 주요 도구인 가져오기(importing), 정리(tidying), 변형(transforming), 시각화(visualizing) 에 대한 빠른 개요를 제공하는 것입니다. 데이터 과학의 “전체 게임”을 보여주어 간단하지만 실제 데이터셋을 다룰 수 있을 만큼의 주요 조각들을 충분히 제공하고자 합니다. 책의 뒷부분에서는 이러한 각 주제를 더 깊이 있게 다루어, 여러분이 해결할 수 있는 데이터 과학 과제의 범위를 넓힐 것입니다.
네 개의 장에서 데이터 과학 도구에 초점을 맞춥니다:
시각화는 R 프로그래밍을 시작하기에 좋은 곳입니다. 보상이 매우 분명하기 때문입니다. 데이터를 이해하는 데 도움이 되는 우아하고 유익한 플롯을 만들 수 있습니다. 1 데이터 시각화 에서는 시각화에 뛰어들어 ggplot2 플롯의 기본 구조와 데이터를 플롯으로 바꾸는 강력한 기법들을 배웁니다.
시각화만으로는 충분하지 않은 경우가 많으므로, 3 데이터 변형 에서는 중요한 변수를 선택하고, 주요 관측값을 필터링하고, 새로운 변수를 생성하고, 요약을 계산할 수 있는 핵심 동사들을 배웁니다.
5 데이터 정리 에서는 변형, 시각화, 모델링을 더 쉽게 만들어주는 일관된 데이터 저장 방식인 ’깔끔한 데이터(tidy data)’에 대해 배웁니다. 기본 원칙과 데이터를 깔끔한 형태로 만드는 방법을 배우게 됩니다.
데이터를 변형하고 시각화하기 전에 먼저 데이터를 R로 가져와야 합니다. 7 데이터 가져오기 에서는
.csv파일을 R로 가져오는 기본 사항을 배웁니다.
이 장들 사이에는 R 워크플로우에 초점을 맞춘 다른 네 개의 장이 자리 잡고 있습니다. 2 워크플로우: 기초, 4 워크플로우: 코드 스타일, 6 워크플로우: 스크립트와 프로젝트 에서는 R 코드를 작성하고 구성하기 위한 좋은 워크플로우 관행을 배웁니다. 이것들은 실제 프로젝트를 다룰 때 체계적으로 유지할 수 있는 도구를 제공하므로 장기적으로 성공할 수 있는 기반을 마련해 줄 것입니다. 마지막으로, 8 워크플로우: 도움 받기 에서는 도움을 받고 계속 학습하는 방법을 알려줍니다.