제2판 서문
“R for Data Science” 제2판에 오신 것을 환영합니다! 이번 판은 1판의 대대적인 개정판으로, 더 이상 유용하지 않다고 생각되는 내용을 삭제하고, 1판에 포함했으면 좋았을 내용을 추가했으며, 전반적으로 텍스트와 코드를 업데이트하여 모범 사례의 변화를 반영했습니다. 또한 새로운 공저자를 맞이하게 되어 매우 기쁩니다. 저명한 데이터 과학 교육자이자 Posit(구 RStudio)의 동료인 Mine Çetinkaya-Rundel입니다.
가장 큰 변화를 간략하게 요약하면 다음과 같습니다:
책의 첫 번째 파트 이름을 “전체 게임(Whole game)”으로 변경했습니다. 이 섹션의 목표는 세부 사항으로 들어가기 전에 데이터 과학의 “전체 게임”에 대한 대략적인 세부 사항을 제공하는 것입니다.
책의 두 번째 파트는 “시각화(Visualize)”입니다. 이 파트에서는 1판에 비해 데이터 시각화 도구와 모범 사례를 더 깊이 있게 다룹니다. 모든 세부 사항을 얻을 수 있는 가장 좋은 곳은 여전히 ggplot2 책이지만, 이제 R4DS에서도 가장 중요한 기법들을 더 많이 다룹니다.
책의 세 번째 파트는 이제 “변형(Transform)”이라고 부르며, 숫자, 논리 벡터, 결측값에 대한 새로운 장들이 추가되었습니다. 이 내용들은 이전에 데이터 변형 장의 일부였으나, 모든 세부 사항을 다루기 위해 더 많은 지면이 필요했습니다.
책의 네 번째 파트는 “가져오기(Import)”입니다. 평면 텍스트 파일을 읽는 것을 넘어 스프레드시트 작업, 데이터베이스에서 데이터 추출, 빅 데이터 작업, 계층적 데이터의 직사각형화(rectangling), 웹사이트에서 데이터 스크래핑 등을 다루는 새로운 장들로 구성되어 있습니다.
“프로그램(Program)” 파트는 유지되지만, 함수 작성과 반복의 가장 중요한 부분에 초점을 맞추기 위해 처음부터 끝까지 다시 작성되었습니다. 함수 작성에는 이제 tidyverse 함수를 감싸는(wrapping) 방법(tidy evaluation의 어려움을 다루는 것)에 대한 세부 사항이 포함되는데, 지난 몇 년 동안 이 작업이 훨씬 쉬워지고 중요해졌기 때문입니다. 야생의 R 코드에서 자주 볼 수 있는 중요한 기본(base) R 함수들에 대한 새로운 장을 추가했습니다.
모델링 파트는 삭제되었습니다. 모델링을 제대로 다루기에 충분한 지면이 없었고, 이제 훨씬 더 좋은 리소스들이 있습니다. 일반적으로 tidymodels 패키지를 사용하고, Max Kuhn과 Julia Silge가 쓴 Tidy Modeling with R을 읽는 것을 추천합니다.
“소통(Communicate)” 파트는 유지되지만, R Markdown 대신 Quarto를 다루도록 철저히 업데이트되었습니다. 이 책의 이번 판은 Quarto로 작성되었으며, 이는 분명 미래의 도구입니다.