가져오기 (Import)
책의 이 파트에서는 더 넓은 범위의 데이터를 R로 가져오는 방법과 이를 분석에 유용한 형태로 만드는 방법을 배웁니다. 때로는 적절한 데이터 가져오기 패키지의 함수를 호출하는 것만으로 충분할 수도 있습니다. 하지만 더 복잡한 경우에는 선호하는 깔끔한 직사각형(tidy rectangle) 형태를 만들기 위해 정리(tidying)와 변형(transformation)이 모두 필요할 수 있습니다.
책의 이 파트에서는 다음과 같은 방식으로 저장된 데이터에 접근하는 방법을 배웁니다:
20 스프레드시트 에서는 Excel 스프레드시트와 Google 스프레드시트에서 데이터를 가져오는 방법을 배웁니다.
21 데이터베이스 에서는 데이터베이스에서 데이터를 R로 가져오는 방법(그리고 R에서 데이터를 데이터베이스로 내보내는 방법도 조금) 배웁니다.
22 Arrow 에서는 특히 데이터가 파켓(parquet) 형식으로 저장된 경우, 메모리 부족(out-of-memory) 데이터를 작업하기 위한 강력한 도구인 Arrow에 대해 배웁니다.
23 계층적 데이터 에서는 JSON 형식으로 저장된 데이터에 의해 생성된 깊게 중첩된 리스트를 포함하여 계층적 데이터를 작업하는 방법을 배웁니다.
24 웹 스크래핑 에서는 웹페이지에서 데이터를 추출하는 기술과 과학인 웹 “스크래핑(scraping)”을 배웁니다.
여기서 다루지 않는 두 가지 중요한 tidyverse 패키지가 있습니다: haven과 xml2. SPSS, Stata, SAS 파일의 데이터를 작업한다면 haven 패키지(https://haven.tidyverse.org)를 확인하세요. XML 데이터를 작업한다면 xml2 패키지(https://xml2.r-lib.org)를 확인하세요. 그렇지 않은 경우 어떤 패키지를 사용해야 할지 알아내기 위해 조사가 필요할 것입니다. 구글(google)은 여러분의 친구입니다 😃.