본문 바로가기
Growth

SQL로 시작하는 데이터 분석

by Diligejy 2024. 2. 17.

 

 

p.20

분석은 단순히 적절한 방법론을 사용해 정확한 숫자를 만들어내는 일 이상을 의미합니다. 분석이란 호기심을 갖고 '왜' 그 숫자가 나왔는지 질문을 던지는 일입니다. 또한 다양한 패턴과 이례적인 현상들 그리고 비즈니스가 어떻게 움직이고 인간이 어떻게 행동하는지 이해하기 위한 단서를 찾고 해석하는 일입니다. 

 

p.29~30

분석 업무는 항상 질문을 던지는 데서 시작합니다. 예를 들어, '신규 고객이 얼마나 유입됐는가?', '판매 추이가 어떠한가?', '왜 어떤 고객은 한번 서비스를 이용한 후 다시 돌아오지 않는 반면, 어떤 고객은 지속해서 서비스를 사용하는가?' 등의 질문이 생기고 나면 데이터가 어디에서 나오고 어디에 저장되는지, 분석 계획은 무엇이며 결과를 어떻게 발표할지 생각해야 합니다.

 

p.36

열 기반 데이터베이스에는 기본키가 꼭 필요하지 않으며 인덱스도 없습니다. 앞서 언급한 압축기술이 있으므로 반복되는 값도 문제가 되지 않습니다. 데이터가 여러 테이블에 분산돼 있지 않으므로 JOIN이 필요하지 않고, 데이터가 한 곳에 모여 있어 스키마도 분석 쿼리에 잘 맞춰집니다. 단, 기본키가 없어 중복된 값들이 있을 수 있으므로 데이터가 어디에서 왔는지 이해하고 데이터 품질을 잘 확인해야 합니다.

 

한 행도 여러 열로 분산돼 저장하므로 대부분의 열 기반 데이터베이스에서 UPDATE와 DELETE 연산 시 많은 비용이 듭니다. 따라서 매우 큰 테이블은 UPDATE와 DELETE를 사용할 수 없도록 쓰기 전용(write-only)으로 사용되기도 하므로, 데이터가 어떻게 생성됐는지 잘 알아보고 꼭 필요한 레코드를 미리 파악하는 편이 좋습니다. 데이터를 읽을 때는 압축을 해제해야 할 때도 있어 읽기 속도가 느려질 수도 있습니다.

댓글