본문 바로가기
CS/MachineLearning

실무 프로젝트로 배우는 데이터 분석 with R

by Diligejy 2024. 2. 9.

p.3

분석 업무중 생기는 문제

 

1. 다른 직무로 일하다가 최근 분석 직무에 배정받은 경우 -> 아이디어는 있지만 어떻게 설계 및 구현을 해야 할지 모르는 상황

2. 분석 지식만 갖춘 신입의 경우

    a. 이것도 되지 않을까? -> 이게 의미가 있나?

    b. 그러면 이렇게는 되지 않을까? -> 이것도 의미가 없겠다

    c. 그러면 이렇게 하자 -> 데이터가 확보 안됐네?

    d. 그럼 이렇게 하지 -> 결과가 별로네.

 

p.5

경영지원팀 'A'는 상사로부터 이번에 출시한 'P 상품'의 매출 분석을 해오라는 지시를 받았다. 'A'는 평소 하던것처럼 엑셀을 활용해 매출 데이터에 대한 피벗 테이블을 작성하고, 그래프를 그린 후, 상사에게 제출했다. 하지만 상사는 'A'에게 '이 정도는 그냥 현황파악이지 누가 할 줄 모르나? 매출에 관련된 모든 요인(인자)를 분석해와'라고 피드백을 주었다. 'A'는 처음 받는 업무에 당황했고, 인터넷에서 열심히 정보를 검색했으나 명쾌한 해답을 얻지 못해 큰 고민에 빠졌다. 

 

p.23~24

기본적으로 데이터는 수집 단계에서 독립성을 가정합니다. 좀 더 풀어서 설명하자면, 데이터를 수집할 때마다 이전의 결과는 지금의 수집 결과에 영향을 미치지 않는다는 의미입니다. 예를 들어, 동전을 10번 던지면서 앞면이 나오는 횟수를 측정하고자 합니다. 일반적으로 동전을 한 번 던졌을 때 앞면이 나올 확률은 50%입니다. 여기서 수집 단계의 독립성은 동전 던지기를 10번 진행할 때 앞면이 나올 확률은 50%로 동일한 것을 의미합니다. 그런데 동전을 던질 때마다 닳아버린다든가 형태가 변해서 확률이 변한다고 가정해 보겠습니다. 이런 경우에는 시행할 때마다 동전을 던져 앞면이 나올 확률이 시시각각 변합니다. 즉, 시간의 흐름에 따라 다음 시행이 이전 시행으로부터 영향을 받는 것입니다. 우리는 이러한 데이터를 독립성을 따르지 못한다고 정의하며, 대표적인 예로 주식(주가)이 있습니다.

 

주가는 가격이 그 전 시점의 가격에서 변동하기에 수집 단계에서 독립성을 지킨다고 볼 수가 없습니다. 우리는 이러한 데이터를 시계열 데이터라고 합니다. 시계열 데이터는 과거, 현재, 미래가 서로 연관이 있다는 성질이 있고, 이 성질을 자기상관(Autocorrelation)이라고 합니다. 시계열 데이터는 매우 다른 영역이기 때문에 일반적인 분석 방법으로 접근하면 틀린 분석 결과를 산출하게 됩니다.

 

이와 비슷하게 독립적으로 수집된 데이터와 다르게 접근해야 하는 데이터 유형이 하나 더 있습니다. 바로 동일한 대상에 대해 반복 측정된 데이터(Repeated Measure Data)입니다. 일반적으로 의료 혹은 교육 분야에서 실험을 진행할 때 반복 측정 실험을 자주 진행합니다. 예를 들면, 동일한 환자에게 약물을 주입한 시간에 따라 호르몬 변화를 측정하는 방식을 예로 들 수 있습니다. 반복 측정 데이터는 관측 대상끼리 가지는 변동과 관측 대상 간에 가지는 변동을 구분해야 하기 때문에 마찬가지로 일반적인 분석 방법론과는 다른 접근 방식이 필요합니다. 

 

p.80

stringsAsFactors = FALSE 옵션은 데이터를 불러올 때 문자열로 구성된 데이터에 대해 Factor 형태로 불러오지 않고, chr 형태로 불ㄹ러오겠다는 의미입니다. (참고로 이 옵션은 2020년에 출시된 R 4.0 버전부터는 read.csv()의 기본 옵션으로 적용되기 때문에 R을 최근에 내려받은 경우에는 굳이 옵션을 적용할 필요가 없습니다).

 

댓글