본문 바로가기
Growth/통계

실전에서 바로 쓰는 시계열 처리와 분석

by Diligejy 2023. 12. 9.

 

 

p.3

https://www.mckinsey.com/~/media/mckinsey/featured%20insights/artificial%20intelligence/notes%20from%20the%20ai%20frontier%20applications%20and%20value%20of%20deep%20learning/notes-from-the-ai-frontier-insights-from-hundreds-of-use-cases-discussion-paper.ashx

일반적으로 시계열 데이터를 위한 예측 모델은 지도 학습, 비지도  학습, 강화 학습의 범주에 포함시키지 않지만, Azure, AWS, H2O와 같은 머신러닝 플랫폼에서는 대부분 시계열 분석을 위한 알고리즘을 포함하고 있고, 컨설팅 회사 맥킨지는 시계열 데이터의 가치는 텍스트나 오디오, 비디오보다 높다고 평가하고 있다.

 

p.5

일반적으로 데이터 분석 시에는 독립변수와 종속변수 간의 관계를 분석하는 경우가 많다. 종속 변수의 행동을 예측하기 위해서는 하나 혹은 여러 개의 독립변수가 필요하고, 이들 간의 관계성을 알아냄으로써 독립변수에 따른 종속변수의 예측값을 산출한다. 예를 들어, 자동차의 속도가 빠를수록 제동 거리는 길어지게 된다. 이를 그래프에서 보면 양의 상관관계를 보이는데, 이 경우는 제동 거리를 종속변수로, 자동차 속도를 독립변수로 분석할 수 있다.

 

그러나 시계열 데이터는 독립변수가 시간으로 고정된다. 따라서 시계열 데이터는 시간 변수와의 상관관계 분석이라는 점에서 다른 데이터 분석과 다르다. 

 

시간 독립변수를 설정할 때 중요한 요소는 기록되는 시간 간격이 동일해야 한다는 점이다. 예를 들어, 매월 측정된 어떤 물품의 판매량이 있다면 데이터 전체적으로 월간 데이터가 기록되어야 한다. 특정 기간의 주간 데이터로 기록되거나 분기 데이터로 기록되면 올바른 시계열 데이터로 볼 수 없다. 매시간, 매일, 매월, 매분기, 매년 등 데이터가 기록된 간격이 일정해야 시계열 데이터를 다루기 위한 다양한 함수에 적용할 수 있다.

 

p.6

최근 우리나라는 저출산 고령화 사회에 접어들었다고 한다. 우리나라의 출생아 수가 줄어드는 추세가 몇 년째 계속되고 있다고 뉴스에서 보도되고 있다. 재작년보다 작년이 줄었고, 작년보다 올해가 줄었다. 특별한 사건이나 이슈가 발생하지 않는 이상 이러한 추세는 반복될 것이다. 이처럼 과거의 데이터가 현재의 데이터에 영향을 주는 경향을 자기상관(autocorrelation)이라고 한다. 시계열 데이터는 일련의 시간 간격에 따라 기록되는 데이터들의 집합이기 때문에 인접한 시간 데이터 간의 상관관계가 존재하는 경우가 많다. 

 

 

p.8

추세 경향성은 시간의 흐름에 따라 영향을 받는 데이터의 중장기적인 지속적 데이터의 변동을 말한다. 시간 축에 따라 발생하는 데이터 변동은 시계열 플롯에서 확인이 가능하다. 이 추세 변동성을 해석할 때는 변동성을 단순한 선형 회귀로 단정하여 예측하지 않도록 주의해야 한다. 추세 경향성을 선형 회귀로 분석할 때는 앞서 언급한 자기상관 관계가 있는지를 먼저 확인한 후에 적용해야 한다. 자기상관 관계가 있는 경우에는 선형 회귀 외에 다른 시계열 분석 방법을 함께 고려하여 성능이 더 좋은 모델을 사용하도록 해야 한다.

댓글