본문 바로가기

Developer Diary

시계열 분석


시계열 분석 (time series analysis)

 

시계열 분석이란

시간 순서대로 정렬된 데이터에서 # 시간을 구분 기준으로

의미있는 내용과 통계 정보를 추출하기 위한 노력이다.

 

과거 데이터진단할 수 있으며

미래 데이터예측하는것도 가능하다.

 

대표적인 분야로의학, 기상학, 경제학, 천문학 데이터가시계열 데이터 분석이 얼마나 중요한지 보여준다.

 

과거에는 데이터를 사람이 수작업으로 수집하고 처리했다면 지금은 컴퓨터와 좋은 언어를 사용해서 빠른 속도로 발전되고 있다.

 


시계열 데이터 전처리

 

시계열 데이터를 전처리하는데

무슨 문제가 발생할까?

 

정답은 다른 데이터와 다르지 않다는 점이다.

흩어진 column을 하나로 통합하거나

이상치, 널(Null)값이 있는 컬럼들을 리샘플링해주고

 

시계열 데이터인 만큼

시간에 따라 데이터를 정리하는 방법도 추가된다.

 

 

💡

타임 스탬프(Timestamp) # 시간 표기

= 특정한 시각을 나타내거나 기록하는 문자열

· 생성 과정, 방법, 시기에 집착해야함

 

타임 스탬핑(Timestamping)

= 실제 정보를 타임스탬프 형식에 따라 기록하는 행위

 

타임스탬프는 사건이 컴퓨터에 기록된 시간을 의미한다.

실제 사건 시간을 의미하지 않는다.


시계열 데이터 찾기

 

목적성에 따라

정형화된 시계열 데이터도 있지만

 

내가 원하는 데이터를 만들기 위해

타임스탬프를 식별하고 다음고 결합하여

새롭게 창조할 수 있다.


💡

일변량 시계열

 

· 시간에 대해 측정된 변수가 하나만 있는 경우

 

다변량 시계열

 

· 각 타임스탬프에서 측정된 변수가 여러 개인 경우

· 각 변수가 서로 시간 종속성을 가지는 시계열은 다채로운 분석 가능

 


사전관찰

 

· 미래의 어떤 사실을 안다는 뜻으로 사용

· 모델의 설계, 학습, 검증 단계에서는 알 수 없지만

사전 관찰을 통해 좀 더 일찍 미래에 대한 사실 발견

 

pandas

 

파이썬의 데이터프레임 분석용 패키지

'팬더스'는 '패널 데이터(panel data)'라는 의미

 

💡 패널 데이터

여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터

<참고 : https://ko.wikipedia.org/wiki/패널데이터>

 


시계열 Null값 처리하기

 

대치법 : 데이터 전체의 관측에 기반하여 채우기

보간법 : 인접한 데이터를 사용하여 추정하기

삭제 : 누락된 데이터의 기간을 사용하지 않음

 

 

계절성 데이터

 

특정 행동의 빈도가 안정적으로 반복해서 나타나는것

동시에 여러빈도가 다르게 발생하는 것도 가능.

 

평활(Smoothinng)

시간에 따라 수집된 시계열 데이터의  무작위적인 변화량을

줄이는 방법 중 하나

 

지수 평활(exponential smoothing)

 

최근에 측정된 데이터가중치를 더 두고 싶을때

최근 데이터일수록 더 많은 가중치를 줘서

시간의 특성을 더 잘 인식할 수 있도록 만들어졌다.

 

 

 

 

'Developer Diary' 카테고리의 다른 글

NLP (자연어 처리)  (0) 2023.01.01
확률 변수 & 분포  (0) 2022.12.26
Toy Project 3일차  (0) 2022.12.23
Toy Project 2일차  (0) 2022.12.23
Toy Project 1일차  (0) 2022.12.23