AI 공부/ML 끄적

ML 겉햙기 [Timeseries data]

냥냥펀치데스 2021. 5. 3. 22:31
728x90

feature 의 두번째 중요한 type 인 time 를 볼것이다

 

이 time은 무심코 지나갈수 있는 한없이 가벼운 존재가 될수 있으며, 이걸 핵심으로 다른 feature 과의 관계를 봐야되기도 하는 얄굳은 존재가 될수도 있다.

 

이 time 은 특히 time series data 일때 모든 feature 의 알파이자 오메가가 된다.

먼저 이 time 의 type 을 보면 크게 date, datetime, utc 로 나뉠수 있다.

물론 kaggle 이나 dacon 같은데는 시간을 다 맞춰주거나 상세하게 가르쳐줘서 신경쓸 필요 없을수도 있지만.

현실은 이걸로 짜증이 많이난다.

데이터 다 뽑아놓고 EDA 를 했는데 시간순서가 꼬여있어서 머징? 하다가 보면 UTC 로 되어있거나.

같은 datetime 인데 한쪽은 Asia/seoul, 다른한쪽은 Asia/Tokyo 로 되어있을때가 있다.

그러면 ㄹㅇ 끝까지 모르다가 마지막에 육감으로 잘못됨을 깨닫는다.

그럼으로 이 time 에 type 은 굉장히 중요하며 또 돌이켜서 봐야하는 부분이다.

 

그 다음으로 time series data 에서의 time 은 feature 의 알파이자 오메가이다.

모든 EDA 는 TIME 과 결합하여 살펴봐야 하고, 그 파생변수 또한 TIME 에 기초된 Domain 지식이 대다수이다.

어떨때는 데이터의 고유값을 찾기위해 time + feature 을 써서 찾아낸다.