결측값
ML 겉햙기[결측값 처리]
경진대회에서나 현실에서 우리가 다루는 자료들도 종종 결함이 존재한다. 이에 우리는 결측값을 채워서 데이터를 무결점하게 만들어야 하는게 데이터를 다루는사람이 가장 중요하게 생각하는 일중 하나이다. 이때 결측값을 제외하고 데이터를 돌려봐서 현재 데이터의 수준을 파악해야하는데 이때 베이스모델이 필요하다. 베이스모델같은 경우 우리는 가장먼저 GBDT를 떠오를수있다. 그 이유는 GBDT가 베이스 데이터를 넣었을때 가장 에러가 않나오고, 가장 베이스모델결과가 좋기 때문이다. 베이스모델인 GBDT는 결측값을 채우지 않아도 그대로 쓸수 있다. GBDT는 범주형 변수는 True/False 로 구분하고 수치형 변수인경우 특정값보다 큰지 작은지를 비교하는 대소관계에 의존하여 모델을 구축하기 때문이다. GBDT 는 결측값, ..