데이터
데이터 시각화를 하는 방법(matplotlib, seaborn)
나는 그림을 그리는 방법으로 matplotlib 를 이해하려 했다. 우선 그림그리는 방법은 내가생각한 순서는 이렇다 그림을 그리는 방법 - * 준비단계 : 1. 도화지준비 2. 펜준비 3. 물감준비 * 그리기작업 : 4. 무엇을 그릴지 상상 5. 그리기 1. 도화지 준비 : 2. 펜준비 : font 그래프에 들어가는 글자들의 폰트를 설정합니다. plt.suptitle, ax.title, ax.xlabel, axes.xticklabels, ax.annotate, ax.text 등으로 곳곳의 폰트를 설정할 수 있습니다. https://jehyunlee.github.io/2020/02/13/Python-DS-2-matplotlib_defaults_and_fonts/ https://www.delftstack.c..
EDA 순서
EDA 를 할때도 순서를 정해서 하는건 굉장히 중요한 업무중에 하나이다. EDA 를 할때 순서를 정하지 않고 무작정 하게되면, EDA 를 통해서 도출하는 결과가 달라진다. 예로들어서 Time series 데이터에서 Feauture 값에 고유키 값이 없을때. 이것을 찾기 위해서 Feauture 본다 치자. 그러면 이때 가장 중요한건 무엇일까? 바로 Discrete data + Ordinal data or Discrete data + Norminal data 일것이다 그렇지 않고 Continuous data 를 섞어 쓰게된다면 이상한 결과치가 나올것이다 그럼으로 EDA 를 할때 무엇을 볼것이며, 어떻게 볼것이며를 생각해서 하는게 굉장히 중요하다 논리적인 자료의 요약 :
ML 겉햙기[결측값 처리]
경진대회에서나 현실에서 우리가 다루는 자료들도 종종 결함이 존재한다. 이에 우리는 결측값을 채워서 데이터를 무결점하게 만들어야 하는게 데이터를 다루는사람이 가장 중요하게 생각하는 일중 하나이다. 이때 결측값을 제외하고 데이터를 돌려봐서 현재 데이터의 수준을 파악해야하는데 이때 베이스모델이 필요하다. 베이스모델같은 경우 우리는 가장먼저 GBDT를 떠오를수있다. 그 이유는 GBDT가 베이스 데이터를 넣었을때 가장 에러가 않나오고, 가장 베이스모델결과가 좋기 때문이다. 베이스모델인 GBDT는 결측값을 채우지 않아도 그대로 쓸수 있다. GBDT는 범주형 변수는 True/False 로 구분하고 수치형 변수인경우 특정값보다 큰지 작은지를 비교하는 대소관계에 의존하여 모델을 구축하기 때문이다. GBDT 는 결측값, ..