AI 공부/ML 끄적

ML 겉햙기 [Categorical data]

냥냥펀치데스 2021. 5. 4. 22:11
728x90


data 를 두개로 나눈다면 categorical data 와 numeric data 로 나눌수있다

그중 categorical data 의 특징은 numerical data 와 달리 data 간 뚜렷한 구별이 종종 나타나기때문에

아주 효율적으로 써먹을수 있다.

Categorical data 는 크게 두가지로 나눌수 있다.

1. Ordinal data , 2. Norminal data

1. Ordinal data :  학점처럼 범주 사이의 순서에 의미가 있는 경우이다.

                      그래서 encoding 을 할때 onehotencoding 이나 , dummies 를 써서 하는것 보다

                       labelencoder 을 써야  맞는 경우이다.

2. Norminal data : 혈액형처럼 범주 사이의 순서에 의미가 없다.

                        그래서 encoding 을 할때 onehotencoding 이나 , dummies 를 써서 하는것이

                       labelencoder 을 쓰는것보다 나은 결과가 도출된다.

 

 

https://machinelearningmastery.com/one-hot-encoding-for-categorical-data/