본문 바로가기
마케팅공부/데이터 분석

[Tacademy 데이터 분석캠프]피쳐 엔지니어링

by 여니여니여 2021. 5. 12.

모델 예측에 사용될 수 있는 , 데이터를 표현 할 수 있는 모든 독립변수, 개체, 특성

모든지 그래도 Domain knowledge 가 중요하다

모델이 이해하기 힘든 형태의 Feature 혹은 잘못학습할 수 있는 가능성이 있는 Feature에 대해 의미적인 관점에서 변환

 

그래서 컴퓨터가 알아 먹을 수 있도록 encoding 작업진행

1) One-hot Encoding

카테고리 데이터 학습을 위해 범주형 변수에 대해 각 클래스 별 독립적인 Feature 생성

서로의 상관관계를 없애기 위해

2) Label Encoding

순서가 있는 변수에 대해 단순 숫자로 넘버링

3) Mean Encoding

해당 Feature의 각 클래스 별 Target 분포를 바탕으로 Feature 값을 매핑

타켓에 대한 비율의 정보를 넣는다 (오버피팅이 될 수 있음)

 

-차원의 저주

Feature수에 비해 target을 설명할 수 있는 충분한 데이터 수가 없는 경우 

필요없는 Feature을 가려내야하여 차원을 줄이는 것이 중요함

 

1) Feature Selection

여러 Feature 들 가운데서 일부를 선택 

그리디 알고리즘

 

2) Feature Extraction(특성추출)

주어진 Feature를 바탕으로 새로운 Feature로 재구성 

PCA, LDA

 

-> 모델 복잡도 감소, 과적합 방지

 

 

-PCA(주성분분석) : 고차원의 Feature중 중요한 몇가지를 추출

분산이 크다 = 주어진 정보가 많다 

주어진 데이터의 분산을 표현할 수 있는 벡터를 찾을 수 있다면,

그 중 표현력이 큰 벡터를 선별 후 원본데이터를 투영

k 차원의 새로운 데이터 셋으로 재구성 (k<d)

 

 

댓글