[Tacademy 데이터 분석캠프]피쳐 엔지니어링

모델 예측에 사용될 수 있는 , 데이터를 표현 할 수 있는 모든 독립변수, 개체, 특성

모든지 그래도 Domain knowledge 가 중요하다

모델이 이해하기 힘든 형태의 Feature 혹은 잘못학습할 수 있는 가능성이 있는 Feature에 대해 의미적인 관점에서 변환

그래서 컴퓨터가 알아 먹을 수 있도록 encoding 작업진행

1) One-hot Encoding

카테고리 데이터 학습을 위해 범주형 변수에 대해 각 클래스 별 독립적인 Feature 생성

서로의 상관관계를 없애기 위해

2) Label Encoding

순서가 있는 변수에 대해 단순 숫자로 넘버링

3) Mean Encoding

해당 Feature의 각 클래스 별 Target 분포를 바탕으로 Feature 값을 매핑

타켓에 대한 비율의 정보를 넣는다 (오버피팅이 될 수 있음)

-차원의 저주

Feature수에 비해 target을 설명할 수 있는 충분한 데이터 수가 없는 경우

필요없는 Feature을 가려내야하여 차원을 줄이는 것이 중요함

1) Feature Selection

여러 Feature 들 가운데서 일부를 선택

그리디 알고리즘

2) Feature Extraction(특성추출)

주어진 Feature를 바탕으로 새로운 Feature로 재구성

PCA, LDA

-> 모델 복잡도 감소, 과적합 방지

-PCA(주성분분석) : 고차원의 Feature중 중요한 몇가지를 추출

분산이 크다 = 주어진 정보가 많다

주어진 데이터의 분산을 표현할 수 있는 벡터를 찾을 수 있다면,

그 중 표현력이 큰 벡터를 선별 후 원본데이터를 투영

k 차원의 새로운 데이터 셋으로 재구성 (k<d)

데이터 확인, 결측치 처리, Log변환 (0)	2021.05.13
[Tacademy] One Hot Enconding, PCA (0)	2021.05.12
[Tacademy 데이터분석캠프] 데이터 전처리 (0)	2021.05.12
[Tacademy 데이터분석캠프] EDA (0)	2021.05.11
[Tacademy 데이터분석캠프] 머신러닝 프로세스 이해 (0)	2021.05.11

여니언의 꿈로그