모델 예측에 사용될 수 있는 , 데이터를 표현 할 수 있는 모든 독립변수, 개체, 특성
모든지 그래도 Domain knowledge 가 중요하다
모델이 이해하기 힘든 형태의 Feature 혹은 잘못학습할 수 있는 가능성이 있는 Feature에 대해 의미적인 관점에서 변환
그래서 컴퓨터가 알아 먹을 수 있도록 encoding 작업진행
1) One-hot Encoding
카테고리 데이터 학습을 위해 범주형 변수에 대해 각 클래스 별 독립적인 Feature 생성
서로의 상관관계를 없애기 위해
2) Label Encoding
순서가 있는 변수에 대해 단순 숫자로 넘버링
3) Mean Encoding
해당 Feature의 각 클래스 별 Target 분포를 바탕으로 Feature 값을 매핑
타켓에 대한 비율의 정보를 넣는다 (오버피팅이 될 수 있음)
-차원의 저주
Feature수에 비해 target을 설명할 수 있는 충분한 데이터 수가 없는 경우
필요없는 Feature을 가려내야하여 차원을 줄이는 것이 중요함
1) Feature Selection
여러 Feature 들 가운데서 일부를 선택
그리디 알고리즘
2) Feature Extraction(특성추출)
주어진 Feature를 바탕으로 새로운 Feature로 재구성
PCA, LDA
-> 모델 복잡도 감소, 과적합 방지
-PCA(주성분분석) : 고차원의 Feature중 중요한 몇가지를 추출
분산이 크다 = 주어진 정보가 많다
주어진 데이터의 분산을 표현할 수 있는 벡터를 찾을 수 있다면,
그 중 표현력이 큰 벡터를 선별 후 원본데이터를 투영
k 차원의 새로운 데이터 셋으로 재구성 (k<d)
'마케팅공부 > 데이터 분석' 카테고리의 다른 글
데이터 확인, 결측치 처리, Log변환 (0) | 2021.05.13 |
---|---|
[Tacademy] One Hot Enconding, PCA (0) | 2021.05.12 |
[Tacademy 데이터분석캠프] 데이터 전처리 (0) | 2021.05.12 |
[Tacademy 데이터분석캠프] EDA (0) | 2021.05.11 |
[Tacademy 데이터분석캠프] 머신러닝 프로세스 이해 (0) | 2021.05.11 |
댓글