데이터 전처리 : 있을 법한 오류를 잡아 알고리즘에 잘적용하기
1) Handle Missing Values :비어있는 결측치 찾고 이유를 찾아보기
해당 Feature를 의미한다고 생각하기 애매한 값, 의미 자체가 missing 일 수도!
- 삭제 : Feature로써 사용못한다 삭제! 80%이상이 못쓸데이터 이거나, 너무 많아서 1개 정도 없어도 될 경우
- 대치 : 다른 샘플 분포로 어느정도 예측이 가능하다면, 의미적으로 추론이 가능할 때
2) Handle Outliers : 아웃라이어 (이상치) 분포상에 엇나가 있는 값 살펴 보기
-삭제 : 정상 분포 벗어나는 아웃라이어 제거
-대치 : 의미적으로 다른값으로 대체 가능한지 여부판단
-로그 변환
3) Select Dependent & Independent Value : 독립변수와 종속 변수 알아내기
4) Split train & test set : 테스트와 학습 데이터셋 나누기
5) Scaling : 분포가 독립적인지 살펴보고 스케일링
같은 수치형 데이터라도 평균, 최대, 최소가 다른 경우, 각 Feature가 동등한 영향력을 가질 수 있을까?
-Min-max Scaler (최소 최대 변환 / 정규화 )
최소~ 최대 (0,1)
아웃라이어가 최대가 되는 경우 데이터가 일부로 뭉개짐
-Standard Scaler (표준화)
정규분포로 바껴봄
아웃라이어에 대해 들 민감
-데이터 누수
테스트는 미래의 데이터, 분포가 일정하지 않을 수 있다고 예정함
오버피팅의 가능성이 있음.
-NULL 체크 관련 팁
null이 있는 타입은 float 타입일 경우가 많다
'마케팅공부 > 데이터 분석' 카테고리의 다른 글
데이터 확인, 결측치 처리, Log변환 (0) | 2021.05.13 |
---|---|
[Tacademy] One Hot Enconding, PCA (0) | 2021.05.12 |
[Tacademy 데이터 분석캠프]피쳐 엔지니어링 (0) | 2021.05.12 |
[Tacademy 데이터분석캠프] EDA (0) | 2021.05.11 |
[Tacademy 데이터분석캠프] 머신러닝 프로세스 이해 (0) | 2021.05.11 |
댓글