본문 바로가기
마케팅공부/데이터 분석

[Tacademy 데이터분석캠프] 데이터 전처리

by 여니여니여 2021. 5. 12.

데이터 전처리 : 있을 법한 오류를 잡아 알고리즘에 잘적용하기

1) Handle Missing Values :비어있는 결측치 찾고 이유를 찾아보기 

NULL 값의 종류

해당 Feature를 의미한다고 생각하기 애매한 값, 의미 자체가 missing 일 수도!

 

- 삭제 : Feature로써 사용못한다 삭제! 80%이상이 못쓸데이터 이거나, 너무 많아서 1개 정도 없어도 될 경우

- 대치 : 다른 샘플 분포로 어느정도 예측이 가능하다면, 의미적으로 추론이 가능할 때

 

2) Handle Outliers : 아웃라이어 (이상치) 분포상에 엇나가 있는 값 살펴 보기

-삭제 : 정상 분포 벗어나는 아웃라이어 제거

-대치 : 의미적으로 다른값으로 대체 가능한지 여부판단

-로그 변환 

 

3) Select Dependent & Independent Value : 독립변수와 종속 변수 알아내기

4) Split train & test set : 테스트와 학습 데이터셋 나누기

5) Scaling : 분포가 독립적인지 살펴보고 스케일링

같은 수치형 데이터라도 평균, 최대, 최소가 다른 경우, 각 Feature가 동등한 영향력을 가질 수 있을까?

-Min-max Scaler (최소 최대 변환 / 정규화 )

최소~ 최대 (0,1)

아웃라이어가 최대가 되는 경우 데이터가 일부로 뭉개짐

 

-Standard Scaler (표준화)

정규분포로 바껴봄 

아웃라이어에 대해 들 민감

 

-데이터 누수

테스트는 미래의 데이터, 분포가 일정하지 않을 수 있다고 예정함 

오버피팅의 가능성이 있음.

 

-NULL 체크 관련 팁

null이 있는 타입은 float 타입일 경우가 많다

 

댓글