본문 바로가기
마케팅공부/데이터 분석

[Tacademy 데이터분석캠프] EDA

by 여니여니여 2021. 5. 11.

 

- 결측치 살펴보는 방법

1) train.info()

info 메쏘드 // 각각 컬럼에 결측치 체크

2) 시각화 방법 (import missingno as msno)

msno.matrix(train)

 

- 각각의 컬럼에 몇개의 종류에 데이터가 있는지 파악

train['칼럼명'].value_counts()

sns.countplot(data=train,x='컬럼명')

 

분포 모양

seaborn으로 누적 분포 보기

sns.kdeplot(data=train,x='컬럼명')

 

-특정 값을 0,1로 변환하기

train['컬럼명']=(train['컬럼명']=='조건').astype(int)

 

-그룹만들기

train.groupby(['컬럼명1','컬럼명2']).mean()

컬럼명 1로 묶고 그리고 컬럼명 2로 다시 묶기

특정 칼럼명으로 다시 시각화

-피봇테이블

pd.pivot_table(데이터명, columns=컬럼,index=행명,values=컬럼명2,수행하는함수='mean' )

 

-시각화

남자 여자 기준으로 boxplot 확인하기

- 상관성 살펴보기

train.corr().style.background_gradient()

 

-> 예쁘게 하기

corr=train.corr()

sns.heatmap(corr)

댓글