- 결측치 살펴보는 방법
1) train.info()
info 메쏘드 // 각각 컬럼에 결측치 체크
2) 시각화 방법 (import missingno as msno)
msno.matrix(train)
- 각각의 컬럼에 몇개의 종류에 데이터가 있는지 파악
train['칼럼명'].value_counts()
sns.countplot(data=train,x='컬럼명')
분포 모양
seaborn으로 누적 분포 보기
sns.kdeplot(data=train,x='컬럼명')
-특정 값을 0,1로 변환하기
train['컬럼명']=(train['컬럼명']=='조건').astype(int)
-그룹만들기
train.groupby(['컬럼명1','컬럼명2']).mean()
컬럼명 1로 묶고 그리고 컬럼명 2로 다시 묶기
특정 칼럼명으로 다시 시각화
-피봇테이블
pd.pivot_table(데이터명, columns=컬럼,index=행명,values=컬럼명2,수행하는함수='mean' )
-시각화
- 상관성 살펴보기
train.corr().style.background_gradient()
-> 예쁘게 하기
corr=train.corr()
sns.heatmap(corr)
'마케팅공부 > 데이터 분석' 카테고리의 다른 글
데이터 확인, 결측치 처리, Log변환 (0) | 2021.05.13 |
---|---|
[Tacademy] One Hot Enconding, PCA (0) | 2021.05.12 |
[Tacademy 데이터 분석캠프]피쳐 엔지니어링 (0) | 2021.05.12 |
[Tacademy 데이터분석캠프] 데이터 전처리 (0) | 2021.05.12 |
[Tacademy 데이터분석캠프] 머신러닝 프로세스 이해 (0) | 2021.05.11 |
댓글