마케팅공부/데이터 분석6 데이터 확인, 결측치 처리, Log변환 1. 데이터 불러오기 + 목표변수 제거 2. 목표변수 수치형 자료형으로 변경 3. 필요없는 데이터들 삭제 2) 데이터 확인 .head(), describe(), .info()등의 함수로 데이터 확인하기 -> 결측치 파악 3) 결측치 처리 범주형 변수의 경우 가장 간단하게 최빈값으로 처리, 다른 칼럼을 필터링해서 결측치를 처리 할 수 있음 loc함수로 조건을 걸어서 일괄변환 4) Log 변환 -데이터가 치우쳐 있을때 -쓸때 없는 값 지우기 2021. 5. 13. [Tacademy] One Hot Enconding, PCA 카테고리 변수를 수치로 바꾸는 경우 1) 원핫 인코더 2) 그리고 shape로 확인하기 oe_result.toarray().shape workclass에 들어가는 값들이 하나의 칼럼으로 변경되어 데이터프레임을 만들고 기존의 데이터프레임에 더해준다 - pd.get_dummies(train)함수를 쓰게 되면 자동으로 onehot 인코딩을 시켜준다 3) LavelEncoder() -각각의 유니크한 값 알아보기 train['컬럼명'].unique() -> 유니크한 value 값들이 나오는데 이것을 나의 기준으로 sort해서 순서부여하기 4) MeanEncoder() 비율을 알아내기 위해 남자의 값의 갯수와, 행의 갯수 차원을 줄이기 위해 2021. 5. 12. [Tacademy 데이터 분석캠프]피쳐 엔지니어링 모델 예측에 사용될 수 있는 , 데이터를 표현 할 수 있는 모든 독립변수, 개체, 특성 모든지 그래도 Domain knowledge 가 중요하다 모델이 이해하기 힘든 형태의 Feature 혹은 잘못학습할 수 있는 가능성이 있는 Feature에 대해 의미적인 관점에서 변환 그래서 컴퓨터가 알아 먹을 수 있도록 encoding 작업진행 1) One-hot Encoding 카테고리 데이터 학습을 위해 범주형 변수에 대해 각 클래스 별 독립적인 Feature 생성 서로의 상관관계를 없애기 위해 2) Label Encoding 순서가 있는 변수에 대해 단순 숫자로 넘버링 3) Mean Encoding 해당 Feature의 각 클래스 별 Target 분포를 바탕으로 Feature 값을 매핑 타켓에 대한 비율의 정보.. 2021. 5. 12. [Tacademy 데이터분석캠프] 데이터 전처리 데이터 전처리 : 있을 법한 오류를 잡아 알고리즘에 잘적용하기 1) Handle Missing Values :비어있는 결측치 찾고 이유를 찾아보기 해당 Feature를 의미한다고 생각하기 애매한 값, 의미 자체가 missing 일 수도! - 삭제 : Feature로써 사용못한다 삭제! 80%이상이 못쓸데이터 이거나, 너무 많아서 1개 정도 없어도 될 경우 - 대치 : 다른 샘플 분포로 어느정도 예측이 가능하다면, 의미적으로 추론이 가능할 때 2) Handle Outliers : 아웃라이어 (이상치) 분포상에 엇나가 있는 값 살펴 보기 -삭제 : 정상 분포 벗어나는 아웃라이어 제거 -대치 : 의미적으로 다른값으로 대체 가능한지 여부판단 -로그 변환 3) Select Dependent & Independen.. 2021. 5. 12. [Tacademy 데이터분석캠프] EDA - 결측치 살펴보는 방법 1) train.info() info 메쏘드 // 각각 컬럼에 결측치 체크 2) 시각화 방법 (import missingno as msno) msno.matrix(train) - 각각의 컬럼에 몇개의 종류에 데이터가 있는지 파악 train['칼럼명'].value_counts() sns.countplot(data=train,x='컬럼명') 분포 모양 seaborn으로 누적 분포 보기 sns.kdeplot(data=train,x='컬럼명') -특정 값을 0,1로 변환하기 train['컬럼명']=(train['컬럼명']=='조건').astype(int) -그룹만들기 train.groupby(['컬럼명1','컬럼명2']).mean() 컬럼명 1로 묶고 그리고 컬럼명 2로 다시 묶기 특정.. 2021. 5. 11. [Tacademy 데이터분석캠프] 머신러닝 프로세스 이해 * 데이터 분석 파이프라인 입력 -> EDA -> 전처리 -> 모델 -> 결과 그리고 정확도 향상을 위해 무한 반복 1) 입력 정형데이터는 csv파일로 제공 (엑셀과 같은 테이블 데이터) => Pandas 같은 데이터 분석 라이브러리를 활용하여 분석진행 - 데이터셋이 큰 경우 Dask Datatable Rapids(cudf) -다양한 형식의 파일들 Spicy : 과학 계산용 라이브러리 Librosa : 음성처리 라이브러리 Pillow, skimage, imageio : 이미지용 라이브러리 2) EDA 데이터를 살펴보고 살펴보는 과정에서 시각화 작업을 통해 데이터의 전체적인 모양새와 인사이트 도출하는 과정 -> 무엇을 확인해야하나 어떤 문제를 해결하려 하는가 어떤 종류의 데이터가 있고 어떻게 처리할까 데이.. 2021. 5. 11. 이전 1 다음