본문 바로가기
빅데이터 분석/Dacon

[Dacon] 교육 - 정형 데이터 분석 파이프라인 (오늘의 파이썬)

by Hessedist 2022. 4. 22.

 

#. 정형 데이터 분석의 전체 파이프라인

  1. 탐색적 데이터 분석(EDA)
  2. 데이터 전처리
  3. 머신러닝 모델링
  4. 모델 튜닝

1️⃣ 탐색적 데이터 분석(EDA)

 

EDA : 처음 데이터를 수집하였을 때 다양한 각도에서 관찰하고 이해하는 과정.

EDA 과정이 필요한 이유는 데이터 분석을 시작 하기전에 데이터에대한 100% 이해가 필요하기 때문. 데이터를 잘 이해하고 파악하여야 목적에 맞게 데이터를 정제 시킬 수 있고 더 나아가 새로운 인사이트를 도출 할 수 있게 될 것.

 

EDA 기초 내용🤴👸

 

 

2️⃣ 데이터 전처리

 

데이터 전처리 과정은 데이터 분석의 전체 파이프라인에서 가장 중요한 과정👨‍🦳

분석 결과/인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다뤄지는 과정임.

한 설문조사에 의하면, 분석가의 80% 시간을 데이터 수집 및 전처리에 사용한다고 함.🕵️‍♂️

 

데이터 전처리 기초 내용🦸‍♀️🦸‍♂️

 

결측치 다루기

 

이상치 다루기

 

정규화 및 인코딩

 

 

3️⃣ 머신러닝 모델링

 

머신러닝 모델링 과정은 모델을 정의하고 학습데이터로 모델을 학습(훈련) 시키는 과정.

트리 기반의 Decision Tree, 여러 모델을 결합한 앙상블 모델인 Random Forest, Xgboost, Light GBM ,Voting Classifier 등을 알아보았음.

또한 모델을 검증 하는 방법으로 K-fold 와 K-fold의 문제점인 target 데이터의 비율을 일정하게 유지 하지 못하는 것을 일정 하게 유지하며, 교차 검증을 진행 하는 Strtified K-Fold에 대해 배웠음.

 

모델링 내용🤴👸

 

모델

 

모델 검증

 

4️⃣ 모델 튜닝

 

모델을 학습 한다고해서 그 모델이 해당 데이터에 맞는 최적의 모델이 아님.

모델에 존재하는 여러가지 파라미터(ex. 트리의 깊이, 학습률)의 최적값을 찾는 과정인 모델 튜닝 과정을 통해 데이터에 맞는 최적의 모델을 구할 수 있음.

모델을 튜닝 하는 방법은 여러가지가 있지만 오늘의 파이썬 컨텐츠 중에는  GridSearch, Basian optimization 등이 있음.

 

GridSearch

 

 

Basian optimization

 

 

 

↩️ 오늘의 파이썬 리스트

#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선  #데이터분석 #데이터사이언티스트 #코랩 #Python  #colab #kaggle #pandas #numpy #sckit-learn # read_csv