1. 데이터 이해(탐색적 데이터 분석 EDA)

  • 데이터를 다운로드 받고, 직접 데이터 탐색
  • 데이터에 대한 기초 통계를 뽑아보고, 막대그래프와 같은 단일 변수 시각화, 산점도와 같은 변수 간 관계를 시각화

 

 

2. 평가 척도 이해

  • 경진대회의 평가 척도 확인(= 문제 출제 의도 확인)
  • 어떤 예측값이 페널티를 크게 받고, 어떤 예측값이 페널티를 덜 받는지 이해

 

 

3. 교차 검증 기법 선정

  • 경진대회서 안정적인 성적을 위해선 신뢰할 수 있는 교차 검증 기법 구축이 중요. 주어진 데이터와 문제에 맞는 교차 검증 기법이 무엇인가 고민
  • 훈련/검증 데이터 분리 비율은 데이터가 매우 클 경우 5:5, 데이터가 적을 경우 9:1임 (일반적으로 5:5 ~ 9:1)
  • 데이터 분리에는 재현성을 위해 random_seed(random_state) 값을 지정.
  • 데이터 분리에는 임의 분리, 계층별 분리가 존재함(정답 레이블 비율 유지 여부 차이)
  • 시계열 데이터일 경우 항상 훈련 데이터를 검증 데이터보다 과거로 설정

 

 

4. 피처 엔지니어링

  • 변수값 스케일링, 이상값 제거, 결측값 대체, 범주형 데이터 변환, 변수 선정, 파생 변수 생성 등 주어진 데이터를 머신러닝 모델이 학습하기 쉽게 만듦
    • 피처 엔지니어링은 Tabular 데이터 기반 경진대회의 랭킹을 가르는 가장 중요한 요인이며, 딥러닝 기반 경진대회에서는 모델 엔지니이어링이 핵심. (Tabluar Data는 테이블 기반의 데이터를 의미)

 

 

5. 모델 튜닝

  • 머신러닝 모델의 최적 파라미터를 찾는다. 신뢰할 수 있는 교차 검증 기법이 구축되면, 교차 검증 점수가 좋은 파라미터가 최적의 파라미터이다.
  • 중간 결과를 항상 저장해야 함

 

 

6. 앙상블

  • 서로 다른 유형의 모델을 앙상블 하는 것이 가장 좋은 앙상블 효과를 보임
  • 다수 계층의 모델을 학습하는 스태킹 기법도 캐글 경진대회에서 자주 사용되는 앙상블 기법임

 

Reference


[1] http://www.yes24.com/Product/Goods/63830327

+ Recent posts