1. 데이터 이해(탐색적 데이터 분석 EDA)

  • 데이터를 다운로드 받고, 직접 데이터 탐색
  • 데이터에 대한 기초 통계를 뽑아보고, 막대그래프와 같은 단일 변수 시각화, 산점도와 같은 변수 간 관계를 시각화

 

 

2. 평가 척도 이해

  • 경진대회의 평가 척도 확인(= 문제 출제 의도 확인)
  • 어떤 예측값이 페널티를 크게 받고, 어떤 예측값이 페널티를 덜 받는지 이해

 

 

3. 교차 검증 기법 선정

  • 경진대회서 안정적인 성적을 위해선 신뢰할 수 있는 교차 검증 기법 구축이 중요. 주어진 데이터와 문제에 맞는 교차 검증 기법이 무엇인가 고민
  • 훈련/검증 데이터 분리 비율은 데이터가 매우 클 경우 5:5, 데이터가 적을 경우 9:1임 (일반적으로 5:5 ~ 9:1)
  • 데이터 분리에는 재현성을 위해 random_seed(random_state) 값을 지정.
  • 데이터 분리에는 임의 분리, 계층별 분리가 존재함(정답 레이블 비율 유지 여부 차이)
  • 시계열 데이터일 경우 항상 훈련 데이터를 검증 데이터보다 과거로 설정

 

 

4. 피처 엔지니어링

  • 변수값 스케일링, 이상값 제거, 결측값 대체, 범주형 데이터 변환, 변수 선정, 파생 변수 생성 등 주어진 데이터를 머신러닝 모델이 학습하기 쉽게 만듦
    • 피처 엔지니어링은 Tabular 데이터 기반 경진대회의 랭킹을 가르는 가장 중요한 요인이며, 딥러닝 기반 경진대회에서는 모델 엔지니이어링이 핵심. (Tabluar Data는 테이블 기반의 데이터를 의미)

 

 

5. 모델 튜닝

  • 머신러닝 모델의 최적 파라미터를 찾는다. 신뢰할 수 있는 교차 검증 기법이 구축되면, 교차 검증 점수가 좋은 파라미터가 최적의 파라미터이다.
  • 중간 결과를 항상 저장해야 함

 

 

6. 앙상블

  • 서로 다른 유형의 모델을 앙상블 하는 것이 가장 좋은 앙상블 효과를 보임
  • 다수 계층의 모델을 학습하는 스태킹 기법도 캐글 경진대회에서 자주 사용되는 앙상블 기법임

 

Reference


[1] http://www.yes24.com/Product/Goods/63830327

 

 

분류 내용
피처드 (Featured) 외부 기업과 캐글이 연계해서 진행되는 상금과 캐글 포인트가 할당되는 일반적인 경진대회
입문자용 (Getting Started) 머신러닝 입문자를 위한 예제 기반 학습용 경진대회. 상금과 캐글 포인트는 할당되지 않는다.
연구 (Research) 연구 목적으로 진행되는 경진대회. 피처드 대비 적은 양의 상금이 할당된다.
놀이터 (Playground) 캐글이 직접 주최하는 경진대회. 상금이 할당되는 경우도 있다.
채용 (Recruitment) 채용을 목적으로 진행되는 경진대회. 상금 대시 채용 면접권을 얻을 수 있으며, 캐글 포인트도 할당된다.

 

캐글의 경우 수 많은 온라인 머신러닝 경진대회 플랫폼 중 하나이며, 2017년 3월 구글에 인수되었다.

 

현재 가장 영향력 있는 경진대회 플랫폼으로 거듭났지만 DrivenData, CrowdAnalytics, CodaLab, KDD 등 다양한 경진대회 플랫폼도 존재한다.

 

국내 플랫폼은 존재하지 않으나 한국정보화진흥원과 한국빅데이터협회가 매년 주최하는 빅콘테스트가 있다.

 

Reference


[1] http://www.yes24.com/Product/Goods/63830327

 

+ Recent posts