1. 데이터 이해(탐색적 데이터 분석 EDA)
- 데이터를 다운로드 받고, 직접 데이터 탐색
- 데이터에 대한 기초 통계를 뽑아보고, 막대그래프와 같은 단일 변수 시각화, 산점도와 같은 변수 간 관계를 시각화
2. 평가 척도 이해
- 경진대회의 평가 척도 확인(= 문제 출제 의도 확인)
- 어떤 예측값이 페널티를 크게 받고, 어떤 예측값이 페널티를 덜 받는지 이해
3. 교차 검증 기법 선정
- 경진대회서 안정적인 성적을 위해선 신뢰할 수 있는 교차 검증 기법 구축이 중요. 주어진 데이터와 문제에 맞는 교차 검증 기법이 무엇인가 고민
- 훈련/검증 데이터 분리 비율은 데이터가 매우 클 경우 5:5, 데이터가 적을 경우 9:1임 (일반적으로 5:5 ~ 9:1)
- 데이터 분리에는 재현성을 위해 random_seed(random_state) 값을 지정.
- 데이터 분리에는 임의 분리, 계층별 분리가 존재함(정답 레이블 비율 유지 여부 차이)
- 시계열 데이터일 경우 항상 훈련 데이터를 검증 데이터보다 과거로 설정
4. 피처 엔지니어링
- 변수값 스케일링, 이상값 제거, 결측값 대체, 범주형 데이터 변환, 변수 선정, 파생 변수 생성 등 주어진 데이터를 머신러닝 모델이 학습하기 쉽게 만듦
- 피처 엔지니어링은 Tabular 데이터 기반 경진대회의 랭킹을 가르는 가장 중요한 요인이며, 딥러닝 기반 경진대회에서는 모델 엔지니이어링이 핵심. (Tabluar Data는 테이블 기반의 데이터를 의미)
5. 모델 튜닝
- 머신러닝 모델의 최적 파라미터를 찾는다. 신뢰할 수 있는 교차 검증 기법이 구축되면, 교차 검증 점수가 좋은 파라미터가 최적의 파라미터이다.
- 중간 결과를 항상 저장해야 함
6. 앙상블
- 서로 다른 유형의 모델을 앙상블 하는 것이 가장 좋은 앙상블 효과를 보임
- 다수 계층의 모델을 학습하는 스태킹 기법도 캐글 경진대회에서 자주 사용되는 앙상블 기법임
Reference
'Artificial Intelligence > 머신러닝-딥러닝' 카테고리의 다른 글
[머신러닝 이론] 서포트 벡터 머신(Support Vector Machine) (0) | 2020.04.12 |
---|---|
[딥러닝 이론] 최적화 문제 (0) | 2020.04.12 |
캐글 경진대회 유형 (0) | 2020.04.05 |
딥러닝 라이브러리 목록 (0) | 2020.04.05 |
[머신러닝 이론] 차원 축소(PCA) (0) | 2020.03.10 |