머신러닝 파이프라인 :: For a better world

머신러닝 파이프라인

2020. 4. 5. 15:53

1. 데이터 이해(탐색적 데이터 분석 EDA)

데이터를 다운로드 받고, 직접 데이터 탐색
데이터에 대한 기초 통계를 뽑아보고, 막대그래프와 같은 단일 변수 시각화, 산점도와 같은 변수 간 관계를 시각화

2. 평가 척도 이해

경진대회의 평가 척도 확인(= 문제 출제 의도 확인)
어떤 예측값이 페널티를 크게 받고, 어떤 예측값이 페널티를 덜 받는지 이해

3. 교차 검증 기법 선정

경진대회서 안정적인 성적을 위해선 신뢰할 수 있는 교차 검증 기법 구축이 중요. 주어진 데이터와 문제에 맞는 교차 검증 기법이 무엇인가 고민
훈련/검증 데이터 분리 비율은 데이터가 매우 클 경우 5:5, 데이터가 적을 경우 9:1임 (일반적으로 5:5 ~ 9:1)
데이터 분리에는 재현성을 위해 random_seed(random_state) 값을 지정.
데이터 분리에는 임의 분리, 계층별 분리가 존재함(정답 레이블 비율 유지 여부 차이)
시계열 데이터일 경우 항상 훈련 데이터를 검증 데이터보다 과거로 설정

4. 피처 엔지니어링

변수값 스케일링, 이상값 제거, 결측값 대체, 범주형 데이터 변환, 변수 선정, 파생 변수 생성 등 주어진 데이터를 머신러닝 모델이 학습하기 쉽게 만듦
- 피처 엔지니어링은 Tabular 데이터 기반 경진대회의 랭킹을 가르는 가장 중요한 요인이며, 딥러닝 기반 경진대회에서는 모델 엔지니이어링이 핵심. (Tabluar Data는 테이블 기반의 데이터를 의미)

5. 모델 튜닝

머신러닝 모델의 최적 파라미터를 찾는다. 신뢰할 수 있는 교차 검증 기법이 구축되면, 교차 검증 점수가 좋은 파라미터가 최적의 파라미터이다.
중간 결과를 항상 저장해야 함

6. 앙상블

서로 다른 유형의 모델을 앙상블 하는 것이 가장 좋은 앙상블 효과를 보임
다수 계층의 모델을 학습하는 스태킹 기법도 캐글 경진대회에서 자주 사용되는 앙상블 기법임

Reference

[1] http://www.yes24.com/Product/Goods/63830327

저작자표시 (새창열림)

'Artificial Intelligence > 머신러닝-딥러닝' 카테고리의 다른 글

[머신러닝 이론] 서포트 벡터 머신(Support Vector Machine) (0)	2020.04.12
[딥러닝 이론] 최적화 문제 (0)	2020.04.12
캐글 경진대회 유형 (0)	2020.04.05
딥러닝 라이브러리 목록 (0)	2020.04.05
[머신러닝 이론] 차원 축소(PCA) (0)	2020.03.10

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바