마르코프 체인 정의

마르코프 체인(Markov Chain)은 마르코프 성질을 지닌 이산확률과정이다. 마르코프 성질이란 $n+1$회의 상태(state)는 $n$회의 상태나 그 이전 $n-1, n-2, \dots$의 상태에 의해 결정되는 것이다. 달리 말해 과거 상태가 현재/미래 상태에 영향을 미치는 성질이다. 이산확률과정이란 시간의 진행에 대해 확률적인 변화를 가지는 구조를 의미한다. 이 마르코프 체인은 때때로 단순하지만 강력한 효과를 발휘하기에 사용한다. 실제로 예측을 위해선 많은 변수과 모델링을 거쳐야 하지만 마르코프 체인은 이런 비용을 줄여주기 때문이다.

 

마르코프 체인 예시

마르코프 성질 여부에 대한 흔한 예시로는 동전 앞뒤 예측과 날씨예측이 있다. 동전 앞뒤를 예측하는 것은 독립시행이기 때문에 n번째 상태가 n+1번째 상태에 영향을 주지 않으므로 마르코프 성질이 없다. 반면 날씨 예측과 같이 직관적으로 오늘 날씨에 의해 내일 날씨가 결정될 수 있으므로 마르코프 성질이 있다고 할 수 있다. 만약 오늘을 기반으로 하루 뒤를 예측한다면 1차 마코프 모델이라하고 이틀 뒤를 예측한다면 2차 마코프 모델이라 한다. 

 

 

마르코프 체인 활용

마르코프 체인은 주로 결합확률분포(Joint Probability Distribution)에 사용된다. 예를 들어 확률 변수 $X_1, X_2, \dots, X_n$이 있다고 가정하면 일반적으로 이 확률변수들의 결합확률분포는 다음과 같이 계산할 수 있다.

 

$P(X_1, X_2, \dots, X_n) = P(X_1) \times P(X_2|X_1) \times P(X_3|X_2,X_1) \times \dots \times P(X_n|X_{n-1}, X_{n-2}, \dots, X_1)$

 

하지만 마르코프 성질을 이용하면 위 보다 더 단순한 계산을 통해 결합확률분포를 구할 수 있다.

만약 어떠한 상태의 시점이 $t$고, 확률분포가 마르코프 성질을 따른다면 

 

$P(X_{t+1}|X_t, X_{t-1}, \dots, X_2, X_1) = P(X_{t+1}|X_t)$

 

로 단순화 할 수 있고 일반화를 적용하면 이전에 결합확률분포의 계산을 다음과 같이 단순화 가능하다.

 

$P(X_1, X_2, \dots, X_n) = P(X_1) \times P(X_2|X_1) \times P(X_3|X_2) \times P(X_4|X_3) \times \dots \times P(X_n|X_{n-1})$

 

이러한 마르코프 체인은 주로 베이지안 통계학이나 강화학습에 사용되며, MCMC(Markov Chain Monte Carlo)와도 연결되어 사용된다.

 

마르코프 모델

마르코프 모델이란 마르코프 체인을 기반으로 만든 확률 모델이다. 아래 날씨 예제를 통해 내일 날씨를 예측하는 마르코프 모델을 만들어보자.  마르코프 모델을 만들기 위해선 가장 먼저 각 상태를 정의해야 한다. 그리고 이 상태는 상태 전이 확률로 나타낸다. 상태 전이 확률이란 어떤 상태에서 다른 상태로 이동할 확률을 의미한다. 상태 전이 확률을 행렬로 표현한 것을 전이 행렬(Transition Matrix)라고 한다.

 

전이 행렬(Transition Matrix)

 

이 전이 행렬을 해석하자면 만약 오늘 날씨가 Sunny라면 내일 Suuny일 확률이 0.7, Rainy일 확률이 0.2, Cloudy일 확률이 0.1이라 예측한다. 이를 기반으로 오늘이 어떤 특정 날씨일 때 내일이 어떤 특정 날씨일 확률을 구하기 위해서는 위 전이 행렬이 $T$라고할 때 $T \times T$처럼 곱해주면 된다. 만약 오늘 날씨를 기반으로 이틀 뒤 날씨를 예측하고 싶다면 $T \times T \times T$를 계산하면 된다. 이렇게 반복적으로 전이행렬을 곱해줌으로써 일련의 예측을 함께 연결한다면 이를 마르코프 체인이라 한다.

 

참고로 전이 행렬을 거듭 곱하다보면 더 이상 전이 행렬의 값이 변하지 않고 수렴하는 상태가 오는데 이를 안정 상태(Steady State)라고 한다. 즉 행렬 $T$는 거듭곱해 어떤 행렬 $M$이 되지만 수렴한 뒤에는 $MT = T$가 된다. 또 전이 행렬은 도식화 가능하다. 이 도식화한 것을 상태 전이도(State Transition Diagram)라고 하며 아래와 같다.

 

상태 전이도 (State Transition Diagram)

 

전이 행렬 또는 상태 전이도를 기반으로 마르코프 모델을 만들어 날씨 예측을 할 수 있다. 아래는 10일간 날씨 예측을 할 수 있는 간단한 파이썬 스크립트다.

 

import numpy as np

transition_matrix = np.atleast_2d([[0.7, 0.2, 0.1],
                                   [0.1, 0.6, 0.3],
                                   [0.2, 0.5, 0.3]])

possible_states = ["sunny", "rainy", "cloudy"]
start_state = "sunny"
num = 10
index_dict = {}
future_state = []

for index in range(len(possible_states)): # {'sunny': 0, 'rainy': 1, 'cloudy': 2}
    index_dict[possible_states[index]] = index

for _ in range(num):
    new_state = np.random.choice(possible_states, p=transition_matrix[index_dict[start_state], :])
    future_state.append(new_state)

print (future_state) 
"""
> ['rainy', 'sunny', 'rainy', 'sunny', 'sunny', 'rainy', 'cloudy', 'sunny', 'sunny', 'sunny']
It will be different whenever you run it. because I used np.random.choice
"""

 

 

용어 정리

마르코프 체인(Markov Chain): 상태 전이 확률을 기반으로 일련의 예측을 연결한 것

마르코프 성질(Markov Property): $n+1$ state는 $n$ state에 의해 결정되는 것처럼 상태들 간의 인과성이 있는 성질

이산확률 과정(Discrete Stochastic Process): 시간 흐름에 따라 확률적인 변화를 가지는 구조. 특히 시간 흐름이 이산적일때를 의미

연속확률 과정(Continous Stochastic Process): 시간 흐름에 따라 확률적인 변화를 가지는 구조. 특히 시간 흐름이 연속적일 때를 의미

마르코프 모델(Markov Model): 미래 상태에 대한 확률 값이 과거에만 종속된 모델

상태 전이 확률(State Transition Probability): 어떤 상태에서 다른 상태로 이동할 확률

전이 행렬(Transition Matrix): 전이 확률을 행렬 형태로 나타낸 것

상태 전이도(State Transition Diagram): 상태 전이 확률을 정리하여 만든 도식

안정 상태(Steady State): 전이 행렬을 거듭 곱해도 더 이상 변하지 않는 상태

정적분포(Stationary Distribution): 전이 행렬이 안정 상태일 때 갖는 확률분포

상태 공간(State Space): $0, 1, 2, \dots, n-1, n$ 시점에서의 확률과정의 상태들의 집합

 

Reference

[1] Markov Chains

[2] Markov Chain Text Generation – Part 1 (KEN GRAHAM)

[3] 마르코프 체인 (Markov Chain) 정의 및 예시 (Data to Impact)

 

1. SELECT

Lv1. 강원도에 위치한 생산공장 목록 출력하기

SELECT FACTORY_ID, FACTORY_NAME, ADDRESS 
FROM FOOD_FACTORY
WHERE ADDRESS like "%강원도%"
ORDER BY FACTORY_ID ASC

Lv1. 동물의 아이디와 이름

SELECT ANIMAL_ID, NAME
FROM ANIMAL_INS
ORDER BY ANIMAL_ID ASC

Lv1. 모든 레코드 조회하기

SELECT  *
FROM ANIMAL_INS
ORDER BY ANIMAL_ID ASC

Lv1. 상위 n개 레코드

SELECT NAME from ANIMAL_INS order by DATETIME asc limit 5

Lv1. 아픈 동물 찾기

SELECT ANIMAL_ID, NAME
FROM ANIMAL_INS
WHERE INTAKE_CONDITION = 'Sick'
ORDER BY ANIMAL_ID ASC

Lv1. 어린 동물 찾기

SELECT ANIMAL_ID, NAME
FROM ANIMAL_INS 
WHERE INTAKE_CONDITION != 'Aged'
ORDER BY ANIMAL_ID ASC

Lv1. 여러 기준으로 정렬하기

SELECT ANIMAL_ID, NAME, DATETIME 
FROM ANIMAL_INS 
ORDER BY NAME ASC, DATETIME DESC

Lv1. 역순 정렬하기

SELECT NAME, DATETIME
FROM ANIMAL_INS
ORDER BY ANIMAL_ID DESC

Lv1. 조건에 맞는 회원수 구하기

SELECT COUNT(*)
    FROM USER_INFO 
    WHERE DATE_FORMAT(JOINED, '%Y') = '2021'
    AND (AGE >=20 and AGE<=29)

Lv2. 3월에 태어난 여성 회원 목록 출력하기

# SELECT MEMBER_ID, MEMBER_NAME, GENDER, DATE_FORMAT(DATE_OF_BIRTH, "%Y-%m-%d") as DATE_OF_BIRTH
# FROM MEMBER_PROFILE
# WHERE TLNO is not NULL and DATE_FORMAT(DATE_OF_BIRTH, '%m') = '03' and GENDER='W'
# ORDER BY MEMBER_ID ASC

SELECT MEMBER_ID, MEMBER_NAME, GENDER, DATE_FORMAT(DATE_OF_BIRTH, "%Y-%m-%d") as DATE_OF_BIRTH
FROM MEMBER_PROFILE
WHERE MONTH(DATE_OF_BIRTH) = 3
    AND TLNO IS NOT NULL
    AND GENDER = 'W'
ORDER BY MEMBER_ID ASC

Lv2. 재구매가 일어난 상품과 회원 리스트 구하기

SELECT USER_ID, PRODUCT_ID
FROM ONLINE_SALE
GROUP BY USER_ID, PRODUCT_ID
    HAVING COUNT(*) >= 2
ORDER BY USER_ID ASC, PRODUCT_ID DESC

Lv4. 년, 월, 성별 별 상품 구매 회원 수 구하기

-- MySQL
SELECT YEAR(S.SALES_DATE) as YEAR, MONTH(S.SALES_DATE) as MONTH, I.GENDER as GENDER, count(DISTINCT(S.USER_ID)) as USERS
FROM USER_INFO as I RIGHT JOIN ONLINE_SALE as S ON (I.USER_ID = S.USER_ID)
WHERE I.GENDER IS NOT NULL
GROUP BY YEAR, MONTH, GENDER
ORDER BY YEAR, MONTH, GENDER ASC

Lv4. 서울에 위치한 식당 목록 출력하기

-- MySQL
SELECT I.REST_ID, I.REST_NAME, I.FOOD_TYPE, I.FAVORITES, I.ADDRESS, ROUND(AVG(R.REVIEW_SCORE), 2) as SCORE
FROM REST_INFO as I JOIN REST_REVIEW as R ON (I.REST_ID = R.REST_ID)
GROUP BY I.REST_ID
    HAVING I.ADDRESS LIKE '서울%'
ORDER BY SCORE DESC, I.FAVORITES DESC

Lv4. 오프라인,온라인 판매 데이터 통합하기

SELECT *
FROM (
        SELECT TO_CHAR(SALES_DATE, 'YYYY-MM-DD') as SALES_DATE, PRODUCT_ID, USER_ID, SALES_AMOUNT
        FROM ONLINE_SALE
        WHERE TO_CHAR(SALES_DATE, 'YYYY-MM') = '2022-03'
    UNION ALL
        SELECT TO_CHAR(SALES_DATE, 'YYYY-MM-dd') as SALES_DATE, PRODUCT_ID, NULL AS USER_ID, SALES_AMOUNT
        FROM OFFLINE_SALE
        WHERE TO_CHAR(SALES_DATE, 'YYYY-MM') = '2022-03'
    )
ORDER BY SALES_DATE ASC, PRODUCT_ID ASC, USER_ID ASC

 

2. SUM, MAX, MIN

Lv1. 가장 비싼 상품 구하기

SELECT MAX(PRICE) as MAX_PRICE
FROM PRODUCT

Lv1. 최댓값 구하기

SELECT max(DATETIME)
FROM ANIMAL_INS

Lv2. 가격이 제일 비싼 식품의 정보 출력하기

-- 서브쿼리 이용해서 풀 것. 참고로 = 아닌 IN도 가능
SELECT PRODUCT_ID, PRODUCT_NAME, PRODUCT_CD, CATEGORY, PRICE
FROM FOOD_PRODUCT
WHERE PRICE = (SELECT MAX(PRICE) FROM FOOD_PRODUCT)

Lv2. 동물 수 구하기

SELECT count(ANIMAL_ID)
FROM ANIMAL_INS

Lv2. 중복 제거하기

SELECT count(unique(NAME))
FROM ANIMAL_INS
WHERE NAME is not NULL

Lv2. 최솟값 구하기

SELECT MIN(DATETIME)
FROM ANIMAL_INS

 

3. GROUP BY

Lv2. 가격대 별 상품 개수 구하기

SELECT TRUNC(price / 10000)*10000 as PRICE_GROUP, count(TRUNC(price / 10000)) as PRODUCTS
FROM PRODUCT
GROUP BY TRUNC(price / 10000)
ORDER BY TRUNC(price / 10000) ASC

Lv2. 고양이와 개는 몇 마리 있을까

SELECT ANIMAL_TYPE, count(ANIMAL_TYPE)
FROM ANIMAL_INS
GROUP BY ANIMAL_TYPE
order by ANIMAL_TYPE ASC

Lv2. 동명 동물 수 찾기

SELECT NAME, count(NAME) as COUNT
FROM ANIMAL_INS
WHERE NAME IS NOT NULL
GROUP BY NAME
    HAVING count(*) >=2
ORDER BY NAME ASC

Lv2. 입양 시각 구하기(1)

-- SELECT TO_CHAR(DATETIME, 'HH24') as HOUR, count(TO_CHAR(DATETIME, 'HH24')) as COUNT
-- FROM ANIMAL_OUTS
-- WHERE TO_CHAR(DATETIME, 'HH24') BETWEEN '09' and '19'
-- GROUP BY TO_CHAR(DATETIME, 'HH24')
-- ORDER BY HOUR ASC

SELECT TO_CHAR(DATETIME, 'HH24') HOUR, COUNT(TO_CHAR(DATETIME, 'HH24')) COUNT
FROM ANIMAL_OUTS
GROUP BY TO_CHAR(DATETIME, 'HH24')
HAVING TO_CHAR(DATETIME, 'HH24') >= 9 and TO_CHAR(DATETIME, 'HH24') <= 19
ORDER BY TO_CHAR(DATETIME, 'HH24') ASC

Lv3. 즐겨찾기가 가장 많은 식당 정보 출력하기

SELECT FOOD_TYPE, REST_ID, REST_NAME, FAVORITES
FROM REST_INFO
WHERE (FOOD_TYPE, FAVORITES) in (SELECT FOOD_TYPE, MAX(FAVORITES)
                                FROM REST_INFO
                                GROUP BY FOOD_TYPE)
ORDER BY FOOD_TYPE DESC

Lv4. 입양 시각 구하기(2)

-- MySQL
SET @HOUR:= -1;
SELECT (@HOUR:= @HOUR+1) as HOUR, (SELECT COUNT(*) FROM ANIMAL_OUTS WHERE HOUR(DATETIME) = @HOUR) as COUNT
FROM ANIMAL_OUTS
WHERE @HOUR < 23

-- Oracle
SELECT HOUR, COUNT(B.DATETIME) COUNT FROM (SELECT LEVEL-1 HOUR 
                  FROM DUAL 
                  CONNECT BY LEVEL<=24) 
                  A LEFT JOIN ANIMAL_OUTS B ON A.HOUR = TO_CHAR(B.DATETIME, 'HH24')
GROUP BY HOUR
ORDER BY HOUR ASC

 

4. IS NULL

Lv1. 경기도에 위치한 식품창고 목록 출력하기

-- SELECT WAREHOUSE_ID, WAREHOUSE_NAME, ADDRESS, NVL(FREEZER_YN, 'N') as FREEZER_YN
-- FROM FOOD_WAREHOUSE
-- WHERE ADDRESS like '경기도%'
-- ORDER BY WAREHOUSE_ID ASC

-- SELECT WAREHOUSE_ID, WAREHOUSE_NAME, ADDRESS, CASE WHEN FREEZER_YN IS NULL THEN 'N' ELSE FREEZER_YN END
-- FROM FOOD_WAREHOUSE
-- WHERE ADDRESS like '경기도%'
-- ORDER BY WAREHOUSE_ID ASC

SELECT WAREHOUSE_ID, WAREHOUSE_NAME, ADDRESS, DECODE(FREEZER_YN, null, 'N', FREEZER_YN) as FREEZER_YN
FROM FOOD_WAREHOUSE
WHERE ADDRESS like '경기도%'
ORDER BY WAREHOUSE_ID ASC

Lv1. 나이 정보가 없는 회원 수 구하기

SELECT count(USER_ID) as USERS
FROM USER_INFO
WHERE AGE IS NULL

Lv1. 이름이 없는 동물의 아이디

SELECT ANIMAL_ID
FROM ANIMAL_INS
WHERE NAME IS NULL
ORDER BY ANIMAL_ID ASC

Lv1. 이름이 있는 동물의 아이디

SELECT ANIMAL_ID
FROM ANIMAL_INS
WHERE NAME IS NOT NULL
ORDER BY ANIMAL_ID ASC

Lv2. NULL 처리하기

-- SELECT ANIMAL_TYPE, NVL(NAME, 'No name') as NAME, SEX_UPON_INTAKE
-- FROM ANIMAL_INS
-- ORDER BY ANIMAL_ID ASC

-- SELECT ANIMAL_TYPE, DECODE(NAME, null, 'No name', NAME) as NAME, SEX_UPON_INTAKE
-- FROM ANIMAL_INS
-- ORDER BY ANIMAL_ID ASC

SELECT ANIMAL_TYPE, CASE WHEN NAME IS NULL THEN 'No name' ELSE NAME END as NAME, SEX_UPON_INTAKE
FROM ANIMAL_INS
ORDER BY ANIMAL_ID ASC

 

5. JOIN

Lv2. 상품 별 오프라인 매출 구하기

SELECT PRODUCT_CODE, (PRICE * sum(S.SALES_AMOUNT)) AS SALES
FROM PRODUCT as P RIGHT JOIN OFFLINE_SALE as S ON P.PRODUCT_ID = S.PRODUCT_ID
GROUP BY S.PRODUCT_ID
ORDER BY SALES DESC, PRODUCT_CODE ASC

Lv3. 보호소에서 중성화한 동물

-- MYSQL
SELECT I.ANIMAL_ID, I.ANIMAL_TYPE, I.NAME
FROM ANIMAL_INS AS I INNER JOIN ANIMAL_OUTS AS O on I.ANIMAL_ID = O.ANIMAL_ID
WHERE I.SEX_UPON_INTAKE like '%Intact%' and O.SEX_UPON_OUTCOME not like '%Intact%'

Lv3. 없어진 기록 찾기

-- Oracle
SELECT O.ANIMAL_ID, O.NAME
FROM ANIMAL_OUTS O
WHERE O.ANIMAL_ID NOT IN (SELECT ANIMAL_ID FROM ANIMAL_INS)
ORDER BY O.ANIMAL_ID, O.NAME ASC

-- Oracle 2
SELECT O.ANIMAL_ID, O.NAME 
FROM ANIMAL_OUTS O
WHERE NOT EXISTS (SELECT * FROM ANIMAL_INS I WHERE O.ANIMAL_ID = I.ANIMAL_ID)
ORDER BY ANIMAL_ID

-- MySQL 1
SELECT O.ANIMAL_ID, O.NAME
FROM ANIMAL_OUTS AS O LEFT JOIN ANIMAL_INS AS I ON O.ANIMAL_ID = I.ANIMAL_ID
WHERE I.ANIMAL_ID IS NULL;

Lv3. 오랜 기간 보호한 동물(1)

-- MySQL 
SELECT NAME, DATETIME
FROM ANIMAL_INS
WHERE ANIMAL_ID NOT IN (SELECT ANIMAL_ID FROM ANIMAL_OUTS)
ORDER BY DATETIME ASC
LIMIT 0, 3

-- ORACLE
SELECT A.NAME, A.DATETIME
FROM (
    SELECT I.NAME, I.DATETIME
    FROM ANIMAL_INS I LEFT OUTER JOIN ANIMAL_OUTS O ON (I.ANIMAL_ID = O.ANIMAL_ID)
    WHERE O.ANIMAL_ID IS NULL
    ORDER BY I.DATETIME ASC
) A
WHERE ROWNUM <= 3

Lv3. 있었는데요 없었습니다

-- ORACLE
SELECT I.ANIMAL_ID, I.NAME
FROM ANIMAL_INS I LEFT JOIN ANIMAL_OUTS O ON I.ANIMAL_ID = O.ANIMAL_ID
WHERE I.DATETIME > O.DATETIME
GROUP BY I.ANIMAL_ID, I.NAME, I.DATETIME
ORDER BY I.DATETIME ASC

Lv4. 5월 식품들의 총매출 조회하기

SELECT P.PRODUCT_ID, P.PRODUCT_NAME, P.PRICE * sum(O.AMOUNT) as TOTAL_SALES
FROM FOOD_PRODUCT as P RIGHT JOIN FOOD_ORDER as O ON (P.PRODUCT_ID = O.PRODUCT_ID)
WHERE YEAR(PRODUCE_DATE) = 2022 and MONTH(PRODUCE_DATE) = 05 and P.PRODUCT_ID IS NOT NULL
GROUP BY P.PRODUCT_ID
ORDER BY TOTAL_SALES DESC, PRODUCT_ID ASC

Lv4. 그룹별 조건에 맞는 식당 목록출력하기

-- ORACLE
SELECT P.MEMBER_NAME AS MEMBER_NAME, R.REVIEW_TEXT AS REVIEW_TEXT, TO_CHAR(R.REVIEW_DATE, 'YYYY-MM-DD') AS REVIEW_DATE
FROM MEMBER_PROFILE P INNER JOIN REST_REVIEW R ON P.MEMBER_ID = R.MEMBER_ID
WHERE R.MEMBER_ID IN (SELECT MEMBER_ID -- 리뷰 쓴 개수가 COUNT(*)인 경우에 대해 GROUP BY후 사람들 ID 출력
                       FROM REST_REVIEW
                       GROUP BY MEMBER_ID -- 사람들이 리뷰 쓴 개수가 COUNT(*)인 경우에 대해 GROUP BY. 
                       HAVING COUNT(*) = (SELECT MAX(COUNT(*)) -- 최대 리뷰 쓴 사람들의 개수를 구함
                                          FROM REST_REVIEW
                                          GROUP BY MEMBER_ID)
                        )
ORDER BY R.REVIEW_DATE

Lv5. 상품을 구매한 회원 비율 구하기

-- MySQL
SELECT YEAR(SALES_DATE) as YEAR, MONTH(SALES_DATE) as MONTH, count(DISTINCT(I.USER_ID)) as PUCHASED_USERS, ROUND(count(DISTINCT(I.USER_ID)) / (SELECT count(DISTINCT(USER_ID)) FROM USER_INFO WHERE YEAR(JOINED) = 2021),1) as PUCHASED_RATIO
FROM USER_INFO AS I RIGHT JOIN ONLINE_SALE as S ON (I.USER_ID = S.USER_ID)
WHERE I.USER_ID in (SELECT USER_ID FROM USER_INFO WHERE YEAR(JOINED) = 2021)
GROUP BY YEAR(SALES_DATE), MONTH(SALES_DATE)
ORDER BY YEAR, MONTH ASC

 

6. String, Date

Lv2. 오랜 기간 보호한 동물(2)

SELECT A.ANIMAL_ID, A.NAME
FROM ANIMAL_INS A, ANIMAL_OUTS B
WHERE A.ANIMAL_ID = B.ANIMAL_ID
ORDER BY DATEDIFF(A.DATETIME, B.DATETIME) limit 0, 2

Lv2. 이름에 el이 없는 동물 찾기

-- MySQL 1
SELECT ANIMAL_ID, NAME
FROM ANIMAL_INS
WHERE ANIMAL_TYPE = 'Dog' and (NAME like '%el%' or NAME like '%EL')
ORDER BY NAME ASC

-- MySQL 2
SELECT ANIMAL_ID, NAME
FROM ANIMAL_INS
WHERE ANIMAL_TYPE = 'Dog' AND UPPER(NAME) LIKE '%EL%'
ORDER BY UPPER(NAME) ASC

Lv2. 중성화 여부 파악하기

SELECT ANIMAL_ID, NAME, CASE WHEN SEX_UPON_INTAKE like '%Neutered%' or SEX_UPON_INTAKE like '%Spayed%' THEN 'O' ELSE 'X' END as 중성화
FROM ANIMAL_INS
ORDER BY ANIMAL_ID

Lv2. 카테고리 별 상품 개수 구하기

SELECT SUBSTRING(PRODUCT_CODE, 1, 2) as CATEGORY, count(SUBSTRING(PRODUCT_CODE, 1, 2)) as PRODUCTS
FROM PRODUCT
GROUP BY SUBSTRING(PRODUCT_CODE, 1, 2)

Lv2. DATETIME에서 DATE로 형 변환

-- ORACLE
SELECT ANIMAL_ID, NAME, TO_CHAR(DATETIME, 'YYYY-MM-DD') as 날짜
FROM ANIMAL_INS
ORDER BY ANIMAL_ID ASC

-- MYSQL
SELECT ANIMAL_ID, NAME, DATE_FORMAT(DATETIME, '%Y-%m-%d') AS 날짜
FROM ANIMAL_INS
ORDER BY ANIMAL_ID ASC

Lv3. 조건별로 분류하여 주문상태 출력하기

SELECT ORDER_ID, PRODUCT_ID, DATE_FORMAT(OUT_DATE, '%Y-%m-%d'), 
IF (OUT_DATE <= '2022-05-01', '출고완료', IF(OUT_DATE IS NULL, '출고미정', '출고대기')) as 출고여부
FROM FOOD_ORDER
ORDER BY ORDER_ID ASC

데이터 사이언스 직군으로 면접보며 받았던 질문에 대해 정리 (Last Update: 2022.11.29)
 

1. Deep Learning

Q1. ReLU의 단점을 설명하라.
ReLU의 경우 Sigmoid의 단점인 gradient vanishing 문제를 극복하기 위해 사용한 활성화 함수입니다.  ReLU의 장점은 입력값을 그대로 출력하기 때문에 구현이 쉽고 빠른 학습이 가능합니다. 반면 단점은 Dead ReLU 현상으로 만약 입력값이 음의 값이 들어온다면 이를 처리하지 못하는 것입니다. 이와 같이 음의 값을 처리하지 못하는 단점을 보완하기 위해 LeakyReLU와 같은 활성화함수를 사용합니다.
 
Q2. 모델의 일반화 성능을 위해 사용할 수 있는 방법을 설명하라.
모델 일반화 성능 향상을 위해 크게 3가지 관점으로 접근할 수 있습니다. 첫 번째는 데이터 관점, 두 번째는 모델 관점, 세 번째는 하이퍼파라미터 관점입니다. 첫 번째 데이터 관점에서는 학습 데이터셋을 추가하거나 어그멘테이션을 통해 모델 성능을 향상시킬 수 있습니다. 또 학습 데이터셋에 전처리를 통해 더미값과 같은 데이터를 제거해줌으로써 모델 성능을 향상시킬 수 있습니다. 두 번째 모델 관점에서는 트랜스포머 모델을 사용해 RNN 계열 모델의 단점인 long-term dependency와 비병렬성을 극복한 것처럼 더 좋은 모델 아키텍처를 사용하는 방법이 있습니다. 이를 위해 NAS(Neural Architecture Search)와 같은 알고리즘을 사용할 수 있습니다. 또 모델에 오버피팅을 줄이기 위해 BREDLAN이라고하여 Batch Normalization, Regularization, Early Stopping, Dropout, Label Smoothing, Augmentation, Noise Robustness를 적용할 수 있습니다. 마지막 하이퍼파라미터 관점에서는 Random Search나 Grid Search, HyperBand, Keras Tuner등을 통해 손실함수, 학습률, 활성화함수, Optimizer 등의 하이퍼파라미터의 최적값을 찾음으로써 모델의 성능을 향상시키고 일반화할 수 있습니다.
 
Q3. Word2vec 모델에 대해 설명하라.
word2vec 모델은 이름 그대로 단어를 벡터공간에 표상시키는 방법입니다. word2vec의 핵심 아이디어는 비슷한 맥락에서 나오는 단어는 유사한 의미를 가진다는 것입니다. 예를 들어 왕과 여왕은 비슷한 맥락에서 나올 확률이 높고 실제로 word2vec을 통해 해당 단어에 대한 벡터를 추출할 경우 그 벡터간 유사도가 높게 나옵니다. 이를 가능하게 하는 word2vec의 아키텍처는 크게 두 개의 모델로 구성됩니다. 첫 번째는 CBOW이고 두 번째는 Skip-gram입니다. CBOW는 주어진 주변 단어를 통해 중심 단어를 예측하는 방식이며 이를 위해 주변 단어인 컨텍스트의 평균화하는 방법을 사용합니다. 반대로 Skip-gram은 주어진 중심 단어로부터 주변에 등장할 수 있는 단어를 예측하는 방식입니다. 이 두 방식은 향후 BERT와 GPT 모델의 임베딩 방법의 기초를 형성하는 근간이 되었습니다. Word2vec을 학습하게 되면 벡터간 의미적 유사성을 포착할 수 있고 벡터 산술 연산이 가능합니다. 예를 들어 왕 - 남성 + 여성 = 여왕과 같은 연산이 가능해집니다.

 
Q4. CNN의 장점과 단점을 설명하라.
CNN의 장점은 DNN의 단점을 극복한 것입니다. DNN을 통해 3차원인 이미지를 학습한다면 많은 수의 파라미터가 필요하고 오버피팅이 일어나기 쉽습니다. 반면 CNN을 사용하면 DNN에 비해 파라미터 수를 감소시켜 학습이 가능합니다. 또 DNN과 달리 CNN은 이미지의 공간적 형태를 보존합니다. DNN은 이미지의 픽셀간 관계를 고려하지 않고 1차원으로 flatten시키지만 CNN은 픽셀간 관계를 고려할 수 있습니다. CNN의 단점은 풀링 과정에서 정보손실이 발생하는 것입니다. 풀링 과정을 거치면서 정보가 요약됩니다. 이 때 각각의 local feature의 상대적인 위치 정보를 잃을 수 있습니다.
 
Q4-1 CNN의 동작원리에 대해 설명하세요.
CNN은 주로 이미지 처리와 컴퓨터 비전에 사용되는 신경망 모델입니다. CNN의 구조는 convolutin layer, pooling layer, fully-connected layer로 구성됩니다. 컨볼루션 레이어의 경우 입력 이미지에 대해 필터가 슬라이딩하며 합성곱 연산을 수행하여 이미지의 특성을 담긴 피처 맵을 생성합니다. 생성된 피처 맵은 풀링 레이어의 입력으로 들어가며 풀링 레이어는 피처 맵에 대해 주로 맥스풀링 연산을 통해 피처 맵을 다운샘플링함으로써 중요한 피처를 선택하고 연산량을 줄이는 역할을 합니다. 이후 완전 연결 계층의 입력으로 넣기 위해 flatten 시키고 완전 연결 계층의 출력값에 소프트맥스 함수를 적용해 최종적으로 클래스의 확률 값을 예측하는 방식으로 동작합니다.

 
Q5. RNN의 장점과 단점을 설명하라.
RNN은 시퀀셜 데이터를 처리하기 위해 사용하는 신경망의 한 종류입니다. RNN의 장점은 정의 자체로서 시퀀셜 데이터를 처리할 수 있다는 데 있습니다. 반면 단점은 long-term dependency 문제가 있고 RNN 구조상 병렬처리가 불가능합니다. 이러한 RNN 계열의 단점을 극복하기 위해 Transformer가 고안되었습니다. Transformer는 attention 메커니즘을 사용해 RNN 계열의 단점인 long-term dependency 문제와 비병렬성 문제를 해결했습니다.
 
Q5-1. RNN의 동작원리를 설명해라. (예상)

RNN은 크게 Input layer, hidden layer, output layer로 구성되어 있습니다. RNN의 가장 큰 특징은 은닉층이 이전 데이터를 참조하도록 연결되어 있다는 것입니다. 즉 만약 t시점에서 입력 데이터가 들어왔다면 t시점에서 출력하는 것 뿐만 아니라 t+1 시점의 출력에도 영향을 미칩니다. 따라서 시퀀셜한 데이터 처리에 적합하다는 장점이 있습니다. 반면 단점은 long-term dependency 문제가 발생합니다. 가령 오래된 시점에서 입력된 데이터의 영향이 뒤로 갈수록 적어지는 것을 의미합니다. 이러한 문제점을 해결하기 위해서는 LSTM에서 cell state란 개념을 도입해 이를 해결했습니다. 
 
Q5-2. long-term dependency 문제가 발생하는 이유는 무엇인가요?
핵심은 기울기 폭발과 기울기 소실 문제 때문입니다. RNN은 활성화함수로 tanh를 사용합니다. tanh는 -1과 1사이의 값을 가집니다. 이 때 1보다 작은 값이 반복해서 곱해지기 때문에 feed-forward 관점에선 앞의 정보를 충분한 세기로 전달할 수 없고 back-propagation 관점에서는 tanh 함수의 기울기가 0에 가깝거나 큰 값이 발생할 수 있어 기울기 폭발과 소실 문제가 발생합니다. 참고로 이 때문에 LSTM에서는 기존 RNN 구조에 cell state라는 변수를 추가함으로써 long-term dependency 문제를 해결합니다.
 
Q5-3. LSTM의 동작원리를 설명해라. (예상)

LSTM은 RNN 계열 모델로 RNN의 단점인 long-term dependency 문제를 해결하기 위해 만들어졌습니다. 이 장기의존성 문제를 해결하기 위핸 핵심 개념은 cell-state입니다. LSTM의 구조는 RNN과 유사하지만 내부적으로 게이트가 3개 있습니다. forget gate, input gate, output gate입니다. forget gate에서는 이전의 hidden state와 현재 시점의 Input을 받아 sigmoid 함수를 거쳐 0과 1사이의 값으로 출력합니다. 1이 출력되면 위 cell state의 값과 점곱을 통해 그대로 보내주고 0이 출력되면 cell state의 값이 0으로 초기화 됩니다. 만약 0~1 사이 값이 나오면 일부 정보는 지워진 채 cell state에 업데이트 됩니다. 이후 두 번째 Input gate에서는 sigmoid 함수와 tanh 함수가 있습니다. sigmoid 함수를 거쳐 나온 값과 tanh를 거쳐 나온 값을 점곱을 통해 cell state에 업데이트 해줍니다. 마지막으로 output gate에서는 hidden state 값과 현재 시점의 input값을 마찬가지로 sigmoid 함수를 거친 뒤 tanh함수와 점곱되어 출력됩니다. 그러면 최종적으로 다음 레이어로 넘어갈 cell state가 완성되는 형태입니다. 이러한 LSTM 구조를 사용할 경우 기존의 RNN에서 발생하는 long-term dependency 문제를 해결할 수 있습니다.
 
Q6. 트랜스포머 구조에 대해 설명하라.
트랜스포머 구조는 크게 인코더와 디코더로 구성이 되어 있습니다. 소스 시퀀스를 인코더에 넣고 압축한 다음 디코더를 통해 타겟 시퀀스를 생성하는 방식으로 동작합니다. 인코더에는 크게 3가지로 MultiHeadAttention 레이어, Poisitionwise FeedForward 레이어, skip connection이 포함된 Layer Normalization 레이어로 구성되어 있습니다. 반면 디코더도 동일하지만 추가적으로 Masked MultiHeadAttention 레이어가 포함되어 있습니다. 트랜스포머의 핵심은 self-attention 메커니즘을 사용한 Query, Key, Value 행렬의 Interaction이라 할 수 있습니다. $Softmax({QK^T \over \sqrt{d_K}})V$로 표현하며 동작 방식은 Query 행렬과 Key 행렬의 전치행렬을 곱해준 다음 smoothing을 위해 $\sqrt{d_K}$ 차원으로 나눠줍니다. 이후 softmax 함수를 취해준 다음 Value 행렬을 곱해주는 방식입니다.
 
Q7. Adam Optimizer 동작을 설명하라.
먼저 학습은 모델의 예측값과 정답값 사이의 오차를 최소화하는 방향인 Gradient를 구하고 이 방향에 맞춰 모델 전체 파라미터를 업데이트 하는 과정입니다. 이 오차를 최소화 하는 과정을 최적화라고하며 Optimizer는 이 최적화를 위해 사용합니다. 종류는 Stochastic Gradient Descent부터, Momentum, AdaGrad, RMSProp, AdaDelta, Adam, NAdam, Radam, AdamW, AdamP 등이 있습니다. 여기서 Adam이란 Adaptive Moment Estimation을 의미하는 것으로 수리통계학의 적률(모멘트)이란 개념에 기반합니다. (추가 작성 예정)
Adam은 RMSProp과 Momentum 방식을 합쳐 만든 알고리즘입니다. 기울기값의 지수평균과 기울기 제곱값의 지수평균을 활용해 step size를 조절합니다. Adam은 RMSProp과 Momentum 방식을 합쳐 만든 알고리즘입니다. RMSProp와 마찬가지로 기울기 제곱값의 지수 평균을 저장하고, Momentum과 마찬가지로 기울기를 계산했던 것의 지수 평균을 저장합니다.
 
Q8. GAN에 대해서 설명하라. 
GAN이란 크게 생성자(Generator)와 판별자(Discriminator)로 구성된 모델로 동시에 두 개의 모델을 훈련합니다. 생성자는 최대한 fake 이미지를 만들고 판별자는 최대한 fake 이미지를 탐지하도록 경쟁하는 구조입니다. GAN의 학습목표는 생성자가 생성한 이미지를 판별자가 맞출 확률이 1/2에 수렴하도록하여 진짜 이미지와 가짜 이미지를 구분할 수 없도록 하는 nash equilibrium을 찾는 것입니다. 
 
Q9. Auto Encoder에 대해 설명하라.
Auto Encoder는 크게 인코더와 디코더의 구조로 구성되어 있습니다. 인코더와 디코더의 중간에 있는 hidden layer는 Input layer보다 적은 수의 뉴런을 두는 bottleneck을 두어 차원을 줄여 압축하고 다시 디코더를 통해 압축된 데이터를 복원시키는 방식으로 동작합니다. 데이터를 압축하는 과정에서 추출한 의미있는 데이터를 보통 latent vector, z로 표현합니다. 즉 Auto Encoder는 학습을 통해 이 latent vector를 자동으로 추출해주는 모델이라 할 수 있습니다. 
 
Q11. ViT에 대해 설명하라.
ViT는 이미지를 16x16으로 나눠 트랜스포머에 아키텍처에 입력하는 모델입니다. CNN에서 사용하던 필터를 없애고 어텐션으로 대체했습니다. 이미지를 16x16 패치로 나누어 토큰화하여 트랜스포머 아키텍처에 입력합니다. 하지만 트랜스포머는 자연어처리를 위해 만들어진 아키텍처이기 때문에 CNN에 비해 *inductive bias가 부족했기에 기존 CNN을 사용하는 것보다 성능이 떨어졌습니다. 하지만 JFT-300M 데이터셋을 이용해 3억장의 이미지를 학습한 결과 CNN 보다 더 좋은 성능을 얻을 수 있었습니다. 
 
*inductive bias: 학습시 만나보지 못한 상황에 대해 정확히 예측하기 위해 사용하는 추가적인 가정. 

  • CNN은 지역성(Locality)이란 가정을 활용해 공간적(spatial)인 문제를 해결함
  • RNN은 순차성(Sequentiality)이란 가정을 활용해 시계열(time-series)인 문제를 해결함

 
Q12. Diffusion model에 대해 설명하라.
Diffusion model은 generative model 중 하나입니다. 컴퓨터 비전에서 사용됩니다. 데이터에 노이즈를 조금씩 추가해가면서 데이터를 완전한 노이즈로 만드는 forward process가 있고 이와 반대로 노이즈로부터 조금씩 복원해가면서 데이터를 만들어내는 reverse process가 있습니다. (추가 필요)
 
Q13. Batch Normalization에 대해 설명하라.
Batch Normalization은 activation function의 출력값을 정규화하는 방식입니다. 정규화를 위해 미니 배치마다 평균과 분산을 구해 표준정규분포를 따르도록 만들어주는 방식으로 동작합니다. 이러한 batch normalization이 필요한 이유는 입력 데이터마다 다양한 분포를 갖기 때문에 학습에 있어 모델의 일반화 성능을 가져오기 못하기 때문입니다. 만약 다양한 분포를 가진채로 학습하게 되면 gradient descent에 따른 업데이트 되는 weight에 영향력이 달라지기 때문입니다. 
 

2. Machine Learning

Q1. 앙상블 기법 종류와 특징에 대해 설명하라.
앙상블 기법은 크게 3가지로 보팅(Voting), 배깅(Bagging), 부스팅(Boosting)이 있습니다. 보팅은 여러 개의 분류기를 통해 최종 예측 결과를 결정합니다. 크게 하드 보팅과 소프트 보팅이 있습니다. 하드 보팅은 분류기의 예측 결과를 다수결 투표를 진행하는 것을 말하고 소프트 보팅은 분류기의 예측 결과의 확률값의 평균 또는 가중합 하는 것을 말합니다. 배깅도 보팅과 마찬가지로 여러 개의 분류기를 통해 나온 예측 결과값을 다수결 투표를 통해 결정하는 것을 말합니다. 차이점이 있다면 보팅은 서로 다른 분류기를 사용하고 배깅은 서로 같은 분류기를 사용해 다수결 투표를 진행하는 것입니다. 배깅의 대표적인 알고리즘은 랜덤 포레스트가 있습니다. 부스팅은 배깅과 비슷합니다. 다만 차이점이 있다면 배깅은 서로 같은 모델들이 독립적으로 학습하여 최종 예측 결과를 내지만 부스팅은 이전 모델의 결과를 기반으로 순차적으로 학습합니다. 가령 첫 번째 모델이 학습한 결과를 기반으로 두 번째 모델이 학습하고 두 번째 모델 결과를 기반으로 세 번째 모델이 학습하는 방식입니다. 이 때 학습 데이터의 샘플 가중치가 계속해서 조절되는 것이 특징입니다. 이러한 부스팅은 오답에 대해 높은 가중치가 부여될 수 있어 outlier에 취약하단 단점이 있습니다. 이러한 부스팅에는 XGBoost나, AdaBoost, GradientBoost과 같은 종류의 알고리즘이 있습니다.
 
Q2. 랜덤 포레스트에 대해 설명하라. (예상)
랜덤 포레스트는 앙상블 기법 종류 중 배깅 방식에 속하는 알고리즘입니다. 배깅 방식의 특징은 부트스트래핑을 통해 데이터를 랜덤 샘플링하는 과정이 있습니다. 랜덤 포레스트는 다수의 의사결정트리를 만들고 각각의 트리에서 랜덤 샘플링된 데이터를 학습한 다음 최종 예측 결과를 투표하는 방식으로 동작합니다. 또 랜덤 포레스트는 단일한 의사결정트리를 사용했을 때 오버피팅될 수 있다는 단점을 극복하기 위해 만들어진 것이기에 오버피팅을 감소시켜주고 비교적 일반화된 성능을 낼 수 있다는 장점이 있습니다.
 
Q3. XGBoost와 LightGBM에 대해 설명하라. (예상)
XGBoost와 LightGBM은 모두 앙상블 기법 종류 중 부스팅 방식에 해당하는 알고리즘입니다. 공통적으로 Gradient Boosting Machine에 기반한 방식입니다. XGBoost는 GBM의 3가지 단점을 개선했습니다. 첫 번째로 GBM은 병렬처리가 되지 않아 속도가 느렸다는 한계가 있었고 이를 해결하여 병렬처리를 통해 수행 속도를 빠르게 했습니다. 두 번째는 GBM에 Regularization 기능이 없어 오버피팅이 발생할 수 있단 한계가 있었지만 XGBoost는 자체적으로 Regularization 기능을 포함하고 있습니다. 세 번째로 Early Stopping 기능이 있다는 장점이 있습니다. Decision Tree 기반 알고리즘 중 성능이 우수하다고 알려져 있어 Kaggle과 같은 곳에서 많이 사용되고 있습니다. LightGBM은 XGBoost가 만들어지고 2년뒤에 만들어진 부스팅 알고리즘입니다. XGBoost가 GBM에 비해 빠르지만 여전히 학습 시간이 오래걸린다는 단점이 있습니다. 때문에 LightGBM은 이러한 XGBoost의 느린 학습 시간이라는 단점을 보완했고 또 메모리 효율성을 가져온 알고리즘입니다.
 
Q4. Gradient Descent에 대해 설명하라.
Gradient Descent는 cost function의 값이 최소가 되게 하는 가중치를 찾는 알고리즘입니다. 신경망에서 back-propagation을 위해 사용되며 cost function을 미분한 다음 learning rate를 곱해주고 체인룰을 적용해 앞단에 위치한 레이어의 가중치를 업데이트 하는 방식으로 동작합니다. 이 Gradient Descent 방식은 전체 데이터를 사용해 기울기를 계산하기 때문에 학습에 많은 시간이 필요하단 단점이 있습니다. 때문에 이런 단점을 보완하기 위해 미니 배치 사이즈로 나누어 학습을 진행하는 Mini-Batch Stochastic Gradient Descent 방식이 사용되기도 합니다.
 
Q5. Bias-Variance Trade-off에 대해 설명해주세요. (예상)
Bias는 under-fitting과 관련 있는 것으로 모든 데이터를 고려하지 못해 지속적으로 잘못된 것을 학습하는 경향입니다. 만약 Bias가 높으면 예측과 정답의 차이가 크게 벌어진 상황을 의미하고 Bias가 낮다면 예측과 정답이 차이가 작은 상황을 의미합니다. 반면 Variance는 over-fitting과 관련 있는 것으로 데이터 내에 노이즈까지 잘 잡아내어 실제 정답과 관련 없는 random한 것 까지 학습하는 경향을 의미합니다. variance가 높다는 것은 예측값과 정답값 간의 범위가 멀다는 것을 의미하고 variance가 낮다는 것은 예측값과 정답값 간의 범위가 좁다는 것을 의미합니다.
 
Q6. Training, Validation, Testing 셋으로 나누는 이유에 대해 설명하라. (예상)

먼저 Training set은 모델 학습을 목적으로 사용합니다. 만약 training set을 평가에 사용한다면 이미 한 번 본 시험으로 재시험을 보는 것과 같기에 별도의 validation set이나 testing set으로 나누어 주어야 합니다. 이후 validation set의 경우 training set으로 만든 모델의 성능을 측정하기 위해 사용합니다. 이를 위해 다양한 모델과 파라미터를 사용해가며 validation set에 적합한 모델을 선택해야 합니다. 이후 마지막으로 testing set을 이용해 단 한번 모델의 성능을 측정하기 위해 사용합니다. 이후 training set, validation set, testing set을 모두 합쳐 다시 모델을 학습하여 최종 모델을 만듭니다. 간단한 비유를 하자면 training set은 월별 모의고사고 validation set은 그 중에서도 9월 모의고사처럼 실제와 비슷할 것이라 판단되는 모의고사이며 마지막 testing set을 통해 수능을 보는 것과 같습니다. 
 
Q7. K-fold cross validation에 대해 설명하라. (예상)
K-fold cross validation이란 전체 데이터에서 training set과 validation set을 번갈아가며 나누는 방법을 의미합니다. 예를 들어 전체 데이터를 5분할을 한다면 처음엔 가장 첫 번째 분할을 validation set으로 두고 나머지 네 개의 분할을 training set으로 두고 두 번째 학습에는 두 번째 분할을 validation set으로 두고 나머지 분할을 training set으로 두는 것과 같습니다. 이렇 게 하는 이유는 데이터셋의 크기가 작을 경우 validation set에 대한 성능평가 신뢰성이 떨어지기 때문입니다. 즉 특정 validation set에만 적합한 모델을 피하고 전체 데이터셋에 균형 잡힌 학습을 위해 사용합니다.
 

3. Probability/Statistics

Q1. Posterior, Prior, Likelihood에 대해 설명하라.
이 세 개의 개념은 베이즈 정리에 사용됩니다. 베이즈 정리란 Prior, Likelihood, Evidence를 통해 Posterior를 예측하는 방법입니다. Prior는 사전에 이미 알고 있는 확률을 뜻하고 Posterior는 새로 추정된 확률을 뜻합니다. Likelihood는 Probability와 대조적인 특징이 있습니다. Probability는 확률분포를 이미 알고 있다는 가정하에 확률변수값이 계산됩니다. 반면 Likelihood는 확률과달리 확률분포를 모른다는 가정하에 주어진 관측을 통해 확률분포를 추정해나가는 방식입니다. Probability는 특정 사건 발생확률을 더하면 1이될 수 있지만 Likelihood는 그렇지 않습니다. 즉 요약하면 사전확률과 가능도와 새로 관측된 데이터를 통해 사후확률을 계산하는 것이 베이즈 정리입니다. 이 베이즈 정리는 조건부 확률에 기반하며 손쉽게 유도가능합니다.
 
Q1-1. 베이즈 정리 예시를 설명해라.
 
Q2. Hidden Markov Chain에 대해 설명하라.

히든 마르코프 체인의 경우 마르코프 체인을 기반으로 합니다. 마르코프 체인이란 마르코프 성질을 가진 이산확률과정입니다. 마르코프 성질이란 미래 상태는 현재 상태에 의해 결정되는 성질입니다. 즉 인과성이 있다는 것입니다. 또 이산확률과정이란 시간의 흐름에 따라 확률적인 변화를 가지는 구조를 의미합니다. 마르코프 성질의 대표적인 예시로는 날씨 예측이 있고 아닌 예시로는 매 번 독립 시행인 동전던지기가 있습니다. 히든 마르코프 체인의 경우 이러한 마르코프 체인에서 확장된 것으로 시스템이 은닉 상태와 관찰 가능한 결과 두 가지의 요소로 이뤄진 모델입니다. 관찰 가능한 결과는 은닉 상태에 의해 결정되지만 은닉 상태는 직접적으로 볼 수 없습니다. 오로지 마르코프 과정을 통해 도출된 결과만 관찰할 수 있습니다. 이런 히든 마르코프 체인은 주로 시퀀셜한 데이터를 다루는데 강점이 있습니다.
 
Q3. Entropy, Cross entropy, KL-divergence에 대해 설명하라.
entropy는 불확실성을 뜻하는 것으로 확률분포에서 확률변수 X의 기대값을 의미합니다. 수식으로는 $\displaystyle H(x) = -\sum_{i=1}^n p(x_i)\log p(x_i)$로 정의할 수 있습니다. cross entropy 같은 경우엔 entropy가 단일 확률분포에서 어떤 확률변수가 나타날 불확실성이었으면 cross entropy는 두 확률분포 간의 차이를 나타내는 척도라고 할 수 있습니다. 수식으로는 $\displaystyle H_{p, q}(x) = -\sum_{i=1}^n p(x_i)\log q(x_i)$로 나타냅니다. 마지막으로 KL-divergence는 두 확률분포 간의 차이를 나타내는 척도입니다. cross-entropy에서 entropy를 뺀 값이며, 수식으로는 $\displaystyle KL(p||q) = \sum_{i=1}^n p(x) \log {p(x)\over q(x)}$로 나타냅니다. 사실상 cross entropy와 거의 동일해 KL-divergence를 최소화 하는 것은 cross entropy를 최소화 하는 것과 같습니다. 하지만 KL-divergence에 있는 $p(x)\log p(x)$는 모델이 예측하고자 하는 실제 모집단분포이므로 바뀌지 않고 알 수 없는 값입니다. 따라서 cost function으로 사용하려면 상수 취급되어 계산에 포함하지 않아야 합니다. 그러면 남는 것은 $\displaystyle -\sum_{i=1}^n p(x_i) \log q(x_i)$이고 이는 곧 cross entropy를 의미합니다.
 
Q4. 정규분포에 대해 설명해주세요. (예상)
정규분포는 여러 확률분포함수 중에서 연속확률분포에 속하는 분포입니다. 수식은 $\displaystyle f(x) = {1 \over \sqrt{2\sigma^2}} \exp (- {(x-\mu)^2 \over 2\sigma^2})$로 나타냅니다. 이 정규분포는 평균과 분산 값에 따라 다양한 정규분포를 갖게 됩니다. 그 중 평균이 0, 분산이 1인 정규분포를 표준정규분포라 합니다. 이런 정규분포의 특징은 평균을 기준으로 대칭성을 띤다는 것입니다. 따라서 평균 기준 왼쪽과 오른쪽은 각각 0.5의 확률을 같습니다. 또 정규분포별 평균과 분산이 다르더라도 표준편차 구간 별 확률은 어느 정규분포에서나 같다는 것입니다. 
 
Q5. 이항분포에 대해 설명해주세요. (예상)
이항분포는 베르누이 시행을 n번 시행한 것 입니다. 어떤 사건 A가 발생할 확률이 p일 때 베르누이 시행을 n번 시행한다면 사건 A가 몇번 발생하는지를 확률변수로 두는 분포입니다. 수식으로는 $\displaystyle {}_n C{}_r p^r (1-p)^{n-r}$로 표현합니다. 평균 $E(x)$는 $np$입니다. 또 분산 $V(x)$는 $np(1-p)$입니다. 가장 흔한 예시로는 주사위를 n번 던졌을 때 특정 숫자가 나올 확률이 어떻게 되는가를 구할 때 사용합니다. 특정 숫자가 나올 확률은 ${1 \over 6}$ 이므로 $\displaystyle {}_n C {}_r {1\over 6}^r {5\over 6}^{n-r}$로 나타낼 수 있습니다. 
 
Q5. 균등분포의 역함수로 샘플링하는 샘플링 기법은 무엇인가? (Box-Muller Transformation에 대해 설명하라)
 
Q6. 공분산 행렬과 상관 계수에 대해 설명해주세요.
 
 

4. Reinforce Learning

Q1. 벨만 방정식에 대해 설명하라.
벨만 기대 방정식은 강화학습에 사용됩니다. 벨만 기대 방정식은 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 나타낸 식입니다. 여기서 가치함수란 에이전트가 다음 상태로 갈 경우 앞으로 받을 전체 보상에 대한 기대값입니다. 가치함수는 현재 에이전트의 정책에 의해 영향을 받는데, 이 정책을 반영한 식이 벨만 기대 방정식이라 합니다. 정의상 기대값을 알려면 모든 보상에 대해 고려해야하지만 물리적으로 불가능 하므로 하나의 변수를 두고 그 변수를 계속해서 업데이트하는 과정으로 계산됩니다. (추가 필요)
 
Q2. DQN에 대해 설명하라. 또 DQN의 수식의 의미를 설명하라.
 

5. Computer Science

Q0. 프로세스와 쓰레드의 차이는 무엇인가?
Q0. 쓰레드의 특징은 무엇인가?
 
Q1. 캐시는 왜 사용하는가?
캐시를 사용하는 핵심 이유는 CPU 처리속도와 메모리 처리속도 차이에서 발생하는 병목현상을 해결하기 위해 사용합니다. 주기억장치인 메모리에 있는 데이터에 접근하는 시간을 줄이기 위해 CPU와 메모리 사이에 캐시 메모리를 둡니다. 캐시 메모리에는 주기억장치 내에서 자주 읽고 쓰는 데이터의 일부를 캐시 메모리에 불러와 속도 차이를 줄입니다. 그리고 캐시 메모리에는 적중률이라는 개념이 있습니다. CPU가 메모리에 접근하기 전에 캐시 메모리에 먼저 원하는 데이터가 존재하는지 여부를 확인하는데 이 때 있다면 적중한 것이고 없다면 실패한 것입니다. 캐시 메모리를 효율적으로 활용하기 위해서는 적중률이 높아야하고 이를 위해 지역성이라는 개념을 사용합니다. 크게 시간적 지역성, 공간적 지역성, 순차적 지역성 세 가지가 있습니다. 시간적 지역성은 최근 액세스된 메모리 영역은 근 미래에 다시 액세스할 가능성이 높다는 것을 뜻하고, 공간적 지역성은 CPU가 참조한 데이터와 인접한 영역에 있는 데이터 역시 참조될 가능성이 높음을 의미합니다. 마지막으로 순차적 지역성은 메모리에 데이터가 저장된 순서대로 이용될 가능성이 높다는 것입니다. 
 
Q2. vCPU란 무엇인가?
클라우드 환경에서 만들어지는 가상화 머신에 할당되는 형태의 CPU를 말합니다. 실제 물리적인 CPU 코어를 논리적으로 분할하여 가상화 머신에 할당하는 형태입니다.
 
Q3. HDD, SSD, DRAM의 차이는 무엇인가? 
핵심 차이는 속도라고 할 수 있습니다. DRAM이 가장 빠르고 SSD가 그다음 HDD가 마지막입니다. DRAM은 Dynamic Random Access Memory로서 RAM의 한 종류입니다. 이외의 종류는 Static Random Access Memory인 SRAM이 있습니다. SRAM은 속도가 빨라 캐시로 사용되고 DRAM은 속도가 상대적으로 느린 대신 용량이 크다는 특징이 있습니다. SSD Solid State Drive의 약자로 비휘발성 저장장치 입니다. 물리적으로 데이터가 위치하는 원판까지 플래터를 이동시켜야하는 HDD와 달리 전자적으로 정보를 읽고 쓰기 때문에 속도가 빠르다는 장점이 있습니다. 
 
Q4. 가상 메모리를 왜 사용 하는가?
가상 메모리를 사용하는 핵심 이유는 과거 메모리 용량의 한계가 있던 때, 메모리 크기보다 큰 프로세스를 실행시키기 위한 방법이 필요했습니다. 때문에 이를 해결하고자 디스크에서 프로세스 실행에 필요한 부분만 메모리에 적재하고 실행시킬 수 있도록 한 것입니다. 이 가상 메모리를 구현하기 위해서는 MMU라는 Memory Management Unit이 필요합니다. MMU는 가상 메모리에 사용되는 가상 주소를 실제 물리 주소로 매핑해주는 역할을 합니다. 이 때 모든 가상 주소를 물리 주소로 바꾸려면 많은 부하가 생길 수 있으므로 메모리를 페이지라는 단위로 나누어 효율적으로 처리합니다. 
 
Q5. 페이지 폴트란 무엇입니까? (예상)
페이지 폴트란 CPU가 프로세스 실행에 필요한 단위인 페이지를 요청 할 때 그 페이지가 실제로 메모리에 적재되어 있지 않을때 발생하는 인터럽트입니다. 만약 페이지 폴트가 발생하면 운영체제는 필요로 하는 페이지를 메모리로 가져와서 실행함으로써 마치 페이지 폴트가 발생하지 않은 것처럼 합니다. 이 때 페이지 폴트가 자주 일어나면 오버헤드로 인해 컴퓨터 성능이 저하될 수 있으므로 페이지 폴트를 최소화하기 위해 여러 페이지 교체 알고리즘을 사용합니다. 
 
Q6. 스래싱(Trashing)에 대해 설명하라. (예상)
쓰래싱은 어떤 프로세스에 지속적으로 페이지 폴트가 발생하는 현상을 의미합니다. 달리 말해 페이지 폴트율이 높아져 프로세스 처리시간보다 페이지 교체시간이 더 많이 발생하는 현상입니다. 이러한 스래싱 현상을 해결하기 위해 크게 두 가지로 Page-Fault Frequency(PFF)와 워킹셋(Working Set)을 사용합니다. 먼저 페이지 폴트율을 주기적으로 계산해서 각 프로세스에 할당할 메모리 양을 동적으로 조절합니다. 만약 어떤 threshold를 넘으면 프로세스에 할당된 프레임이 부족하다 판단하고 프로세스에게 프레임을 추가로 할당합니다. 만약 할당할 빈 프레임이 없을 경우 일부 프로세스를 스왑아웃 시켜 할당합니다. 반면 어떤 threshold이하일 경우 프로세스에게 많은 프레임이 할당된 것으로 판단해 할당된 프레임의 수를 줄입니다. 만약 모든 프로세스에 필요한 프레임을 다 할당한 뒤에도 여유 공간이 있다면 스왑 아웃되어 있던 프로세스를 스왑 인하여 다중프로그래밍정도인 MPD를 높입니다. 
워킹셋은 프로세스가 실행되기 위해 한 번에 메모리에 올라와있어야 할 페이지의 집합을 의미합니다. 워킹셋 알고리즘을 통해 이러한 페이지 집합을 결정할 수 있습니다. 또 프로세스의 워킹셋이 한 번에 메모리에 올라갈 수 있는 경우에만 프로세스에게 메모리를 할당합니다. 그렇지 않은 경우 프로세스에게 할당된 페이지 프레임을 모두 반납하구 프로세스 주소 공간 전체를 디스크로 스왑 아웃시킵니다.
 
Q7. 페이지 스와핑에 대해 설명해주세요. (예상)
페이지 스와핑은 중기 스케쥴러에 의해 처리됩니다. 페이지 스와핑은 크게 페이지 스왑 인과 페이지 스왑 아웃으로 나뉩니다. 페이지 스왑 인의 경우 프로세스가 실행될 때 페이지 폴트가 발생할 경우 페이지를 메모리에 추가 적재하기 위해 사용합니다. 반면 페이지 스왑 아웃의 경우 워킹셋 알고리즘이 동작할 때 처럼 특정 페이지셋이 한 번에 메모리에 적재되기에 공간이 충분하지 않을 때 디스크 영역으로 옮기는 것을 말합니다.
 
Q8. 페이지 교체 알고리즘에 대해 설명하라.
페이지 교체는 메모리에 적재할 공간이 부족할 때 메모리에 적재된 프로세스를 디스크로 스왑 아웃하고 프로세스 실행에 필요로 하는 페이지를 메모리에 적재하는 것입니다. 이러한 페이지 교체 알고리즘의 목표는 Page-Fault Frequency를 최소화하는 것입니다. 이런 알고리즘의 종류는 FIFO, LRU, LFU, 빌레디, 클럭등이 있습니다. (추가 설명 필요)
 
Q9. 페이징의 장단점은 무엇인가?
페이징은 외부 단편화 문제를 해결하기 위해 사용하는 메모리 관리 기법입니다. 외부 단편화는 여분의 메모리 공간이 요청한 메모리 공간보다 커서 여유가 있지만 여유 공간이 연속적이지 않아 발생하는 현상입니다. 페이징은 페이지라는 단위로 메모리 공간에 불연속적으로도 적재할 수 있도록 합니다. 이처럼 페이징을 이용하면 외부 단편화 문제를 해결하는 장점이 있지만 반면 내부 단편화 문제가 발생하는 단점이 있습니다. 내부 단편화란 한 마디로 공간 낭비라 설명할 수 있습니다. 외부 단편화와 달리 메모리 공간에 프로세스 실행에 필요한 데이터가 적재될 공간이 충분히 있고 적재될 수 있지만 적재되고 나서 빈 영역이 발생하는 것입니다.
 
Q10. 세그멘테이션의 장단점은 무엇인가?
페이징 기법이 가지는 내부 단편화 문제를 극복하기 위해 세그멘테이션 기법이 사용됩니다. 페이지는 기본적으로 4KB 단위로 만들어집니다. 때문에 만약 9KB짜리 프로세스를 실행해야 한다면 메모리 공간에 12KB가 할당되고 3KB의 사용되지 못하고 낭비되는 영역이 만들어집니다. 세그멘테이션은 페이징과 똑같이 메모리 관리 기법이지만 차이점은 분할 방식입니다. 페이징은 한 단위를 기준으로 정적으로 분할하지만 세그멘테이션은 동적으로 분할하여 내부 단편화가 발생하지 않도록 합니다. 하지만 이런 세그멘테이션은 내부 단편화를 해결한다는 장점이 있지만 페이징에 비해 상대적으로 복잡한 메모리 관리로 오버헤드가 발생할 수 있다는 단점이 있습니다.
 
Q11. 임계 영역에 대해 설명하라.
임계 영역은 둘 이상의 쓰레드가 공유자원에 접근하는 데 있어 한 번에 한 쓰레드만 접근할 수 있도록 보장하는 영역을 말합니다. 임계 영역을 둠으로써 쓰레드는 공유자원에 대한 배타적인 사용권을 보장받을 수 있습니다. 이러한 임계 영역을 두기 위해 사용하는 방법으로 크게 뮤텍스와 세마포어가 있습니다.
 
Q12. 뮤텍스(Mutal Exclusion, Mutex)와 세마포어(Semaphore)의 차이를 설명하라.
뮤텍스 즉 상호배제란 임계 영역에 접근하는 쓰레드 간의 충돌을 막기 위해 사용하는 기법입니다. 이를 위해 Lock을 사용해서 임계영역에 들어가는 쓰레드가 Lock을 걸어 다른 쓰레드가 임계 영역으로 들어오지 못하도록 하고 이후 나갈 때 Lock을 해제하는 방식으로 다른 쓰레드가 임계 영역으로 들어올 수 있도록 하는 방법입니다. 세마포어 또한 임계 영역에 접근하는 쓰레드 간의 충돌을 막기 위해 사용하는 기법입니다. 기본적으로 뮤텍스와 동일하지만 차이점이 있다면 뮤텍스는 임계 영역에 들어간 쓰레드가 Lock을 걸고 해제할 수 있는 Locking 메커니즘을 사용하는 반면 세마포어는 Lock을 걸지 않은 쓰레드도 Lock을 해제할 수 있는 Signaling 메커니즘을 사용합니다.
 
Q13. 스케쥴링에 대해 설명하시오.
스케쥴링은 프로세스를 실행시키기 위해 CPU의 자원을 할당하는 정책을 계획하는 것입니다. 이 CPU 스케쥴링이 필요한 이유는 CPU 자원을 프로세스에게 효율적으로 할당하여 더 많은 작업을 처리할 수 있는 처리 속도를 높이기 위함입니다. 스케쥴링 방식에는 크게 선점형 스케쥴링과, 비선점형 스케쥴링이 있습니다. 선점형 스케쥴링은 한 프로세스가 CPU를 할당받아 실행되고 있을 때 우선순위가 다른 프로세스가 CPU를 강제로 점유할 수 있도록하는 기법입니다. 종류로는 라운드로빈, SRT ,다단계 큐, 다단계 피드백 큐 등의 알고리즘이 있습니다. 반면 비선점형 스케쥴링은 한 프로세스가 CPU를 항당받아 실행되고 있을 때 다른 우선 순위높은 프로세스가 CPU를 강제로 빼앗아 점유할 수 없는 기법입니다. 종류로는 FCFS, SJF, HRN 등의 알고리즘이 있습니다.
 
Q13-1. 스케쥴링 알고리즘에 대해 설명해주세요. (예상)
FCFS(First-Come First-Served)는 큐에 먼저 도착한 프로세스 순서대로 스케쥴링 하는 방식입니다. 비선점 스케쥴링에 방식에 해당합니다. 이런 FCFS의 단점은 CPU를 장기간 독점하는 프로세스가 있다면 다른 프로세스가 실행되지 못하고 오래 기다려야 한다는 단점이 있습니다. 이러한 단점을 보완하기 위해 SJF(Shortest-Job-First) 기법이 사용됩니다. CPU 작업시간이 짧은 프로세스 순서대로 스케쥴링하는 방식입니다. 비선점 스케쥴링 방식에 해당합니다. 특징은 만약 CPU 작업시간이 동일할 경우 FCFS 정책을 따릅니다. 이 SJF의 장점은 프로세스의 평균 대기 시간이 최소화된다는 것이며 단점은 CPU 작업시간에 대한 정확한 계산이 가능하지 않고, CPU 작업 시간이 긴 프로세스는 오랜시간 CPU를 할당받지 못할 수 있습니다. FCFS와 동일하게 이런 점유 불평등 현상이 있는 SFJ 알고리즘을 보완하기 위해 우선순위를 기반으로하는 HRN(Highest Response-ratio Next) 방식이 사용됩니다. 우선 순위는 $(대기시간 + 실행시간) \over (실행 시간)$로 계산 됩니다. 이외에도 여러 스케쥴링 알고리즘이 있지만 가장 일반적으로 사용하는 것은 Round Robin입니다. RR은 FCFS와 마찬가지로 순차적으로 스케쥴링을 진행하지만 특징은 동일한 시간의 Time Quantum만큼 CPU를 할당해 프로세스를 실행하는 방식입니다. RR 방식은 공정하다는 장점이 있지만 반면 Time Quantum이 커지면 FCFS와 같아진다는 단점이 있고, 작다면 Context Switcing이 많아져 오버헤드가 증가하는 단점이 있습니다.
 
Q14. Context Swiching에 대해 설명하라. (예상)
CPU가 어떤 프로세스를 실행 중일 때 인터럽트에 의해 다른 프로세스를 실행시켜야 하는 경우 기존 실행되던 프로세스 상태를 PCB에 저장하고 새로운 프로세스를 메모리에 적재하는 방법입니다. Context Swiching이 되면 실행될 프로세스의 PCB에 있는 정보와 레지스터 값을 읽어온 다음 이어서 작업을 수행합니다. 이 Context Swiching이 많이 일어나면 오버헤드가 발생하므로 Context Switching을 일으키는 스케쥴러가 최소한으로 Context Swiching이 일어나도록하는 스케쥴러 알고리즘을 사용해야 합니다.
 
Q15. Call By Value와 Call By Reference의 차이에 대해 설명하시오.
Call By Value란 Call By Reference는 함수에 인자를 전달하는 두 방식입니다. Call By Value는 전달받은 인자를 함수 내에서 복사해서 사용하는 것을 의미합니다. 복사해서 사용하기 때문에 원래 값에 영향을 미치지 않습니다. 반면 Call By Reference는 메모리 주소값에 있는 값을 직접 참조하는 방식입니다. 따라서 원래 값에 영향을 미치는 방식입니다. 
 
Q16. PNG와 JPG의 차이를 설명하라.
 
Q17. 다이나믹 프로그래밍이란 무엇인가? 또 신경망의 관점에서는 어떻게 활용되는가?
DP는 큰 문제를 작은 문제로 나누어 푸는 방법입니다. 분할정복 알고리즘과 같이 큰 문제를 작은 문제로 나누어 푼다는 점에서 공통점을 가집니다. 하지만 차이점은 작은 문제 계산에 있어 반복이 일어나지 않는다는 것입니다. 일반적으로 DP는 점화식을 세워 문제를 해결합니다. 또 memoization을 이용해 한 번 계산해둔 값을 다시 활용한다는 특징이 있습니다. 가장 쉬운 예시로는 피보나치 수열이 있습니다. 즉 다음 수열의 값은 현재 수열 값과 이전 수열 값의 합입니다. 1, 1, 2, 3, 5, 8로 증가하는 형태를 가지며 다음 수열을 구할 때 이미 구해두었던 수열의 값을 활용합니다.
신경망의 관점에서 역전파를 진행할 때 다이나믹 프로그래밍을 사용합니다. back-propagation하면서 gradient를 전부 계산하는 것이 아니라 마지막 출력노드에서 한 번 미분값을 계산한 뒤 backward 방향의 노드로 전달하면서 재사용합니다.
 
Q18. 백트래킹 알고리즘에 대해 설명하라.
백트래킹 알고리즘이란 해를 찾는 도중 해가 아니라고 판단될 경우 되돌아가서 다시 해를 찾는 방법입니다. 백트래킹 알고리즘은 일반적으로 DFS와 함께 사용됩니다. DFS는 알고리즘은 가능한 모든 경로를 탐색하기 때문에 계산 비용이 많이 발생합니다. 이를 해결하기 위해 가지치기가 필요한데 이 때 사용하는 것이 백트래킹 알고리즘입니다. 대표적인 예제로 N-Queen 문제가 있습니다. 
 
Q19. 거의 정렬이 이뤄졌을 때 사용하면 좋은 정렬 알고리즘은 어떤 것인가?
삽입 정렬을 사용하면 좋습니다. 삽입 정렬은 정렬할 원소보다 index가 낮은 곳에 있는 원소들을 탐색해 정렬하는 알고리즘 입니다. 동작은 두 번째 index에 있는 원소부터 시작합니다. 삽입 정렬의 특징은 알고리즘이 동작하는 동안 반드시 맨 왼쪽 index까지 탐색하지 않아도 됩니다. 앞 부분은 이미 정렬 되어 있기 때문에 정렬 하고자 하는 원소보다 작아지는 경우 다음에만 삽입하면 됩니다. 거의 정렬이 모두 이뤄져있다면 모든 원소가 한 번씩만 비교하므로 $O(n)$의 복잡도를 가집니다.
 
Q20. 대칭키 암호화와 비대칭키 암호화는 무엇인가?
대칭키 암호화는 암복호화에 사용하는 키가 동일한 방식의 암호화입니다. 종류로는DES, 3DES, AES, SEED, ARIA 등이 있습니다. 장점으로는 비대칭키 암/복호화에 비해 수행 시간이 짧습니다. 반면 키교환문제가 발생한다는 단점이 있습니다. 비대칭키 암호화는 암복호화에 사용하는 키를 서로 달리하는 방식의 암호화입니다. 종류로는 RSA, ElGamal, ECC 등이 있습니다. 장점은 공개키가 있고 개인키가 있기 있기 때문에 키 교환 문제가 발생하지 않습니다. 단점은 대칭키에 비해 암복호화 수행시간이 느리다는 것이 있습니다.
 
Q20-1. 비대칭키는 왜 공개키와 비밀키로 나뉘는가?
키교환 문제를 해결하기 위해 사용합니다. 대칭키는 암호화와 복호화에 사용하는 키가 같기 때문에 이 키를 전달하는 과정에서 탈취될 가능성이 존재합니다. 반면 비대칭키는 공개키가 공개되어 있기 때문에 키교환 문제가 발생하지 않습니다. 동작방식은 가령 A와 B가 있을 때 B가 공개키/개인키 쌍을 생성합니다. A는 전달하고자 하는 정보를 B의 공개키로 암호화해서 B에게 주면 B는 자신의 개인키를 이용해 복호화를 수행하는 방식으로 이루어집니다.
 
Q21. TCP/UDP 차이를 설명하라.
TCP는 연결지향형 프로토콜이고 UDP는 비연결지향형 프로토콜입니다. 연결지향형이랑 클라이언트와 서버가 연결된 상태에서 데이터를 주고 받습니다. 반면 비연결지향형은 클라이언트와 서버가 연결되지 않은채로 데이터를 일방적으로 전송합니다. TCP를 사용하기 위해서는 3-way handshaking 과정을 거쳐야 합니다. 클라이언트는 SYN 플래그를 보내면 서버는 SYN + ACK를 보내고 다시 클라이언트는 ACK를 보냄으로써 상호 연결됩니다. 이러한 TCP의 특징은 데이터의 전송순서를 보장하고 수신여부를 확인합니다. 때문에 신뢰성이 높다는 장점이 있습니다. 반면 UDP보다 데이터 전송속도가 느리다는 단점이 있습니다. UDP는 3-way handshaking 과정 없이 데이터를 일방적으로 전송합니다. UDP의 특징은 데이터의 전송 순서가 보장되지 않으며 수신 여부를 확인하지 않습니다. 따라서 신뢰성이 낮다는 단점이 있습니다. 반면 TCP에 비해 속도가 빠르다는 장점이 있습니다.
 
Q22. 공유기 동작은 어떻게 이루어지는가?
공유기에 LAN 선을 연결하게 되면 공인 IP가 부여됩니다. 이 공유기에 장치를 연결하면 NAT에 의해 공인 IP가 사설 IP로 변경되어 할당됩니다. 공인 IP는 외부 인터넷과 연결을 위해 사용하고 사설 IP는 내부 인터넷 사용을 위해 사용합니다. 내부 인터넷에서 외부 인터넷으로 연결하기 위해서는 NAT를 통해 다시 공인 IP로 변경됩니다. 이 때 연결 요청이나 자원 요청에 대한 응답을 받기 위해서는 PAT를 통해 사설 IP에 할당된 포트정보까지 매핑시킴으로써 특정 디바이스를 식별할 수 있습니다. 만약 내부의 요청 없이 곧 바로 외부에서 내부로 접근하기 위해서는 포트포워딩을 통해 접속할 수 있습니다. 
 
Q23. RESTful에 대해 설명하라. 또 단점은 무엇인가? 
REST는 HTTP 프로토콜을 통해 DB에 Create, Read, Update, Delete 연산을 수행하는 것을 의미합니다. client-server 구조를 갖는게 REST의 특징 중 하나입니다. 하지만 클라이언트가 직접 DB에 접근하는 것을 위험하므로 REST API를 두어 서버가 데이터베이스에 클라이언트의 요청을 수행하고 결과를 반환합니다. 이러한 요청을 위해 HTTP METHOD를 사용하며 종류로는 GET, POST, PUT, DELETE 등이 있습니다. RESTful은 이러한 REST 아키텍처의 특징을 잘 지켜 설계한 것을 의미합니다. "REST API를 제공하는 웹 서비스는 RESTful하다"와 같이 표현할 때 사용됩니다. 이러한 REST 또는 RESTful의 장점은 쉽게 사용할 수 있다는 것입니다. REST API 메시지를 읽는 것만으로 의도하는 바를 명확히 파악할 수 있습니다. 반면 표준이 존재하지 않는다는 단점이 있습니다.
 
Q24. NoSQL의 장단점을 이야기하라.
NoSQL은 일반적으로 RDBMS와 함께 언급됩니다. 먼저 NoSQL의 장점은 정해진 스키마가 없기 때문에 데이터 구조가 유연하고 자유롭게 컬럼을 추가할 수 있습니다. 또 대용량 처리에 적합합니다. 반면 단점으로는 정해진 스키마가 없기 때문에 데이터의 일관성이 없습니다. 또 중복이 발생할 수 있고 발생할 경우 계속해서 모든 컬렉션에서 업데이트해야하는 번거로움이 있습니다. RDMBS의 장점은 정해진 스키마가 있기 때문에 데이터 구조의 일관성이 보장됩니다. 또 데이터의 중복이 발생하지 않습니다. 반면 단점으로는 정해진 스키마가 있기에 유연성이 떨어집니다. 또 규모가 커질수록 테이블 간 JOIN이 복잡해지고 쿼리 프로세싱도 복잡해져 성능이 저하됩니다. 
 

Reference

[1] [운영체제] 페이징과 세그멘테이션 (제이온)
[2] [OS] 세마포어(Semaphore) vs 뮤텍스(Mutex) 차이 (망나니개발자, MangKyu)
[3] [운영체제] CPU 스케줄링이란? (그적)
[4] [운영체제] CPU 스케줄링 (제이온)
[5] [운영체제OS]8. 가상메모리(페이징, 페이지 교체, 스레싱)
[6] 알고리즘 - Dynamic Programming(동적프로그래밍)이란? (전준엽)
[7] [암호학] 대칭키 vs 공개키(비대칭키) 암호화 차이 (leeforest)
[8] [Network] TCP / UDP의 개념과 특징, 차이점 (코딩팩토리)
[9] 랜덤 포레스트(Random Forest) 쉽게 이해하기 (아무튼 워라밸)
[10] [ML] XGBoost 개념 이해 (최우노)
[11] 벨만 방정식 (subsay)
[12] Training, Validation and Test sets 차이 및 정확한 용도 (훈련, 검정, 테스트 데이터 차이) (네이쳐k)
[13] 딥러닝 모델의 K-겹 교차검증 (K-fold Cross Validation) (DEEPPLAY)
[14] Hidden Markov Model (은닉 마르코프 모델) (Bioinformatics And Me)
[15] 인공지능의 이해 (5/6): 순환 신경망 (RNN) (라인하트)
[16] [딥러닝][NLP] LSTM(Long Short Term Memory Networks) (Hyen4110)
[17] Long Short-Term Memory (LSTM) 이해하기 (개발새발로그)
[18] CNN (Convolutional Neural Network) 개념 (강성욱)
[19] 배치 정규화(Batch Normalization)

1. 회귀분석이란?

회귀분석은 가장 단순화하면 독립변수(x)로 종속변수(y)를 예측하는 것을 의미한다. 이를 풀어 쓰자면 회귀분석이란 독립변수가 종속변수에 미치는 영향력을 측정하고 이를 기반으로 독립변수의 특정값에 대응하는 종속변수값을 예측하는 모델을 만드는 통계적 방법론이다. 회귀분석의 목적은 독립변수로 종속변수를 설명하는데 있다. 회귀분석에서는 독립변수와 종속변수를 동일하지만 다양한 이름으로 부른다. 독립변수의 경우 설명변수, 예측변수, 원인변수 등으로 불리고 종속변수의 경우 목표변수, 목적변수, 반응변수, 결과변수 등으로 불린다. 이를 혼동하지 않기 위해서는 이름들이 원인측에 가까운지 결과측에 가까운지 또 종속성의 여부를 떠올려 추론하면 될 것이다. 이러한 회귀분석을 진행하기 위한 전제조건은 4~5가지 기본 가정이 어긋나지 않아야 한다.

 

1.1 회귀분석의 기본 가정

회귀분석을 진행하기 위해 갖춰져야할 기본 몇 가지 가정이 있다. 일반적으로 4대 가정 또는 5대 가정이라 불리며 4대 가정은 앞글자를 따서 LINE이라 불린다.

  • 선형성(Linearity): 모든 독립변수와 종속변수 사이에는 선형적인 관계를 띠어야 한다.
  • 독립성(Independence): 1) 잔차 사이에는 상관관계 없이 독립적이어야 한다. 2) 잔차와 독립변수 간 상관관계가 없어야 한다.
  • 정규성(Normality): 잔차가 평균이 0인 정규분포를 띠어야 한다. $E(\epsilon_i|X_i) = 0$
  • 등분산성(Equal Variance): 잔차의 분산은 독립변수와 무관하게 일정해야 한다.
  • 다중공선성(No Multicollinearity): 독립변수 간의 강한 상관관계가 있을 때의 성질을 의미하는 것으로 이러한 성질이 없어야 회귀분석이 가능하다.

여기서 중요한 것은 독립변수의 정규성, 독립성, 등분산성, 선형성을 고려하는 것이 아니라 잔차의 정규성, 독립성, 등분산성, 선형성을 따져야 한다. 여기서 잔차란 표본집단의 관측값에서 예측값을 뺀 값이다. 유사하게 사용되는 오차는 모집단에서 관측값에서 예측값을 뺀 값을 뜻한다.

또 만약 잔차의 등분산성이 성립하지 않을 경우 가중최소제곱법(Weighted Least Sqaure)을 사용해 잔차의 이분산성을 해결할 수 있다. 이분산성이란 데이터에 일반적인 최소제곱법을 적용할 경우 추정통계량의 신뢰도가 상실되어 회귀계수의 표준오차를 과소추정 또는 과대추정하게 되는 성질을 말한다. 이러한 이분산성은 가중최소제곱을 사용하면 회귀 모수의 오차항 분산에 반비례하는 가중치를 부여하여 가중 오차제곱합을 최소화하는 방법이다. (출처: Tony Park)

 

1.2 회귀분석의 종류와 특징

회귀분석은 크게 두 가지로 선형회귀분석과 로지스틱회귀분석으로 나뉜다. 선형회귀분석은 연속형 종속변수를 사용하며 분석 목적은 예측에 있다. 또 선형회귀분석은 모델을 찾기 위해 최소자승법을 사용하고 모델을 검정하기 위해 t검정, F검정 등을 사용한다. 선형회귀분석은 다시 단순 선형회귀분석과 다중 선형회귀분석, 비선형 회귀분석 셋으로 나뉜다. 단순 선형회귀분석은 독립변수가 1개 종속변수가 1개일 때 진행하는 분석이다. 다중 선형회귀분석은 독립변수가 여러 개고 종속변수가 1개일 때 진행하는 분석이다. 비선형회귀분석은 단순/다중 선형회귀분석처럼 선형으로 나타나는 식이 아니라 2차함수나 지수함수와 같이 비선형으로 나타내는 관계에 대해 분석하는 방법이다.

로지스틱회귀분석은 독립변수와 범주형 종속변수 간의 관계를 모형화하여 종속변수를 분석하거나 분류하는 통계적인 방법론이다. 로지스틱회귀분석은 범주형 연속변수를 사용하며 분석 목적은 분류에 있다. 로지스틱회귀분석은 모델을 찾기 위해 최대 우도법을 사용하고 모델 검정을 위해 카이제곱 검정 등을 사용한다.

 

1.3 회귀분석의 절차는?

1. 가설 수립: 귀무 가설과 대립 가설 설정
2. 데이터 경향성 확인: 독립변수와 종속변수 간 산점도 분석과 상관관계 분석 진행
3. 모델 적합성 확인: 결정계수, 분산분석, 잔차기본 가정(정규성, 등분산성, 독립성 등) 확인
4. 회귀계수 계산 및 유의성 확인: 독립변수 간 다중공선성, t검정을 통한 회귀계수 유의성, 독립변수 선택 및 해석
5. 모델 선정: 모델 적합성과 오차의 기본 가정 확인을 통해 모델 선정

 

1.4 결정계수란?

결정계수란 통계학에서 수행하는 회귀분석의 회귀식의 정확도를 평가하기 위한 척도(measure)이다. 다르게 말하면 독립변수를 통해 종속변수를 예측한 것의 설득력을 나타내는 척도라 할 수 있다. 이 결정계수를 사용하는 이유는 회귀분석에서 예측을 하더라도 실제값과의 오차가 발생할 수 밖에 없기 때문이다.

이 오차라는 것은 점의 밀도에 따라 달라진다. 예를 들어 많은 점이 모여 있어 밀도가 촘촘한 경우 예측값과 실제값의 오차가 작아진다. 반면 점들이 밀도가 느슨할 경우 예측값과 실제값의 오차가 커진다. 즉 점의 밀도, 데이터 수에 따라 오차의 크기가 달라지고 이에 따른 회귀식의 정확도가 달라지는 것이다.


위와 같이 밀도에 따라 회귀식의 오차가 달라지고 정확도가 달라지므로 이 정확도를 평가하기 위한 척도가 결정계수이다. 이 결정계수는 R-square라 부르며 $R^2$로 나타낸다. 여기서 R은 비율(Rate)를 나타낸다. 이 결정계수는 두 가지 방법으로 나뉘어 사용된다.

첫 번째는 피어슨 상관계수를 이용하는 방법이다. 결과적으로 결정계수는 피어슨 상관계수를 제곱한 값이라 할 수 있다. 피어슨 상관계수의 범위는 $-1 \leq R \leq 1$을 가지는데, 제곱하면 값의 범위가 $0 \leq R^2 \leq 1$된다. 하지만 이렇게 제곱할 수 있을 때는 후에 설명할 단순회귀분석처럼 독립변수가 하나인 경우로 제한된다. 예를 들어 $y=ax+ b$일 경우 결정계수는 독립변수 x와 종속변수 y의 상관계수의 제곱이다. 하지만 다중회귀분석처럼 $y = ax_1x_1 + b_1 + a_2x_2 + b_2$처럼 독립변수가 $x_1, x_2$로 2개 이상일 경우 $x_1, y$와 $x_2, y$의 두 상관계수를 각각 구해야 한다. 다시 돌아와 피어슨 상관계수를 제곱한 결정계수는 아래와 같은 수식으로 나타낸다.

 

$\displaystyle R^2 = {\sum (y_i - \hat{y}) \over \sum (y_i - \hat{y})^2}$


수식이 의미하는 바는 전체 변동 대비 회귀선에 의해 설명되는 변동이 얼마나 되는지를 보는 것이다.

만약 섭취열량(독립변수)이 얼마나 비만(종속변수)에 영향력을 미치는가를 알고 싶다고 가정하고 결정계수가 $R^2 = 0.8$이 계산되었을 경우, 섭취열량이라는 독립변수를 통해 80%정도 비만이라는 종속변수를 설명(설득)할 수 있다고 해석할 수 있다.

두 번째는 분산분석의 데이터를 활용하는 것이다. 분산분석에서는 SST, SSR, SSE의 개념이 사용된다. SST는 총제곱합, SSR는 회귀제곱합, SSE는 잔차제곱합을 뜻하며 각각은 수식으로 다음과 같이 나타낸다.

 

$SSR = \sum(\hat{y_i}-\bar{y})^2$
$SSE = \sum(y_i - \hat{y}_i)^2$
$SST = SSR + SSE = \sum_{i=1}^n(y_i-\bar{y})^2$

결과적으로 SSR이 얼마나 크고 SSE가 얼마나 작냐에 따라 회귀식에서 산출된 정확도가 결정된다. 즉 결론적으로 결정계수 $R^2$이 0에 가까울수록 회귀식의 정확도는 낮고, 1에 가까울수록 회귀식의 정확도는 높다고 할 수 있다.

이러한 결정계수는 독립변수가 많아질수록 값이 커진다는 특성을 갖는다. 따라서 종속변수를 잘 설명하지 못하는 독립변수가 추가되더라도 결정계수값이 커질 수 있다. 이러한 한계점을 보완하고자 수정된 결정계수(adjusted coefficient of determination)을 사용한다. 이 수정된 결정계수는 표본 개수와 독립변수 개수를 고려해 계산하며 식은 다음과 같다.

 

adjusted $R^2 = {1 - {n-1 \over (n-p-1)(1-R^2)}}$


만약 단순회귀분석을 진행한다면 결정계수를 사용하면 되고, 다중회귀분석을 진행한다면 수정된 결정계수를 사용하는 것이 좋다. 이러한 결정계수와 수정된 결정계수를 계산하더라도 정확도를 판단하기 모호한 경우가 생긴다 극단적으로 0과 1이라면 정확도를 판별할 수 있지만 0.4나 0.6과 같이 값이 모호하다면 올바른 의사결정이 어려워진다. 따라서 추가적으로 가설검정을 통해 이러한 의사결정이 이루어진다.

 

1.5 회귀계수 계산

회귀 모델이 선택된다면 이에 대한 회귀계수를 계산하고 유의성을 검정해야 한다. 회귀계수를 구하기 위해서 회귀선의 기울기와 절편을 구해야하며 이는 최소제곱법(Least Square Method)로 계산할 수 있다. 최소제곱법은 잔차의 제곱 합(Sum of Squared Error, SSE)이 최소가 되는 회귀선을 찾는 방법이다. 잔차의 제곱 합 SSE는 다음과 같은 수식으로 나타낸다.

 

$\displaystyle SSE = \sum_{i=1}^n \epsilon_i^2 = \sum_{i=1}^n (y_i-\hat{y}_i)^2 = \sum_{i=1}^n (y_i - \beta_0 - \beta_1x_i)^2$


위 식에서 $\beta_0$은 절편 $\beta_1$은 기울기를 나타낸다. 각각을 편미분함으로써 절편과 기울기의 추정값을 구할 수 있고 그 결과는 아래와 같다.

$\displaystyle \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$

$\displaystyle \hat{\beta}_1 = {\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) \over \sum_{i=1}^n (x_i - \bar{x})^2}$

 

1.6 회귀분석 정규화 (Regularization)

11.01(화) 내 작성 예정
(다중공선성 해결을 위해 사용)

 

2. 상관관계 분석이란?

상관분석이란 두 변수간 상관성 정도를 알기 위해 사용하는 분석이다. 즉 상관분석의 목적은 임의의 두 변수 간의 상관성 정도를 보는 것이다. 상관분석을 통해 상관계수라는 수치로 정량화되어 표현된다. 이 상관계수는 대표적으로 3가지를 사용한다. 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수이다. 이 상관계수들은 아래의 데이터 종류에 따라 달리 사용된다.



2.1 상관계수의 종류

피어슨 상관계수 (모수적)
피어슨 상관계수란 키/몸무게 같이 분석코자 하는 두 변수가 모두 연속형 데이터일 때 사용하는 척도다. 피어슨 상관계수 사용을 위해 두 변수 모두 정규성을 따른다는 가정이 필요하다. 때문에 피어슨 상관계수는 두 변수간 선형적인 관계를 모수적 방법으로 나타내는 척도라고 할 수 있다. 또 피어슨 상관계수는 독립변수와 종속변수 간의 선형관계를 나타내는 척도이다. 피어슨 상관계수의 동일한 의미의 다른 이름은 피어슨 적률 상관계수, 피어슨 r, R 등이 있다. 또 일반적으로 상관계수라 하는 것은 피어슨 상관계수를 뜻한다. 피어슨 상관계수는 $-1 \leq R \leq 1$ 범위의 값을 갖는다. 0에 가까울수록 두 변수간 선형적 관계가 없고, -1에 가까울수록 음의 상관관계를 가지며 +1에 가까울수록 양의 상관관계를 가진다. 피어슨 상관계수의 수식은 다음과 같이 정의된다.

 

$\displaystyle R = {cov(x, y) \over \sqrt{var(x)var(y)}} = {\sum_i^n (x_i - \bar{x})(y_i - \bar{y}) \over \sqrt{\sum_i^n (x_i-\bar{x})^2(y_i-\bar{y})^2}}$


$n$: 표본집단 수
$\bar{x}$: 표본집단 $X$의 평균
$\bar{y}$: 표본집단 $Y$의 평균

위 수식을 통해 표본 집단으로부터 표본 상관계수를 계산할 수 있다. 표본 상관계수가 도출되면 다음으로 이 상관계수의 타당성을 위해 가설검증을 진행한뒤 가설검증 결과를 기반으로 가장 처음 수립했던 가설의 채택을 결정한다.

스피어만 상관계수 (비모수적)
분석하고자 하는 두 변수가 회귀분석의 기본 가정 중 하나인 정규성을 충족하지 않을 경우 피어슨 상관계수를 사용할 수 없다는 한계점을 극복하기 위해 사용한다. 스피어만 상관계수는 스피어만 순위 상관계수, 스피어만 $r_s$ 라고도 불린다. 순위를 이용하기에 비모수적인 방법에 해당하며 연속형 변수뿐만 아니라 순위형 변수에도 적용가능하단 특징이 있다. 예를 들어 수학 점수와 과학 점수와의 상관계수는 피어슨 상관계수로 구하고, 수학 과목 석차와 영어 과목 석차는 스피어만 상관계수로 계산할 수 있다. 스피어만 상관계수는 다음과 같은 수식으로 표현된다. 아래 수식에서 $d$는 관측값들의 등위 간 차이를 나타내고 $n$은 관측 데이터 수를 의미한다.

$\displaystyle r_s = 1 - {\sigma \sum d_i^2 \over n(n^2-1)}$


켄달 상관계수 (비모수적)
켄달 상관계수는 두 연속형 변수 간의 순위를 비교해 연관성을 계산하는 방법으로 순위 상관계수의 한 종류이다. 켄달 상관계수는 켄달타우 상관계수라고도 불린다. 켄달 상관계수는 피어슨 상관계수의 변수값이 정규분포를 따르지 않을 때 사용하기 어렵다는 단점을 보완하기 위해 사용한다. 켄달 상관계수를 계산하기 위한 핵심 개념은 concordant pair이다. 이는 각 변수의 비교 대상이 상하관계가 같을 때를 의미한다. 예를 들어 사람 a와 b의 키/몸무게를 비교했더니 사람 a가 모두 키/몸무게가 사람 b보다 크다면 concordant pair라고 말한다. 반면 사람 b와 c를 비교했을 때 b가 키는 크지만 몸무게는 c보다 작은 경우는 concordant pair가 아니다. 결과적으로 켄달 상관계수를 구하기 위한 수식은 다음과 같이 C와 D로 표현하며 여기서 C는 concordant pair한 수이며 D는 concordant pair하지 않은 수를 의미한다.

 

$\displaystyle {{C - D} \over {C + D}}$

 


간단 용어 정리

독립변수: 다른 변수에 영향을 받지 않는 변수이자 종속 변수에 영향을 주는 변수. 주로 입력이나 원인을 나타낸다.
종속변수: 독립 변수에 의해 영향을 받는 변수. 주로 출력이나 결과를 나타낸다.
표준오차: 표본평균들의 편차를 뜻한다.
회귀계수: 회귀분석에서 독립변수가 한 단위 변화함에 따라 종속변수에 미치는 영향력 크기다. 만약 두 변수간 상관관계가 없을 경우 회귀계수는 의미가 없게 된다.

Reference

[1] 설명 변수와 목적 변수 (두더지 개발자)
[2] 종속변수 vs 독립변수 (CodeDragon)
[3] 상관계수 & 결정계수 & 수정된 결정계수 (황금모찌)
[4] 결정계수란? (나부랭이의 수학블로그)
[5] 회귀분석에서의 분산분석과 결정계수/ Anova in Regression Analysis
[6] 상관분석_종류
[7] [통계] 회귀분석(Linear Regression) 정의, 특징, 종류 (Tony Park)
[8] [TIL] 회귀분석의 가정 (다람이도토리)
[9] 회귀 분석의 표준 가정 (Hooni's Playground)
[10] 상관계수와 결정계수의 관계
[11] 켄달타우 (Kendalltau) (Jukyoung LEE)

모수에 대한 포스팅은 아래 링크에서 참조 가능합니다.

[확률/통계] 모수 추정과 추정량, 추정치

 

모수적 방법과 비모수적 방법

통계학의 분석 방법은 모수(parameter)의 필요성 여부에 따라 모수적 방법과 비모수적 방법으로 분류된다. 모수란 입력 데이터의 분포를 가정(ex: 정규분포)하는 것을 의미하며, 비모수란 입력 데이터 분포를 가정하지 않음을 의미한다. 대부분의 분석법은 모수적 분석 방법에 해당한다. 하지만 만약 모수적 방법에서 가정했던 분포가 적합하지 않을 경우 입력 데이터의 특성을 잘 파악하지 못한 것이므로 비모수적 방법을 사용한다. 비모수적 방법은 입력 데이터에 대한 분포를 가정할 수 없는 경우에 사용하는 방법이다. 모수 방법에서 가정했던 입력 데이터 분포를 완화시키는 방식으로 사용한다.

 

머신러닝에서도 모수와 비모수가 적용되어 parametric model과 non parametric model 형태로 나타난다.

 

parametric model

파라미터 수가 결정된 모델을 의미한다. 파라미터 수가 결정된 이유는 입력 데이터가 어떤 분포를 따른다고 가정했기 때문이다. 따라서 non-parametric 모델과 달리 아무리 입력 데이터 양이 많더라도 학습해야 할 파라미터 수는 변하지 않는다. 이러한 parametric model의 종류는 Linear Regression, Logsitic Regression, CNN, RNN 등이 있다. 모델이 학습해야 할 parameter가 결정되어있기 때문에 non-parametric 방식에 비해 학습 속도가 빠르고 모델의 복잡성이 낮다는 장점이 있다. 반면 단점은 입력 데이터가 어떤 분포를 따른다는 가정이 있으므로 유연성이 낮고, non-parametric model에 비해 복잡한 문제를 해결하기 어렵다.

 

non-parametric model

파라미터 수가 결정되지 않은 모델을 의미한다. 입력 데이터가 어떤 분포를 따른다고 가정하지 않았기 때문이다. 따라서 non-parametric model은 입력 데이터에 대한 사전 지식이 없을 때 사용할 수 있다. 이러한 non-parametric model의 종류는 GAN이나 decision tree, random forest, k-nearest neighbor 등이 있다. 이런 non-parametric model은 어떤 분포를 다른다고 가정하지 않았기 때문에 parametric model에 비해 훨씬 유연성이 있다는 장점이 있다. 반면 parametric model에 비해 학습 속도가 느리거나, 더 많은 양의 데이터를 필요로 한다는 단점이 있다.

 

Reference

[1] Parametric model Non-parametric model (유니의 공부)

적률의 배경

적률추정법은 통계학의 근본이 되는 수리통계학에서 나오는 개념이다. 적률추정법을 이해하는데 있어 난관은 적률의 의미이다. 적률(moment)을 한마디로 나타내면 확률변수 $X$의 $n$제곱 기대값인 $E[X^n]$이다. 하지만 왜 이렇게 표현하는지를 이해하기 위해서는 적률의 의미를 살펴볼 필요가 있다. 모멘트(=적률)란 물리학에서 사용되는 개념으로 "어떤 물리량과 어떤 기준점 사이의 거리를 곱한 형태를 가지는 것 즉, 모멘트 = 물리량 * 거리"이다. 하지만 통계학에서 적률로의 직관적인 이해로 연결되지 않는다.

 

모멘트는 한 마디로 질량이 분포된 모양에 따라 그 효과가 달라지는 현상을 말한다. 예를 들어 몸무게 같은 두 명의 사람이 시소를 탄다고 하자. 이 때 두 사람이 모두 양 끝에 탔을 때랑, 한 사람은 끝에 한 사람은 한 칸 앞에 탔을 때 작용하는 모멘트가 달라지는 것과 같다. 즉 두 사람의 질량은 같아도 질량이 분포된 모양(거리)에 따라 효과가 달라지는 것이다.

 

다시 돌아와 앞전의 어떤 물리량이란 것은 질량, 힘, 길이 등이 될 수 있고 쉽게 (질량 x 거리), (힘 x 거리), (길이 x 거리)로 표현하는 것을 모멘트(=적률)이라고 한다. 참고로 모멘트와 모멘텀(Momentum)이 비슷해 혼동되기도 하는데 이 둘은 다른 개념이다. 모멘텀은 운동량을 의미하는 것으로 모멘텀(운동량) = 질량(Mass) * 속도(Velocity)이다. 예를 들어 거대한 선박이 있다면 질량이 크고 속도는 작은 운동량을 가질 것이고, 어떤 총알이 날아간다면 질량은 작고 속도는 큰 운동량을 가진다.

 

통계학에서의 적률의 의미와 정의

그렇다면 이 적률(모멘트)은 왜 통계에서 사용할까? 그 이유는 위 언급한 "분포"와 관련있기 때문이다. 물리학에서 모멘트는 앞서 시소 예제와 같이 질량과 거리에 따라 달라졌다. 통계학에서의 적률은 확률과 확률변수에 따라 적률이 달라진다. 질량이 확률로, 거리가 확률변수로 바뀐 것이다. 그렇다면 이제 통계에서의 적률의 의미를 살펴보자. 적률은 초반부에 설명했듯 한 마디로 확률변수 $X$의 $n$제곱의 기대값인 $\mu_n = E[X^n]$으로 표현한다. 이 때의 양수 $n$은 차수를 뜻하는 것으로 확률변수 $X$의 $n$차 적률이라 한다. 이러한 적률이 중요한 이유는 확률분포의 특징을 설명하는 지표로서 역할을 하기 때문이다. 예를 들어 1차 적률은 확률변수의 평균을 나타내고, 2차 중심적률은 분산, 3차 중심적률은 왜도(skewness), 4차 중심적률은 첨도(kurtosis)를 나타낸다. 여기서 왜도란 확률밀도함수의 비대칭성을 나타내는 척도이며, 첨도는 확률밀도함수의 뾰족한 정도를 뜻하는 척도다. 

 

 

즉 확률분포의 특징을 나타내는 척도(Measure)는 4가지로 평균, 분산, 왜도, 첨도가 있고 이는 적률의 확률분포 X의 n제곱의 기대값을 통해 나타낼 수 있다. 평균은 원점에 대한 1차 모멘트로 $E[X]$로 표현하고 분산은 평균에 대한 2차 모멘트로 $E[(X-\mu)^2]$로 표현한다. 또 왜도는 평균에 대한 3차 모멘트로 $E[(X-\mu)^3]$로 표현하고 첨도는 평균에 대한 4차 모멘트로 $E[(X-\mu)^4]$로 표현한다. 만약 여기에 상수 $c$가 있다면 확률변수 $X$의 $n$차 적률은 $E[(X-c)^n]$로 표현한다. 이 때 $c=0$이면 원적률(적률)이라 하고 $c=E[X]$라면 중심적률이라 한다. 만약 어떤 두 확률변수의 모든 적률이 일치한다면 두 확률변수는 같은 분포를 가진다고 말할 수 있다. 이 특징이 가장 중요하다. 후에 모수 추정을 위해 사용하는 적률추정법의 원리가 되기 때문이다.

 

원점에 대한 $n$차 적률을 수식으로 나타내면 크게 이산확률변수와 연속확률변수로 표현할 수 있고 아래와 같다.

 

$\displaystyle E[X^n] = \begin{cases} \mbox{이산확률변수:} \sum_x x^n f(x)  \\ \mbox{연속확률변수:} \int_{-\infty}^{\infty} x^n f(x)dx \end{cases}$

 

이 때 $f(x)$는 이산확률변수에선 확률질량함수가 되고 연속확률변수에선 확률밀도함수가 된다. 위 정의에 따라 $n=1$을 대입하면 일반적으로 알고 있던 확률변수 X의 기대값이 된다. 즉 원점에 대한 1차 적률이 지금껏 알고 있던 기대값이다. 

 

적률생성함수의 필요성과 정의

적률의 수식 정의에 따라 연속확률변수에서 적률을 구하기 위해 적분을 해야하지만 적분 계산이 어렵거나 불가능한 경우도 있기 때문에 이러한 상황을 해결하고자 적률생성함수(Moment Generating Function, MGF)를 만들어 사용한다. 적률생성함수는 적률과 마찬가지로 이산확률변수와 연속확률변수로 나뉘어 다음과 같이 정의된다.

 

$\displaystyle M_X(t) = E[e^{tX}] = \begin{cases} \mbox{이산확률변수:} \sum_x e^{tx}f(x) \\ \mbox{연속확률변수:} \int_{-\infty}^\infty e^{tx}f(x)dx \end{cases}$

 

이 적률생성함수에서 n차 적률을 구하기 위해서는 적률생성함수를 $t$를 $n$번 미분하면 된다. 이 때 테일러 급수를 사용한다. 테일러 급수는 어떤 함수 $f(x)$를 다항함수 형태로 바꿔주는 방법이다. 테일러 급수는 아래와 같이 전개할 수 있다.

 

$\displaystyle f(x) = f(a) + f'(a)(x-a) + {1\over 2!}f''(a)(x-a)^2 + {1\over 3!}f'''(a)(x-a)^3 + \dots$

 

이를 적률생성함수의 기대값 속의 $e^{tX}$에 적용하면 다음과 같이 테일러 전개가 가능하다. ($f(t) = e^{tX}$)

 

$\displaystyle f(t) = e^{tX} = e^{aX} + Xe^{aX}(t-a)+ {1\over 2!}X^2e^{aX}(t-a)^2+ {1\over 3!}X^3e^{aX}(t-a)^3+ \dots$

 

다음으로 $a=0$을 대입하여 매클로린 급수 형태로 만들어준다. 테일러 급수는 일반적으로 무한한 항을 모두 사용하는 것이 아니라 저차원의 일부 항만 사용하여 근사하는 형태로 활용한다. 고차원 항을 많이 사용하면 어떤 함수 $f(x)$에 매우 가까워지지만 그만큼 계산 비용이 많이 발생하게 되기 때문이다. 그래서 $a=0$을 대입하는 이유는 테일러 급수에 직접 대입해본다면 하나의 항을 제외한 모든 항이 사라져 $f(x) = f(a)$만 남게 되어 구하고자 하는 값을 곧바로 얻을 수 있기 때문이다. 적률생성함수에선 $t=0$일 때의 값을 사용하므로 $a=0$을 대입하면 다음과 같아진다.

 

$\displaystyle e^{tX} = 1 + Xt + {1\over 2!}X^2t^2+ {1\over 3!}X^3t^3 + \dots$  

 

이를 원래 적률생성함수에 대입하게 되면 다음과 같아진다.

 

$\displaystyle M_X(t) = E[e^{tX}] = E[1+Xt+{1\over 2!}X^2t^2 + {1\over 3!}X^3t^3 \dots]$

 

위의 기대값 내부에 있는 항을 분리해서 표현하면 다음과 같아진다.

 

$\displaystyle = 1 + E[Xt] + E[{1\over 2!}X^2t^2] + E[{1\over 3!}X^3t^3] + \dots$

 

기대값과 무관한 항을 앞으로 빼주면 다음과 같다.

 

$\displaystyle = 1 + E[X]t + {1\over 2!}E[X^2]t^2 + {1\over 3!}E[X^3]t^3+ \dots$

 

따라서 적률생성함수는 다음과 같다.

 

$\displaystyle M_X(t) =  1 + E[x]t + {1\over 2!}E[X^2]t^2 + {1\over 3!}E[X^3]t^3+ \dots$

 

여기서 구한 적률생성함수는 미분을 통해 사용한다. 만약 1번 미분한다면 다음과 같다.

 

$\displaystyle {dM_x(t) \over dt} = 0 + E[X] + E[X^2]t + {1\over 2!}E[X^3]t^2 + \dots$

 

$t=0$을 대입해주면 결국 다음과 같이 E[X]만 남게 되고 결국 1차 미분하면 1차 적률이 구해진다.

 

$\displaystyle {dM_X(0) \over dt} = E[X]$

 

또 만약 2번 미분한다면 다음과 같다.

 

$\displaystyle {d^2M_X(t) \over dt^2} = E[X^2] + E[X^3]t + \dots$

 

또 $t=0$을 대입해주면 다음과 같이 2차 적률 $E[X^2]$을 구할 수 있게 된다.

 

$\displaystyle {d^2M_X(0) \over dt^2} = E[X^2] + E[X^3]t + \dots$

 

마지막으로 n번 미분한다면 다음과 같은 n차 적률을 구할 수 있게 되는 것이다.

 

$\displaystyle {d^nM_X(0) \over dt^n} = E[X^n]$

 

즉 요약하면 적률생성함수란 확률변수 $X$의 거듭제곱의 기대값을 구하는 함수이며, 적률생성함수를 한 번 구해두기만 하면 $n$번 미분하고 $t=0$을 대입해주면 쉽게 $n$차 적률을 구할 수 있다. 

 

 

적률추정법

적률의 배경과 의미와 정의부터 적률생성함수를 만들어 미분해서 $n$차 적률을 구해보았다. 그렇다면 이러한 적률은 어디에 쓰일까? 궁극적으로 적률은 적률추정법을 통해 모수를 추정하기 위해 사용한다. 적률추정법은 $n$차 모적률과 $n$차 표본적률일치시켜 모수를 추정하는 방법으로 최대가능도와 베이지안 추론과 같이 모수를 추정하는 점추정 방법에 속한다. 모수란 평균과 분산과 같은 모집단을 대표할 수 있는 값으로 보통 통계량 중 평균을 가장 많이 사용한다. 따라서 적률법이라고도 불리는 이 적률추정법은 표본평균을 통해 모평균과 일치하는 $\theta$를 찾는 방법이다. 평균이 아니여도 분산 등의 다른 통계량이 일치해도 된다. 하지만 일반적으로 확률분포에서 모수는 평균인 기대값 $\mu = E(x)$으로 표현한다. 예를 들어 모집단이 정규 분포를 따른다고 할 때 $N(\mu, \sigma^2)$로 표현하는 것과 같다. 

 

돌아와 적률추정법은 $n$차 모적률과 $n$차 표본적률을 일치 시켜 모수를 추정하는 방법이라 했다. 이를 수식으로 나타내면 $n$차 모적률 ($\displaystyle m_n = E[X^n]$)을 $n$차 표본 적률 ($\displaystyle \hat{m}_n = {1\over n}\sum_{i=1}^m X_i^n$)과 일치시켜 모수를 추정한다고 표현한다. 그리고 이 표본평균이 곧 모수 $\theta$에 대한 점추정 값이 된다. 

 

이러한 적률추정법은 점추정량을 구하는 가장 오래된 방법으로 최대가능도보다 자주 사용되진 않으나 손쉽게 계산 가능하다는 장점이 있다. 반면 비현실적인 추정량을 제시하는 경우가 있다는 단점이 존재한다. 이를 보완하기 위해 최대우도법(MLE), 베이즈 추정법 등을 사용한다.

 

덧붙여, 이 적률은 딥러닝에서 Adam Optimizer에 활용된다.

 

Reference

[1] 모멘트 & 모멘텀

[2] 모멘트( moment ) (lifeisforu)

[3] What Is Momentum?

[4] 적률법 (위키백과)

[5] 통계학 : 적률 (moment)

[6] Option Skew — Part 6: The Skewness and Kurtosis for a Lognormal (Roi Polanitzer)

[7] [확률과 통계] 45. 적률과 적률생성함수, Moment & Moment-Generating Function (mykepzzang)

[8] [통계 적률의 이해] 7. 적률생성함수 수학 거의 없이 이해하기 (통계의 본질)

[9] [통계학] 17. 추정법과 점추정량 - 적률법, 최대가능도추정법, 일치성, 비편향성, 효율성 (AI 꿈나무)

[10] [적률의 이해] 6. 적률생성함수란? (통계의 본질)

[11] Method of Estimation 추정법 (정보통신기술용어해설)

 

가설 검정이란?

가설 검정이란 어떤 추측이나 가설에 대해 타당성을 조사하는 것이다. 통계학에서 가설 검정은 표본통계량으로 모수를 추정할 때 추정한 모수값 또는 확률 분포 등이 얼마나 타당한지 평가하는 통계적 추론이다. 이 가설 검정에는 크게 귀무가설과 대립가설이 쓰인다. 귀무가설(null hypothesis)은 처음부터 버릴 것으로 예상하는 가설이며, 대립 가설(alternative hypothesis)은 귀무가설과 반대로 실제로 주장하거나 증명하고 싶은 가설이다.

 

가설 검정 단계는?

귀무가설과 대립가설을 통해 가설 검정을 진행하는 단계는 크게 4단계로 이루어진다. 

 

 

위 4단계의 과정을 제약회사의 신약 개발 예시를 들어 설명하면 다음과 같다.

 

1. 귀무가설과 대립가설을 수립한다.

귀무가설($H0$): 신약이 효과가 없을 것이다. 따라서 제약회사에 유의미한 수익 창출이 어려울 것이다.

대립가설($H1$): 신약이 효과가 있을 것이다. 따라서 제약회사에 유의미한 수익 창출이 가능할 것이다.

 

이 때 귀무 가설은 보통 $H0$로 표현하며 대립 가설은 $H1$로 표현한다. 두 가설들은 아래 단계들을 거쳐 하나가 채택된다. 

 

2. 유의수준(significant level, $\alpha$)을 설정한다. 

유의수준은 가설 예측을 100% 옳게 할 수 없으므로 오차를 고려하기 위한 것이다. 유의수준을 통해 귀무가설 채택여부 결정한다. 일반적으로 $\alpha = 0.05$로 설정하지만 검정 실시자의 결정에 따라 달라질 수 있다. 여기서 만약 $\alpha=0.05$로 설정한다면 이 값을 기준으로 귀무가설 또는 대립가설을 채택한다. 만약 이후 단계들로부터 검정 통계량을 기반으로 하는 p-value가 산출되었을 때 0.05보다 낮다면 귀무가설을 기각하고 대립가설을 채택한다. 

 

유의수준을 정할 때 함께 결정해야 하는 것은 양측 검정/단측 검정이다. 양측검정은 두 가설 모두에 관심 있을 때 사용하며 단측검정은 한 가설에만 관심 있을 때 사용한다. 예를 들어 제약회사 예시에서는 신약 효과가 있는지만 증명하면 자연스럽게 효과가 없음도 증명할 수 있으므로 단측 검정을 사용할 수 있다. 하지만 만약 남자와 여자의 스트레스의 차이를 두고 가설이 수립되었다면 양쪽 모두 살펴보아야 하므로 양측 검정을 사용해야 한다.

 

 

단측 검정과 양측 검정

(* 유의수준과 함께 사용되는 기각역이라는 것은 단측 검정과 양측 검정에 위치하는 유의수준 $\alpha$ 크기에 해당하는 영역을 의미한다.)

 

3. 검정 통계량을 계산후 p-value를 도출한다. 

검정 통계량은 모수 추정을 위해 구하는 표본 통계량과 같은 의미를 가지는 것으로 가설 검정시 사용하는 표본 통계량을 뜻한다. 또 검정 통계량은 표본을 통해 가설 검정에 사용하는 확률 변수이다. 확률 변수라는 것은 그래프 상에서 x축을 나타내는 것이므로 확률 변수에 대한 확률 값을 나타내는 y값과는 다르다. 따라서 이 검정 통계량(확률 변수)은 확률분포 상에서 x축을 의미한다. 이 검정 통계량을 구하기 위해 사용하는 방법들은 아래와 같이 Z검정, T검정, 카이제곱 검정, F검정 등이 있다. 

이쯤에서 혼동되는 것은 검정이라 부르는것과 분포라 부르는 것은 어떤 차이를 가질까? 핵심은 내부적으로 사용하는 함수 식이 다르다. 예를 들어 검정에서 사용되는 함수는 검정력 함수라 부르는 것으로 확률분포의 x축 값을 검정력 함수에 넣어 검정 통계량을 구하는데 사용한다. 반면 분포는 x축과 함께 y축은 확률을 구해 확률분포로 나타낼 수 있는 식이다. 위의 그림에선 검정력 함수만 나타내고 있다.

 

이제 가설 검정의 핵심인 p-value(유의 확률)을 구하기 위해서는 위 검정력 함수를 통해 구한 검정 통계량을 알아야 한다. 예를 들어 아래와 같이 Z분포를 따르는 검정통계량이 있고 Z검정을 통해 어떤 한 표본의 검정통계량 z를 구했을 때 x축 위의 z지점까지의 누적분포함수가 곧 p-value가 된다.

 

 

4. p-value를 기준으로 귀무가설 채택 여부를 결정한다.

만약 위 그래프에서 검정 통계량 z가 기각역이라 불리는 유의수준 $\alpha$ 영역 내에 위치하게 된다면 귀무가설을 기각하고 대립가설을 채택하게 된다. 즉  p-value가 유의수준 $\alpha$보다 같거나 작다면 귀무가설을 기각하고, p-value가 유의수준 $\alpha$보다 크다면 귀무가설을 채택한다.

 

제약회사 예시에서 만약 신약 효과가 없을 확률이 유의수준($\alpha=0.05$)보다 작다면 효과가 없다는 귀무가설을 기각하고 효과가 있다는 대립가설을 채택하는 것이다. 반대로 만약 신약 효과가 없을 확률이 유의수준($\alpha=0.05$)보다 크다면 신약 효과가 없을 확률이 더 높은 것이므로 귀무가설을 채택하고 대립가설을 기각한다.

 

1종 오류와 2종 오류

1종 오류

쉽게 말해 1종 오류란 귀무가설이 참인데 기각한 경우를 말한다. 예를 들어 신약이 효과가 있어 제약회사에서 많은 수익을 벌었지만 알고보니 신약이 효과가 없었을 때를 의미한다. 즉 귀무가설을 기각하고 대립가설을 채택했지만 이것이 잘못된 검정이었음을 뜻한다. 이에 의거하면 p-value의 의미는 1종 오류를 얼마나 범할 확률을 나타내기도 한다. 즉 p-value가 5%라면 100번 검정하면 5번 정도 1종 오류가 발생하는 것이다. 또 이에 따라 유의 수준 $\alpha$는 1종 오류의 상한선이라고 말할 수 있다. 따라서 검정 결과 p-value가 $\alpha$보다 낮다면 상한선을 벗어나지 않으므로 이를 귀무가설을 기각하고 p-value가 $\alpha$보다 높다면 상한선을 벗어났으므로 귀무가설을 채택한다.

 

2종 오류

쉽게 말해 2종 오류란 귀무가설이 거짓인데 참으로 판단한 경우를 의미한다. 예를 들어 신약이 효과가 없다는 귀무가설이 사실로 밝혀져서 제약회사에서 생산과 판매를 그만두었지만 알고보니 효과가 있었을 때를 의미한다. 

 

Reference

[1] [개념 통계 21] 가설 검정 방법과 원리 - 필로홍

[2] 검정통계량이란? - 나부랭이의 수학블로그

[3] 가설검정 기본개념 완벽 이해하기

[4] Difference Between One-tailed and Two-tailed Test

 

데카르트는 "나는 생각한다 고로 존재한다" 라는 말을 남겼다. 이 말의 기저에는 데카르트의 실체관에 기인한다. 여기서 실체관이란 우주는 궁극적으로 두 개의 실체(substance)로 구성되어 있고 그것은 정신과 물질이라는 것이다. 이 실체관을 이해하기 위해선 실체라는 개념이 매우 중요하다. 실체는 드러난 현상의 배후나 본질을 뜻한다. 이 때 본질은 독립성을 띤다. 본질이기에 그 어떤 것에도 종속되지 않기 때문이다. 따라서 본질인 실체는 독립성을 띤다. 이 독립성을 띤다는 것은 곧 실체라는 존재가 존재성을 유지하기 위해 타존재에 의존하지 않는 것이다. 의존하는 순간 타존재에 종속되기에 진정한 실체라 말할 수 없기 때문이다. 이에 따라 실체는 그 자체로 존재의 독립성을 띤다.

 

이에 의거하면 정신과 물질은 모두 독립성을 띠어야 한다. 정신의 존립을 위해 물질을 필요로 하지 않고, 물질의 존립을 위해 정신을 필요로 하지 않는 것이다. 상호배타성을 띠는 것이며 때문에 상호교섭이 이루어질 수 없다. 상호교섭하는 순간 독립성이 성립되지 않고, 실체성이 부인되기 때문이다. 이는 곧 정신과 물질은 각각 그 자체로 자기가 원인이 되는 자기 원인자가 되는 것과 동일하다. 정신과 물질이 각각 1원인이 되는 것이며 그로 인해 나는 생각한다 고로 존재한다는 말이 성립하게 되는 것이다. 

 

하지만 이러한 실체관은 오류다. 인간에게 있어 정신과 물질은 몸 하나에 귀속된다. 또 인간은 어떤 경우에도 고존(孤存)할 수 없다. 인간은 고립된 존재가 아니며 끊임없이 타존재와 상호교섭하며 그 존재성을 유지한다. 존재성을 유지한다는 것은 존재를 끊임없이 생성하는 것이며 끊임없이 생성하는 것은 끊임없이 변화하는 것이다. 끊임없이 변화하는 것은 곧 끊임없이 타존재와 교섭하는 것이다. 이는 자기의 존재의 존속을 위해 타존재를 필요로하지 않는다는 실체관을 거부하는 것과 같다. 따라서 정신과 물질을 이루는 자기의 몸은 존재성의 실체가 될 수 없다.

빈도주의(Frequentism)와 베이즈주의(Baysianism)

통계학에서 확률을 해석하는 두 관점이 있다. 그 관점은 빈도주의와 베이즈주의다. 빈도주의는 연역적 추론에 해당하며 베이즈주의는 귀납적 추론에 해당한다. 이러한 빈도주의와 베이주주의는 상호보완 관계에 있다. 빈도주의는 확률을 사건의 빈도로 보며, 반대로 베이즈주의는 확률을 사건 발생에 대한 믿음/척도로 바라본다. 또 빈도주의는 모수를 정적으로 전제되어 있는 상수로 보며, 반대로 베이즈주의는 모수를 동적이며 불확실한 변수로로 본다. 

 

빈도주의는 사건을 여러 번 관측하여 발생한 확률을 검정하므로 사건이 독립성을 띤다는 장점이 있다. 예를 들어 동전 앞/뒷면을 여러 번 던져 관찰하게 되면 앞면도 0.5 뒷면도 0.5에 수렴하게 되며 앞면이 나올 확률이 0.5, 뒷면이 나올 확률이 0.5로 고정시킨다. 반면 베이지안주의는 동전이 앞면이 나왔다는 주장의 신뢰도가 50%다, 뒷면이 나왔다는 주장의 신뢰도가 50%라고 말한다. 빈도주의의 단점은 사건이 충분히 발생하지 못해 즉, 표본(데이터)이 부족할 경우 이러한 확률의 신뢰도가 떨어진다는 점이다.

 

베이즈주의는 이러한 빈도주의의 단점인 만약 여러 번의 사건을 관측할 수 없는 경우에 사용할 수 있다. 예를 들어 쓰나미의 예측 문제와 같다. 쓰나미가 발생하기 위해서는 여러 변수가 있다. 우선 지진이 발생해야하고 이로 인해 단층에 어긋남이 생기고 지형이 변화함에 따라 중력장이 발생할 때 주위로 퍼져나가면서 쓰나미가 된다. 이처럼 발생횟수가 적은 사건들에는 빈도주의를 적용할 수 없다. 다만 베이즈주의를 사용해 귀납적인 추론으로 쓰나미가 발생할 확률을 구할 수 있을 뿐이다. 본 글에서는 이러한 베이즈주의의 근간이 되는 베이즈 정리에 대해 정리하고자 한다.

 

베이즈 정리란?

베이즈 정리는 사전 확률(prior probability)과 사후 확률(posterior probability)의 관계를 나타내는 정리다. 이 베이즈 정리는 조건부 확률을 기반으로 한다. 조건부 확률이란 사건 $A$가 발생했다는 전제하에 사건 $B$가 일어날 확률이다. $P(B|A) = {P(B \cap A) \over P(A)}$로 표현한다. 베이즈 정리는 이 조건부 확률에서 유도된 것으로 다음과 같은 수식으로 나타낸다.

 

위 두 수식은 동일하게 베이즈 정리를 나타낸 것으로 변수명만 달리했다. 그 이유는 이해를 조금 더 쉽게 돕기 위함으로 왼쪽은 조건부 확률로부터 유도될 때 흔히 사용하고, 오른쪽은 베이즈 정리가 결국 모수($\theta$) 추정을 목적으로 한다는 것을 보이기 위함이다. 수식의 의미를 하나씩 분석해보자면, 먼저 posterior는 새로운 표본 X가 관측됐을 때 어떤 모수값을 갖는지를 의미한다. likelihood는 어떤 표본 X가 관찰되었을 때 어떤 확률분포를 갖는 모집단(모수)에서 추출되었을 확률을 의미한다. prior는 사전확률인 모수값을 의미하며, evidence는 모집단으로부터 표본 X가 관측될 확률이다. 결국 이 베이즈 정리를 요약하면 가능도(likelihood), 사전확률(prior), 관측 데이터(evidence)를 이용해 사후 확률(posterior)를 예측하는 방법이다.

 

베이즈 정리 유도

베이즈 정리를 유도하는 방법은 간단하다. 베이즈 정리 유도는 아래 식이 성립됨을 증명하는 것이다. 

 

$P(A|B) = {P(A \cap B) \over P(B)} = {P(B|A)P(A) \over P(B)}$

 

증명을 위해 조건부 확률 두 개를 구해준 다음 분모를 이항하고 양변을 나눠주면 된다. 앞서 조건부 확률은 $P(A|B) = {P(A\cap B) \over P(B)}$라고 했다. 이를 반대로 하면 $P(B|A) = {P(B\cap A) \over P(A)}$이다. 여기서 양변에 분모를 곱해주면 다음과 같은 형태가 된다. 

 

$P(A|B)P(B) = P(A\cap B)$

$P(B|A)P(A) = P(B\cap A)$

 

이 때, $P(A\cap B) = P(B\cap A)$이므로

$P(A|B)P(B) = P(B|A)P(A)$가 되고 여기서 양변을 $P(B)$로 나눠주면

$P(A|B) = {P(B|A)P(A) \over P(B)}$가 된다.

 

베이즈 정리 예시: 스팸 메일 확률 예측

스팸 메일 필터는 특정 단어 포함 여부를 기준으로 스팸 여부를 판단한다. 어떤 한 회사에 수신되는 메일 중 30%가 스팸메일이고 70%가 정상메일이다. 또 스팸메일 내용엔 A란 특정 단어가 포함될 확률이 40%고 정상 메일은 10%다. 이 때 A라는 단어가 보일 때 이 메일이 스팸메일일 확률은 얼마인가?

 

$P(S) = 0.3$ (스팸메일일 확률)

$P(N) = 0.7$ (정상메일일 확률)

$P(A|S) = 0.4$ (스팸메일에 A가 포함될 확률)

$P(A|N) = 0.1$ (정상메일에 A가 포함될 확률)

$P(A) = 0.19$ (A가 정상메일/스팸메일 모두 포함될 확률)

 

$P(A)$의 경우 스팸메일에 A가 포함될 확률 + 정상메일에 A가 포함될 확률이다. 두 사건은 상호배타적이므로 덧셈법칙을 사용해 계산할 수 있다. 즉 $P(A) = (P(A|S) * P(S)) + (P(A|N) * P(N))$이다. 이를 계산하면 $(0.4 * 0.3) + (0.1 * 0.7) = 0.19$이다. 즉 $P(A) = 0.19$다.

 

이렇게 사전 정보를 전부 구했으니 A라는 단어가 보일 때 스팸메일일 확률인 $P(A|S)$를 구해보자. $P(A|S) = {P(A\cap S) \over P(S)}$다. 여기서 이항해주면 $P(A|S)P(S) = P(A\cap S)$다. 이를 계산하면 $0.3 \times 0.4 = 0.12$다. 

 

$P(S|A) = {P(S\cap A) \over P(A)} = {0.12 \over 0.19} = 0.6315$

 

즉 사전 확률인, A라는 단어가 보일 때 해당 메일이 스팸메일일 확률이 0.6315가 된다. 

 

Reference

[1] https://ko.wikipedia.org/wiki/베이즈_추론

[2] https://brunch.co.kr/@aischool/3

[3] https://velog.io/@taeki531/베이지안베이즈-정리-유도

[4] https://deep-learning-study.tistory.com/44

누적분포함수란 확률론에서 주어진 확률분포가 특정 값보다 작거나 같은 확률을 나타내는 함수이다. 이 특정 값이라는 것은 어떤 사건을 의미하므로 누적분포함수는 어떤 사건이 얼마나 많이/적게 나타나는지에 관한 함수라고도 할 수 있다. 누적분포함수의 대표적인 특징은 확률변수가 이산형/연속형과 무관하게 모든 실수값을 출력한다는 것이다. 예를 들어 주사위를 던져 특정 값이 나올 확률변수 X의 값이 아래와 같이 1~6로 주어져 있다고 가정하자.

 

이 때 만약 확률변수 X가 2보다 같거나 낮은 수가 나타날 확률이 얼마일까? 고민할 것 없이 1, 2 두 가지 경우이므로 $2\over 6$이다. 그렇다면 만약 확률변수 X가 2.5보다 작거나 같은 경우와 같이 X가 실수 값을 가지는 경우는 어떻게 해야할까? 이 또한 마찬가지다. 확률변수는 이산 값만 갖고 있으므로 2.5보다 같거나 낮은 경우는 1, 2를 가질 경우이니 $2\over 6$다. 또 만약 확률변수 X가 10보다 작거나 같을 확률을 묻는다면? 1, 2, 3, 4, 5, 6 모든 경우가 해당하므로 ${6\over 6} = 1$이 된다. 이처럼 누적분포함수는 확률변수가 이산확률변수/연속확률변수와 무관하게 실수값을 입력으로 받을 수 있다. 이러한 누적분포함수를 수식으로는 다음과 같이 나타낸다.

 

$F(a) = P(X \leq a) = \sum_{x \leq a} p(x)$

 

수식을 세 부분으로 나누어 분석해보자면 왼쪽에 가까울수록 추상성을, 오른쪽으로 갈수록 구체성을 띤다. 가장 맨 왼쪽의 함수 $F$는 누적분포함수를 의미한다. 누적분포함수는 특정확률변수보다 같거나 작을 확률을 표현하는 함수이므로 특정확률변수로 $a$를 입력으로 한다. 가운데 식도 마찬가지다 어떤 사건에서 발생할 수 있는 여러 확률변수 중에서 $a$보다 작은 확률변수들의 확률값을 구하는 것이다. 오른쪽 식도 동일하다. $a$보다 작은 확률변수 x에 대해서 모든 합을 구해주는 것이다. 위 주사위 예를 들어 2.5보다 작을 확률이면 $a=2.5$가 되고 확률변수 x는 1,2를 가질 수 있으므로 위 식의 값은 $2\over 6$이 된다. 이러한 누적분포를 그래프로는 다음과 같이 표현할 수 있다.

 

위 그림에서 확인할 수 있듯 누적분포함수(CDF)는 확률밀도함수(PDF) 전체에 대한 부분을 표현하는 함수라고도 할 수 있다. PDF가 확률변수가 가질 수 있는 전체 확률 분포를 표현한 것이라면, CDF는 전체 확률 분포에서 확률변수가 $a$ 보다 작을 확률이다. 위 예시에서는 $a=1$보다 작을 확률이 되겠다. 이러한 확률밀도함수와 누적분포함수와의 관계를 다르게 말해서, 확률밀도함수를 적분하면 누적분포함수가 되며 또 반대로 누적분포함수를 미분하면 확률분포함수가 된다고 표현할 수 있다.

 

Reference

[1] https://www.youtube.com/watch?v=vMBxOtGhFQ0 

[2] https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=jung1pp&logNo=221597577634 

[3] https://ko.wikipedia.org/wiki/누적_분포_함수

+ Recent posts