적률의 배경

적률추정법은 통계학의 근본이 되는 수리통계학에서 나오는 개념이다. 적률추정법을 이해하는데 있어 난관은 적률의 의미이다. 적률(moment)을 한마디로 나타내면 확률변수 $X$의 $n$제곱 기대값인 $E[X^n]$이다. 하지만 왜 이렇게 표현하는지를 이해하기 위해서는 적률의 의미를 살펴볼 필요가 있다. 모멘트(=적률)란 물리학에서 사용되는 개념으로 "어떤 물리량과 어떤 기준점 사이의 거리를 곱한 형태를 가지는 것 즉, 모멘트 = 물리량 * 거리"이다. 하지만 통계학에서 적률로의 직관적인 이해로 연결되지 않는다.

 

모멘트는 한 마디로 질량이 분포된 모양에 따라 그 효과가 달라지는 현상을 말한다. 예를 들어 몸무게 같은 두 명의 사람이 시소를 탄다고 하자. 이 때 두 사람이 모두 양 끝에 탔을 때랑, 한 사람은 끝에 한 사람은 한 칸 앞에 탔을 때 작용하는 모멘트가 달라지는 것과 같다. 즉 두 사람의 질량은 같아도 질량이 분포된 모양(거리)에 따라 효과가 달라지는 것이다.

 

다시 돌아와 앞전의 어떤 물리량이란 것은 질량, 힘, 길이 등이 될 수 있고 쉽게 (질량 x 거리), (힘 x 거리), (길이 x 거리)로 표현하는 것을 모멘트(=적률)이라고 한다. 참고로 모멘트와 모멘텀(Momentum)이 비슷해 혼동되기도 하는데 이 둘은 다른 개념이다. 모멘텀은 운동량을 의미하는 것으로 모멘텀(운동량) = 질량(Mass) * 속도(Velocity)이다. 예를 들어 거대한 선박이 있다면 질량이 크고 속도는 작은 운동량을 가질 것이고, 어떤 총알이 날아간다면 질량은 작고 속도는 큰 운동량을 가진다.

 

통계학에서의 적률의 의미와 정의

그렇다면 이 적률(모멘트)은 왜 통계에서 사용할까? 그 이유는 위 언급한 "분포"와 관련있기 때문이다. 물리학에서 모멘트는 앞서 시소 예제와 같이 질량과 거리에 따라 달라졌다. 통계학에서의 적률은 확률과 확률변수에 따라 적률이 달라진다. 질량이 확률로, 거리가 확률변수로 바뀐 것이다. 그렇다면 이제 통계에서의 적률의 의미를 살펴보자. 적률은 초반부에 설명했듯 한 마디로 확률변수 $X$의 $n$제곱의 기대값인 $\mu_n = E[X^n]$으로 표현한다. 이 때의 양수 $n$은 차수를 뜻하는 것으로 확률변수 $X$의 $n$차 적률이라 한다. 이러한 적률이 중요한 이유는 확률분포의 특징을 설명하는 지표로서 역할을 하기 때문이다. 예를 들어 1차 적률은 확률변수의 평균을 나타내고, 2차 중심적률은 분산, 3차 중심적률은 왜도(skewness), 4차 중심적률은 첨도(kurtosis)를 나타낸다. 여기서 왜도란 확률밀도함수의 비대칭성을 나타내는 척도이며, 첨도는 확률밀도함수의 뾰족한 정도를 뜻하는 척도다. 

 

 

즉 확률분포의 특징을 나타내는 척도(Measure)는 4가지로 평균, 분산, 왜도, 첨도가 있고 이는 적률의 확률분포 X의 n제곱의 기대값을 통해 나타낼 수 있다. 평균은 원점에 대한 1차 모멘트로 $E[X]$로 표현하고 분산은 평균에 대한 2차 모멘트로 $E[(X-\mu)^2]$로 표현한다. 또 왜도는 평균에 대한 3차 모멘트로 $E[(X-\mu)^3]$로 표현하고 첨도는 평균에 대한 4차 모멘트로 $E[(X-\mu)^4]$로 표현한다. 만약 여기에 상수 $c$가 있다면 확률변수 $X$의 $n$차 적률은 $E[(X-c)^n]$로 표현한다. 이 때 $c=0$이면 원적률(적률)이라 하고 $c=E[X]$라면 중심적률이라 한다. 만약 어떤 두 확률변수의 모든 적률이 일치한다면 두 확률변수는 같은 분포를 가진다고 말할 수 있다. 이 특징이 가장 중요하다. 후에 모수 추정을 위해 사용하는 적률추정법의 원리가 되기 때문이다.

 

원점에 대한 $n$차 적률을 수식으로 나타내면 크게 이산확률변수와 연속확률변수로 표현할 수 있고 아래와 같다.

 

$\displaystyle E[X^n] = \begin{cases} \mbox{이산확률변수:} \sum_x x^n f(x)  \\ \mbox{연속확률변수:} \int_{-\infty}^{\infty} x^n f(x)dx \end{cases}$

 

이 때 $f(x)$는 이산확률변수에선 확률질량함수가 되고 연속확률변수에선 확률밀도함수가 된다. 위 정의에 따라 $n=1$을 대입하면 일반적으로 알고 있던 확률변수 X의 기대값이 된다. 즉 원점에 대한 1차 적률이 지금껏 알고 있던 기대값이다. 

 

적률생성함수의 필요성과 정의

적률의 수식 정의에 따라 연속확률변수에서 적률을 구하기 위해 적분을 해야하지만 적분 계산이 어렵거나 불가능한 경우도 있기 때문에 이러한 상황을 해결하고자 적률생성함수(Moment Generating Function, MGF)를 만들어 사용한다. 적률생성함수는 적률과 마찬가지로 이산확률변수와 연속확률변수로 나뉘어 다음과 같이 정의된다.

 

$\displaystyle M_X(t) = E[e^{tX}] = \begin{cases} \mbox{이산확률변수:} \sum_x e^{tx}f(x) \\ \mbox{연속확률변수:} \int_{-\infty}^\infty e^{tx}f(x)dx \end{cases}$

 

이 적률생성함수에서 n차 적률을 구하기 위해서는 적률생성함수를 $t$를 $n$번 미분하면 된다. 이 때 테일러 급수를 사용한다. 테일러 급수는 어떤 함수 $f(x)$를 다항함수 형태로 바꿔주는 방법이다. 테일러 급수는 아래와 같이 전개할 수 있다.

 

$\displaystyle f(x) = f(a) + f'(a)(x-a) + {1\over 2!}f''(a)(x-a)^2 + {1\over 3!}f'''(a)(x-a)^3 + \dots$

 

이를 적률생성함수의 기대값 속의 $e^{tX}$에 적용하면 다음과 같이 테일러 전개가 가능하다. ($f(t) = e^{tX}$)

 

$\displaystyle f(t) = e^{tX} = e^{aX} + Xe^{aX}(t-a)+ {1\over 2!}X^2e^{aX}(t-a)^2+ {1\over 3!}X^3e^{aX}(t-a)^3+ \dots$

 

다음으로 $a=0$을 대입하여 매클로린 급수 형태로 만들어준다. 테일러 급수는 일반적으로 무한한 항을 모두 사용하는 것이 아니라 저차원의 일부 항만 사용하여 근사하는 형태로 활용한다. 고차원 항을 많이 사용하면 어떤 함수 $f(x)$에 매우 가까워지지만 그만큼 계산 비용이 많이 발생하게 되기 때문이다. 그래서 $a=0$을 대입하는 이유는 테일러 급수에 직접 대입해본다면 하나의 항을 제외한 모든 항이 사라져 $f(x) = f(a)$만 남게 되어 구하고자 하는 값을 곧바로 얻을 수 있기 때문이다. 적률생성함수에선 $t=0$일 때의 값을 사용하므로 $a=0$을 대입하면 다음과 같아진다.

 

$\displaystyle e^{tX} = 1 + Xt + {1\over 2!}X^2t^2+ {1\over 3!}X^3t^3 + \dots$  

 

이를 원래 적률생성함수에 대입하게 되면 다음과 같아진다.

 

$\displaystyle M_X(t) = E[e^{tX}] = E[1+Xt+{1\over 2!}X^2t^2 + {1\over 3!}X^3t^3 \dots]$

 

위의 기대값 내부에 있는 항을 분리해서 표현하면 다음과 같아진다.

 

$\displaystyle = 1 + E[Xt] + E[{1\over 2!}X^2t^2] + E[{1\over 3!}X^3t^3] + \dots$

 

기대값과 무관한 항을 앞으로 빼주면 다음과 같다.

 

$\displaystyle = 1 + E[X]t + {1\over 2!}E[X^2]t^2 + {1\over 3!}E[X^3]t^3+ \dots$

 

따라서 적률생성함수는 다음과 같다.

 

$\displaystyle M_X(t) =  1 + E[x]t + {1\over 2!}E[X^2]t^2 + {1\over 3!}E[X^3]t^3+ \dots$

 

여기서 구한 적률생성함수는 미분을 통해 사용한다. 만약 1번 미분한다면 다음과 같다.

 

$\displaystyle {dM_x(t) \over dt} = 0 + E[X] + E[X^2]t + {1\over 2!}E[X^3]t^2 + \dots$

 

$t=0$을 대입해주면 결국 다음과 같이 E[X]만 남게 되고 결국 1차 미분하면 1차 적률이 구해진다.

 

$\displaystyle {dM_X(0) \over dt} = E[X]$

 

또 만약 2번 미분한다면 다음과 같다.

 

$\displaystyle {d^2M_X(t) \over dt^2} = E[X^2] + E[X^3]t + \dots$

 

또 $t=0$을 대입해주면 다음과 같이 2차 적률 $E[X^2]$을 구할 수 있게 된다.

 

$\displaystyle {d^2M_X(0) \over dt^2} = E[X^2] + E[X^3]t + \dots$

 

마지막으로 n번 미분한다면 다음과 같은 n차 적률을 구할 수 있게 되는 것이다.

 

$\displaystyle {d^nM_X(0) \over dt^n} = E[X^n]$

 

즉 요약하면 적률생성함수란 확률변수 $X$의 거듭제곱의 기대값을 구하는 함수이며, 적률생성함수를 한 번 구해두기만 하면 $n$번 미분하고 $t=0$을 대입해주면 쉽게 $n$차 적률을 구할 수 있다. 

 

 

적률추정법

적률의 배경과 의미와 정의부터 적률생성함수를 만들어 미분해서 $n$차 적률을 구해보았다. 그렇다면 이러한 적률은 어디에 쓰일까? 궁극적으로 적률은 적률추정법을 통해 모수를 추정하기 위해 사용한다. 적률추정법은 $n$차 모적률과 $n$차 표본적률일치시켜 모수를 추정하는 방법으로 최대가능도와 베이지안 추론과 같이 모수를 추정하는 점추정 방법에 속한다. 모수란 평균과 분산과 같은 모집단을 대표할 수 있는 값으로 보통 통계량 중 평균을 가장 많이 사용한다. 따라서 적률법이라고도 불리는 이 적률추정법은 표본평균을 통해 모평균과 일치하는 $\theta$를 찾는 방법이다. 평균이 아니여도 분산 등의 다른 통계량이 일치해도 된다. 하지만 일반적으로 확률분포에서 모수는 평균인 기대값 $\mu = E(x)$으로 표현한다. 예를 들어 모집단이 정규 분포를 따른다고 할 때 $N(\mu, \sigma^2)$로 표현하는 것과 같다. 

 

돌아와 적률추정법은 $n$차 모적률과 $n$차 표본적률을 일치 시켜 모수를 추정하는 방법이라 했다. 이를 수식으로 나타내면 $n$차 모적률 ($\displaystyle m_n = E[X^n]$)을 $n$차 표본 적률 ($\displaystyle \hat{m}_n = {1\over n}\sum_{i=1}^m X_i^n$)과 일치시켜 모수를 추정한다고 표현한다. 그리고 이 표본평균이 곧 모수 $\theta$에 대한 점추정 값이 된다. 

 

이러한 적률추정법은 점추정량을 구하는 가장 오래된 방법으로 최대가능도보다 자주 사용되진 않으나 손쉽게 계산 가능하다는 장점이 있다. 반면 비현실적인 추정량을 제시하는 경우가 있다는 단점이 존재한다. 이를 보완하기 위해 최대우도법(MLE), 베이즈 추정법 등을 사용한다.

 

덧붙여, 이 적률은 딥러닝에서 Adam Optimizer에 활용된다.

 

Reference

[1] 모멘트 & 모멘텀

[2] 모멘트( moment ) (lifeisforu)

[3] What Is Momentum?

[4] 적률법 (위키백과)

[5] 통계학 : 적률 (moment)

[6] Option Skew — Part 6: The Skewness and Kurtosis for a Lognormal (Roi Polanitzer)

[7] [확률과 통계] 45. 적률과 적률생성함수, Moment & Moment-Generating Function (mykepzzang)

[8] [통계 적률의 이해] 7. 적률생성함수 수학 거의 없이 이해하기 (통계의 본질)

[9] [통계학] 17. 추정법과 점추정량 - 적률법, 최대가능도추정법, 일치성, 비편향성, 효율성 (AI 꿈나무)

[10] [적률의 이해] 6. 적률생성함수란? (통계의 본질)

[11] Method of Estimation 추정법 (정보통신기술용어해설)

 

+ Recent posts