1. 회귀분석이란?

회귀분석은 가장 단순화하면 독립변수(x)로 종속변수(y)를 예측하는 것을 의미한다. 이를 풀어 쓰자면 회귀분석이란 독립변수가 종속변수에 미치는 영향력을 측정하고 이를 기반으로 독립변수의 특정값에 대응하는 종속변수값을 예측하는 모델을 만드는 통계적 방법론이다. 회귀분석의 목적은 독립변수로 종속변수를 설명하는데 있다. 회귀분석에서는 독립변수와 종속변수를 동일하지만 다양한 이름으로 부른다. 독립변수의 경우 설명변수, 예측변수, 원인변수 등으로 불리고 종속변수의 경우 목표변수, 목적변수, 반응변수, 결과변수 등으로 불린다. 이를 혼동하지 않기 위해서는 이름들이 원인측에 가까운지 결과측에 가까운지 또 종속성의 여부를 떠올려 추론하면 될 것이다. 이러한 회귀분석을 진행하기 위한 전제조건은 4~5가지 기본 가정이 어긋나지 않아야 한다.

 

1.1 회귀분석의 기본 가정

회귀분석을 진행하기 위해 갖춰져야할 기본 몇 가지 가정이 있다. 일반적으로 4대 가정 또는 5대 가정이라 불리며 4대 가정은 앞글자를 따서 LINE이라 불린다.

  • 선형성(Linearity): 모든 독립변수와 종속변수 사이에는 선형적인 관계를 띠어야 한다.
  • 독립성(Independence): 1) 잔차 사이에는 상관관계 없이 독립적이어야 한다. 2) 잔차와 독립변수 간 상관관계가 없어야 한다.
  • 정규성(Normality): 잔차가 평균이 0인 정규분포를 띠어야 한다. $E(\epsilon_i|X_i) = 0$
  • 등분산성(Equal Variance): 잔차의 분산은 독립변수와 무관하게 일정해야 한다.
  • 다중공선성(No Multicollinearity): 독립변수 간의 강한 상관관계가 있을 때의 성질을 의미하는 것으로 이러한 성질이 없어야 회귀분석이 가능하다.

여기서 중요한 것은 독립변수의 정규성, 독립성, 등분산성, 선형성을 고려하는 것이 아니라 잔차의 정규성, 독립성, 등분산성, 선형성을 따져야 한다. 여기서 잔차란 표본집단의 관측값에서 예측값을 뺀 값이다. 유사하게 사용되는 오차는 모집단에서 관측값에서 예측값을 뺀 값을 뜻한다.

또 만약 잔차의 등분산성이 성립하지 않을 경우 가중최소제곱법(Weighted Least Sqaure)을 사용해 잔차의 이분산성을 해결할 수 있다. 이분산성이란 데이터에 일반적인 최소제곱법을 적용할 경우 추정통계량의 신뢰도가 상실되어 회귀계수의 표준오차를 과소추정 또는 과대추정하게 되는 성질을 말한다. 이러한 이분산성은 가중최소제곱을 사용하면 회귀 모수의 오차항 분산에 반비례하는 가중치를 부여하여 가중 오차제곱합을 최소화하는 방법이다. (출처: Tony Park)

 

1.2 회귀분석의 종류와 특징

회귀분석은 크게 두 가지로 선형회귀분석과 로지스틱회귀분석으로 나뉜다. 선형회귀분석은 연속형 종속변수를 사용하며 분석 목적은 예측에 있다. 또 선형회귀분석은 모델을 찾기 위해 최소자승법을 사용하고 모델을 검정하기 위해 t검정, F검정 등을 사용한다. 선형회귀분석은 다시 단순 선형회귀분석과 다중 선형회귀분석, 비선형 회귀분석 셋으로 나뉜다. 단순 선형회귀분석은 독립변수가 1개 종속변수가 1개일 때 진행하는 분석이다. 다중 선형회귀분석은 독립변수가 여러 개고 종속변수가 1개일 때 진행하는 분석이다. 비선형회귀분석은 단순/다중 선형회귀분석처럼 선형으로 나타나는 식이 아니라 2차함수나 지수함수와 같이 비선형으로 나타내는 관계에 대해 분석하는 방법이다.

로지스틱회귀분석은 독립변수와 범주형 종속변수 간의 관계를 모형화하여 종속변수를 분석하거나 분류하는 통계적인 방법론이다. 로지스틱회귀분석은 범주형 연속변수를 사용하며 분석 목적은 분류에 있다. 로지스틱회귀분석은 모델을 찾기 위해 최대 우도법을 사용하고 모델 검정을 위해 카이제곱 검정 등을 사용한다.

 

1.3 회귀분석의 절차는?

1. 가설 수립: 귀무 가설과 대립 가설 설정
2. 데이터 경향성 확인: 독립변수와 종속변수 간 산점도 분석과 상관관계 분석 진행
3. 모델 적합성 확인: 결정계수, 분산분석, 잔차기본 가정(정규성, 등분산성, 독립성 등) 확인
4. 회귀계수 계산 및 유의성 확인: 독립변수 간 다중공선성, t검정을 통한 회귀계수 유의성, 독립변수 선택 및 해석
5. 모델 선정: 모델 적합성과 오차의 기본 가정 확인을 통해 모델 선정

 

1.4 결정계수란?

결정계수란 통계학에서 수행하는 회귀분석의 회귀식의 정확도를 평가하기 위한 척도(measure)이다. 다르게 말하면 독립변수를 통해 종속변수를 예측한 것의 설득력을 나타내는 척도라 할 수 있다. 이 결정계수를 사용하는 이유는 회귀분석에서 예측을 하더라도 실제값과의 오차가 발생할 수 밖에 없기 때문이다.

이 오차라는 것은 점의 밀도에 따라 달라진다. 예를 들어 많은 점이 모여 있어 밀도가 촘촘한 경우 예측값과 실제값의 오차가 작아진다. 반면 점들이 밀도가 느슨할 경우 예측값과 실제값의 오차가 커진다. 즉 점의 밀도, 데이터 수에 따라 오차의 크기가 달라지고 이에 따른 회귀식의 정확도가 달라지는 것이다.


위와 같이 밀도에 따라 회귀식의 오차가 달라지고 정확도가 달라지므로 이 정확도를 평가하기 위한 척도가 결정계수이다. 이 결정계수는 R-square라 부르며 $R^2$로 나타낸다. 여기서 R은 비율(Rate)를 나타낸다. 이 결정계수는 두 가지 방법으로 나뉘어 사용된다.

첫 번째는 피어슨 상관계수를 이용하는 방법이다. 결과적으로 결정계수는 피어슨 상관계수를 제곱한 값이라 할 수 있다. 피어슨 상관계수의 범위는 $-1 \leq R \leq 1$을 가지는데, 제곱하면 값의 범위가 $0 \leq R^2 \leq 1$된다. 하지만 이렇게 제곱할 수 있을 때는 후에 설명할 단순회귀분석처럼 독립변수가 하나인 경우로 제한된다. 예를 들어 $y=ax+ b$일 경우 결정계수는 독립변수 x와 종속변수 y의 상관계수의 제곱이다. 하지만 다중회귀분석처럼 $y = ax_1x_1 + b_1 + a_2x_2 + b_2$처럼 독립변수가 $x_1, x_2$로 2개 이상일 경우 $x_1, y$와 $x_2, y$의 두 상관계수를 각각 구해야 한다. 다시 돌아와 피어슨 상관계수를 제곱한 결정계수는 아래와 같은 수식으로 나타낸다.

 

$\displaystyle R^2 = {\sum (y_i - \hat{y}) \over \sum (y_i - \hat{y})^2}$


수식이 의미하는 바는 전체 변동 대비 회귀선에 의해 설명되는 변동이 얼마나 되는지를 보는 것이다.

만약 섭취열량(독립변수)이 얼마나 비만(종속변수)에 영향력을 미치는가를 알고 싶다고 가정하고 결정계수가 $R^2 = 0.8$이 계산되었을 경우, 섭취열량이라는 독립변수를 통해 80%정도 비만이라는 종속변수를 설명(설득)할 수 있다고 해석할 수 있다.

두 번째는 분산분석의 데이터를 활용하는 것이다. 분산분석에서는 SST, SSR, SSE의 개념이 사용된다. SST는 총제곱합, SSR는 회귀제곱합, SSE는 잔차제곱합을 뜻하며 각각은 수식으로 다음과 같이 나타낸다.

 

$SSR = \sum(\hat{y_i}-\bar{y})^2$
$SSE = \sum(y_i - \hat{y}_i)^2$
$SST = SSR + SSE = \sum_{i=1}^n(y_i-\bar{y})^2$

결과적으로 SSR이 얼마나 크고 SSE가 얼마나 작냐에 따라 회귀식에서 산출된 정확도가 결정된다. 즉 결론적으로 결정계수 $R^2$이 0에 가까울수록 회귀식의 정확도는 낮고, 1에 가까울수록 회귀식의 정확도는 높다고 할 수 있다.

이러한 결정계수는 독립변수가 많아질수록 값이 커진다는 특성을 갖는다. 따라서 종속변수를 잘 설명하지 못하는 독립변수가 추가되더라도 결정계수값이 커질 수 있다. 이러한 한계점을 보완하고자 수정된 결정계수(adjusted coefficient of determination)을 사용한다. 이 수정된 결정계수는 표본 개수와 독립변수 개수를 고려해 계산하며 식은 다음과 같다.

 

adjusted $R^2 = {1 - {n-1 \over (n-p-1)(1-R^2)}}$


만약 단순회귀분석을 진행한다면 결정계수를 사용하면 되고, 다중회귀분석을 진행한다면 수정된 결정계수를 사용하는 것이 좋다. 이러한 결정계수와 수정된 결정계수를 계산하더라도 정확도를 판단하기 모호한 경우가 생긴다 극단적으로 0과 1이라면 정확도를 판별할 수 있지만 0.4나 0.6과 같이 값이 모호하다면 올바른 의사결정이 어려워진다. 따라서 추가적으로 가설검정을 통해 이러한 의사결정이 이루어진다.

 

1.5 회귀계수 계산

회귀 모델이 선택된다면 이에 대한 회귀계수를 계산하고 유의성을 검정해야 한다. 회귀계수를 구하기 위해서 회귀선의 기울기와 절편을 구해야하며 이는 최소제곱법(Least Square Method)로 계산할 수 있다. 최소제곱법은 잔차의 제곱 합(Sum of Squared Error, SSE)이 최소가 되는 회귀선을 찾는 방법이다. 잔차의 제곱 합 SSE는 다음과 같은 수식으로 나타낸다.

 

$\displaystyle SSE = \sum_{i=1}^n \epsilon_i^2 = \sum_{i=1}^n (y_i-\hat{y}_i)^2 = \sum_{i=1}^n (y_i - \beta_0 - \beta_1x_i)^2$


위 식에서 $\beta_0$은 절편 $\beta_1$은 기울기를 나타낸다. 각각을 편미분함으로써 절편과 기울기의 추정값을 구할 수 있고 그 결과는 아래와 같다.

$\displaystyle \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$

$\displaystyle \hat{\beta}_1 = {\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) \over \sum_{i=1}^n (x_i - \bar{x})^2}$

 

1.6 회귀분석 정규화 (Regularization)

11.01(화) 내 작성 예정
(다중공선성 해결을 위해 사용)

 

2. 상관관계 분석이란?

상관분석이란 두 변수간 상관성 정도를 알기 위해 사용하는 분석이다. 즉 상관분석의 목적은 임의의 두 변수 간의 상관성 정도를 보는 것이다. 상관분석을 통해 상관계수라는 수치로 정량화되어 표현된다. 이 상관계수는 대표적으로 3가지를 사용한다. 피어슨 상관계수, 스피어만 상관계수, 켄달 상관계수이다. 이 상관계수들은 아래의 데이터 종류에 따라 달리 사용된다.



2.1 상관계수의 종류

피어슨 상관계수 (모수적)
피어슨 상관계수란 키/몸무게 같이 분석코자 하는 두 변수가 모두 연속형 데이터일 때 사용하는 척도다. 피어슨 상관계수 사용을 위해 두 변수 모두 정규성을 따른다는 가정이 필요하다. 때문에 피어슨 상관계수는 두 변수간 선형적인 관계를 모수적 방법으로 나타내는 척도라고 할 수 있다. 또 피어슨 상관계수는 독립변수와 종속변수 간의 선형관계를 나타내는 척도이다. 피어슨 상관계수의 동일한 의미의 다른 이름은 피어슨 적률 상관계수, 피어슨 r, R 등이 있다. 또 일반적으로 상관계수라 하는 것은 피어슨 상관계수를 뜻한다. 피어슨 상관계수는 $-1 \leq R \leq 1$ 범위의 값을 갖는다. 0에 가까울수록 두 변수간 선형적 관계가 없고, -1에 가까울수록 음의 상관관계를 가지며 +1에 가까울수록 양의 상관관계를 가진다. 피어슨 상관계수의 수식은 다음과 같이 정의된다.

 

$\displaystyle R = {cov(x, y) \over \sqrt{var(x)var(y)}} = {\sum_i^n (x_i - \bar{x})(y_i - \bar{y}) \over \sqrt{\sum_i^n (x_i-\bar{x})^2(y_i-\bar{y})^2}}$


$n$: 표본집단 수
$\bar{x}$: 표본집단 $X$의 평균
$\bar{y}$: 표본집단 $Y$의 평균

위 수식을 통해 표본 집단으로부터 표본 상관계수를 계산할 수 있다. 표본 상관계수가 도출되면 다음으로 이 상관계수의 타당성을 위해 가설검증을 진행한뒤 가설검증 결과를 기반으로 가장 처음 수립했던 가설의 채택을 결정한다.

스피어만 상관계수 (비모수적)
분석하고자 하는 두 변수가 회귀분석의 기본 가정 중 하나인 정규성을 충족하지 않을 경우 피어슨 상관계수를 사용할 수 없다는 한계점을 극복하기 위해 사용한다. 스피어만 상관계수는 스피어만 순위 상관계수, 스피어만 $r_s$ 라고도 불린다. 순위를 이용하기에 비모수적인 방법에 해당하며 연속형 변수뿐만 아니라 순위형 변수에도 적용가능하단 특징이 있다. 예를 들어 수학 점수와 과학 점수와의 상관계수는 피어슨 상관계수로 구하고, 수학 과목 석차와 영어 과목 석차는 스피어만 상관계수로 계산할 수 있다. 스피어만 상관계수는 다음과 같은 수식으로 표현된다. 아래 수식에서 $d$는 관측값들의 등위 간 차이를 나타내고 $n$은 관측 데이터 수를 의미한다.

$\displaystyle r_s = 1 - {\sigma \sum d_i^2 \over n(n^2-1)}$


켄달 상관계수 (비모수적)
켄달 상관계수는 두 연속형 변수 간의 순위를 비교해 연관성을 계산하는 방법으로 순위 상관계수의 한 종류이다. 켄달 상관계수는 켄달타우 상관계수라고도 불린다. 켄달 상관계수는 피어슨 상관계수의 변수값이 정규분포를 따르지 않을 때 사용하기 어렵다는 단점을 보완하기 위해 사용한다. 켄달 상관계수를 계산하기 위한 핵심 개념은 concordant pair이다. 이는 각 변수의 비교 대상이 상하관계가 같을 때를 의미한다. 예를 들어 사람 a와 b의 키/몸무게를 비교했더니 사람 a가 모두 키/몸무게가 사람 b보다 크다면 concordant pair라고 말한다. 반면 사람 b와 c를 비교했을 때 b가 키는 크지만 몸무게는 c보다 작은 경우는 concordant pair가 아니다. 결과적으로 켄달 상관계수를 구하기 위한 수식은 다음과 같이 C와 D로 표현하며 여기서 C는 concordant pair한 수이며 D는 concordant pair하지 않은 수를 의미한다.

 

$\displaystyle {{C - D} \over {C + D}}$

 


간단 용어 정리

독립변수: 다른 변수에 영향을 받지 않는 변수이자 종속 변수에 영향을 주는 변수. 주로 입력이나 원인을 나타낸다.
종속변수: 독립 변수에 의해 영향을 받는 변수. 주로 출력이나 결과를 나타낸다.
표준오차: 표본평균들의 편차를 뜻한다.
회귀계수: 회귀분석에서 독립변수가 한 단위 변화함에 따라 종속변수에 미치는 영향력 크기다. 만약 두 변수간 상관관계가 없을 경우 회귀계수는 의미가 없게 된다.

Reference

[1] 설명 변수와 목적 변수 (두더지 개발자)
[2] 종속변수 vs 독립변수 (CodeDragon)
[3] 상관계수 & 결정계수 & 수정된 결정계수 (황금모찌)
[4] 결정계수란? (나부랭이의 수학블로그)
[5] 회귀분석에서의 분산분석과 결정계수/ Anova in Regression Analysis
[6] 상관분석_종류
[7] [통계] 회귀분석(Linear Regression) 정의, 특징, 종류 (Tony Park)
[8] [TIL] 회귀분석의 가정 (다람이도토리)
[9] 회귀 분석의 표준 가정 (Hooni's Playground)
[10] 상관계수와 결정계수의 관계
[11] 켄달타우 (Kendalltau) (Jukyoung LEE)

+ Recent posts