회귀-분산 분해 (The Bias-Variance Decomposition)
오늘 다루어볼 내용은 Bias-Variance Decomposition 입니다. 이를 다루어 보기에 앞서 Regression에서의 Loss function에 대해 알아보도록 하겠습니다. 1. Regression에서의 Loss Function Regression 문제는 input variable $\mathbf{x}$가 있을때 그에 대응되는 target variable $t$를 찾는 함수 $y(\mathbf{x})$를 찾는 문제입니다. 언제나 $t = y(\mathbf{x})$가 되는 $y$를 찾으면 좋겠지만, 일상생활에서의 문제에는 노이즈가 섞여져 있기도 하고, 여러 복잡한 이유로 인하여 완벽한 함수를 찾기는 어려운 문제입니다. 그렇지만 그에 대한 차이가 조금이라도 적게 만드는 것이 우리의 목표입니다. 그러기 위해 그 실제값과 우리가 구한 함수의 차이의 정도를 정의하는 Loss function $L(t,y(\mathbf{x}))$을 정의하게 됩니다. 일반적으로 regression 문제에서 사용되는 Loss function은 squared loss라 불리우는 다음과 같은 형태의 함수입니다.$$L(t,y(\mathbf{x})) = \{y(\mathbf{x}) - t\}^2$$ 전체 문제의 정의역에서의 평균을 내어보면 아래와 같은 함수의 형태일 것입니다. $$\mathbb{E}[L] = \iint \{y(\mathbf{x}) - t\}^2 p(\mathbf{x},t) d\mathbf{x} dt$$ 책에서는 2가지 방법으로 설명하고 있지만 여기서는 2번째 방법을 이용해서 설명하도록 하겠습니다. 우리는 regression 문제에서 최적의 해가 아래와 같은 형태임을 이미 압니다.$$y(\mathbf{x}) = \mathbb{E}_{t}[\mathbf{t}|\mathbf{x}] = \int t p(t|\mathbf{x})dt$$ 그러므로 squared loss는 아래와 같은 형태로 변형시킬 수 있습니다. $$\{y(\mathbf{x}) - t\}^2 = \{y