Mathematics 44

[Calculus] 라플라스 변환(Laplace Transform)

라플라스 변환은 수학자 피에르시몽 라플라스의 이름을 따서 지은 이름이며, 미분방정식을 대수방정식으로 변환해주는 녀석이다. 대수방정식은 우리가 일반적으로 알고 있는 $x^2 + x - 2 = 0$과 같은 형태를 의미하고, 미분방정식은 우리가 알지못하는 함수와 그의 도함수, 그리고 이 함수들의 함수값에 관계된 여러 개의 변수들에 대한 방정식을 의미한다. 이전 글에서 다룬 테일러 급수, 매클로린 급수와 같은 녀석이 미분방정식의 예라고 할 수 있다. 미분방정식의 경우 대수방정식에 비해 상대적으로 사람이 이해하기 어렵기에 대수방정식으로 변환하여 인수분해 혹은 근의 공식을 사용하여 쉽게 해를 구하기 위해 라플라스 변환을 사용한다. 라플라스 변환을 통해 미분방정식을 대수방정식으로 변환한 후 대수방정식의 해를 구한 후..

[Calculus] Taylor series 는 무엇일까?

테일러 급수(Taylor series)는 임의의 함수 $f(x)$를 다항함수로 표현하는 것을 일컫는다. 머신러닝이나 딥러닝에서는 실제 데이터의 함수가 어떻게 생겼는지 알지 못한다. 이런 상황에서 임의의 함수 $f(x)$를 다항식으로 근사하여 점 $a$에서의 $f(x)$ 값을 도출할 수 있으며, 항이 많아질수록 근사의 정확도는 높아진다. 우리는 임의의 점 $a$에 대해서 함숫값 $f(a)$가 주어지고, 그의 도함수인 $f^{\prime}(a)$가 주어졌을 때 이웃한 점에서의 함숫값을 추정할 수 있을 것이다. 다만, 테일러 급수에서 주의해야될 점은 $x$에서 근처 임의의 점($a$) 간의 거리가 멀어질수록 큰 오차를 가지게 된다. 그렇기에 점 $x$와 점 $a$ 간의 거리를 최소화 하는 지점을 적절히 선정해..

[Calculus] Jacobian matrix

딥러닝에서는 backpropagation을 통해 가중치를 갱신하여 cost function을 최소화 하는 방향으로 접근한다. 우리는 backpropagation을 수행할 때 미분을 통해 신호를 전달하는 것을 알고 있다. 선형 모델을 미분할 경우 다음과 같은 가중치 벡터($w$)가 산출된다. \[ \frac{\partial w^Tx}{\partial x} = = \frac{\partial x^Tw}{\partial x} = w \] 이차 모델을 미분할 경우 행렬($A, A^T$)과 벡터($x$)의 곱으로 산출된다. \[ \frac{\partial x^TAx}{\partial x} = (A + A^T)x \] 벡터를 스칼라로 미분할 경우 아래와 같은 결과가 도출된다. \[ \frac{\partial \bol..

[Calculus] 수치 미분(numerical differential)

수치미분(Numerical differential)은 함수의 일부분을 다항식으로 변경한 후 변경한 다항식을 미분하는 것이다. 미분에는 해석적미분(Analytical differential)과 수치미분(Numerical differential)이 존재하는데, 해석적미분은 우리가 $\frac{df}{dx}$와 같은 형태로 공식을 통해 논리적인 전개로 하여금 미분을 수행하는 것을 일컫는다. 수치미분은 해석적미분으로는 불가능한 문제를 수치적으로 접근하여 근사하는 방식을 일컫는다. 컴퓨터의 경우 사람과는 다르게 해석적미분이 불가능하기 때문에, 수치적으로 접근해 근사하는 방식을 사용하고 있다. 수치미분은 아주 작은 차분으로 미분함으로써 미분값을 근사하는 방식이다. 실제로 python에서 구현할 때에는 반올림 오차 ..

[Statisctics] entropy, cross entropy, KL-Divergence

entropy의 개념은 정보이론(Information theroy)에서 사용하는 단어이다. entropy를 다루기 이전 다음의 경우를 생각해보자. 예를 들어 '주사위에서 3보다 큰 수가 나왔다.'라는 것과 '주사위에서 5가 나왔다'가 있을 때 어떤 것이 더 많은 정보를 전달할 수 있을까? 당연히 '주사위에서 5가 나왔다'라는 정보가 더 많은 정보를 전달한다고 할 수 있다. 주사위에서 3보다 큰 수가 나왔다는 사실보다 주사위에서 5가 나온다는 정보가 더 많은 정보를 전달하기 때문이다. self-information 어떤 사건에 대해 일어날 확률을 추정할 수 있다면 사건에 대한 정보량을 측정할 수 있게 된다. 우리는 확률변수(probability variable)를 $x$라고 하고 $x$의 정의역을 $\{e..

[Linear Algebra] trace operate

Trace 연산자는 행렬의 모든 주대각 성분의 합을 의미하며, 다음과 같이 정의한다. \[ Tr(\boldsymbol{A}) = \sum_{i} \boldsymbol{A_{i,i}} \] Trace 연산자는 Transpose 연산자에 대해 불변(invariant)이다. 또한, 행렬 곱으로 이루어진 정방행렬의 대각합은 각 행렬곱의 순서를 바꾸어도 행렬곱이 정의된다. 단, 행렬 순서를 바꾸어도 연산이 된다는 가정하에 적용된다. $ Tr(\boldsymbol{ABC}) = Tr(\boldsymbol{CAB}) = Tr(\boldsymbol{BCA}) $ \[ Tr( \prod_{i=1}^n \boldsymbol{F}^{(i)}) = Tr(\boldsymbol{F}^{(n)} \prod_{i=1}^{n-1} \..

[Linear Algebra] 무어-펜로즈 유사역행렬(Moore-Penrose pseudoinverse)

정방행렬이고, 특이행렬이 아닐 경우 즉, full rank인 정방행렬(square matrix)에서만 역행렬을 정의할 수 있다. 정방 행렬이 아닌 행렬에서는 역행렬을 정의하는 것 대신에 무어-펜로즈 유사역행렬을 다음과 같이 정의할 수 있다. \[ A^{+}= \lim_{a \rightarrow 0}(A^T A + \alpha I)^{-1} A^T \] $A^{+}$는 행렬 $A$의 무어-펜로즈 유사역행렬이다. 또한, 다음과 같은 조건을 만족해야지만 유사역행렬이라고 부를 수 있다. $ A A^+ A = A $ $ A^+AA^+ = A^+ $ $ (AA^+)^T = AA^+ $ $ (A^+A)^T = A^+A $ 이전 글에서 다룬 SVD로 유사역행렬을 쉽게 구할 수 있다. 우리는 SVD를 다음과 같이 정의한..

[Linear Algebra] 고윳값 분해(eigen decomposition)

변수의 보편적인 성질을 찾아내면 변수를 더 잘 이해할 수 있는 것들이 많다. 소인수 분해를 통해 16을 설명한다면 $2^4$로 간결하게 이해할 수 있을 것이다. 비슷한 맥락으로 행렬을 다양한 방식으로 분해하게 되면 기존의 구성에서는 미처 발견하지 못하는 여러 기능적인 속성을 발견할 수도 있다. 이럴때 가장 많이 사용되는 행렬 분해 방법 중 하나는 고윳값 분해(eigen decomposition)이다. 특이값 분해도 많이 사용되지만, 다음에 다루어 볼 것이다. 고윳값 분해는 행렬을 고유벡터(eigen vector)와 고윳값(eigen value)으로 분해한다. 정방행렬 $\boldsymbol{A}$의 고유벡터는 하나의 0이 아닌 벡터이며, $\boldsymbol{A}$와 곱해도 $\boldsymbol{x}..

[Linear Algebra] 노름(norm) 이란?

기계 학습(Machine Learning)에서는 벡터의 크기를 측정할 때 노름$^{\mathsf{norm}}$이라고 불리는 함수를 이용해 측정하며, 다음과 같이 표기 및 정의한다. \[ L^p = ||x||_p = (\sum_i |x_i|^p)^{\frac{1}{p}} \] $p \in \mathbb{R}, p \ge 1$이다. 일반적으로 노름은 벡터를 음이 아닌 값으로 사상(mapping)하는 것이며, 벡터 $\boldsymbol{x}$의 노름은 원점에서 점 $x$까지의 거리이다. 노름은 다음과 같은 성질을 만족하는 임의의 함수이다. $ f(\boldsymbol{x}) = 0 \Rightarrow​ \boldsymbol{x} = \boldsymbol{0} $ $ f(\boldsymbol{x} + \bo..

[Linear Algebra] 선형대수학 기초 용어 정리

Contents 선형대수(Linear Algebra)는 수학의 한 분야이며, 공학 분야에서 많이 사용된다. 또한, 선형대수는 정수, 그래프, 논리 연산과 같은 구분되는 값을 가지는 대상을 연구하는 이산수학과 달리, 미적분학, 수치해석과 같이 연속적인 값을 다루는 분야와 같이 묶여 연속수학에 속한다. 기계 학습(Machine Learning)에서 사용되는 알고리즘을 이해하고 적용하기 위해서는 연속수학에 속하는 학문을 잘 알아야하며, 이번에는 선형대수에 대해서 다루어볼 것이다. 선형대수는 벡터 공간, 벡터, 선형 변환, 행렬 등을 연구하는 대수학의 한 분야이며, 선형대수에서 나오는 필수적인 주요 개념부터 차근차근 살펴보자. 목차는 다음과 같다. 변수 유형(Scalar, Vector, Matrix, Tenso..

반응형