차원축소 3

[t-SNE] manifold 데이터 시각화하기

t-SNE는 차원축소 기법 중 하나다. 차원 축소 기법 중 대표적인 기법은 PCA가 있을텐데, PCA는 데이터의 형태가 선형이라는 가정하에 분석을 수행하게 된다. 그렇기 때문에 manifold 형태를 가지는 데이터에서는 성능을 발휘하기가 어렵다. 이때 사용하는 것이 바로 t-SNE이다. sklearn에서는 t-SNE와 PCA를 지원해주기에 본 글에서는 sklearn 패키지를 활용해서 시각화한다. from sklearn.manifold import TSNE from sklearn.feature_extraction.text import TfidfVectorizer newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers..

[Linear Algebra] 부분공간의 기저와 차원

edwith 주재걸교수님의 강의자료를 참고했다. Subspace Span이라는 개념과 거의 유사하다. subspace는 $\mathbb{R^{n}}$의 부분집합이고, Linear combination에 닫혀있는 것으로 정의할 수 있다. 닫혀있다라는 개념에 대해서 한 번 짚고 넘어가자. 예를 들어 $\{2\} \in S$ 라는 집합이 존재하고 $S$ 가 곱셈에 대해서 닫혀있다라고 하자. 그럼 $S$의 element를 뽑아서 연산을 수행했을 때 그 연산의 값이 $S$에 항상 속해있으면 곱셈에 대해서 닫혀있다라고 한다. [ 2x2 = 4 $\in S$ ] subspace에 속해있는 어떠한 벡터에 선형결합을 하더라도 그 벡터들도 역시 subspace안에 속하게 된다. Span 안에 $ \begin {bmatri..

PCA (Principal Components Analysis)

PCA(Principal Components Analysis) 란? 대표적인 차원 축소(dimension reduce) 방법 중 하나다. 본인이 가진 데이터를 최대한 보존하면서 compact 한 자료를 만드는 것이 목적이다. 전진 선택법, 후진제거법, 유전 알고리즘 등 변수제거를 하는 방식이 아니라 차원을 축소하는 것이다. 원래 데이터의 분산을 최대한 보존할 수 있는 기저를 찾는 것이다. 각 점 $x^{(i)} \in \mathbb{R}^n$에 대해 그에 대응되는 code vector $c^{(i)} \in \mathbb{R}^l$을 구한다음 만약 $ n \ge l$이라면 원래보다 더 적은 메모리로 code point에 저장할 수 있을 것이다. $ Var(x)_{x\in\mathbb{R^3}} = max..

Machine Learning 2021.06.23
반응형