pca 3

[t-SNE] manifold 데이터 시각화하기

t-SNE는 차원축소 기법 중 하나다. 차원 축소 기법 중 대표적인 기법은 PCA가 있을텐데, PCA는 데이터의 형태가 선형이라는 가정하에 분석을 수행하게 된다. 그렇기 때문에 manifold 형태를 가지는 데이터에서는 성능을 발휘하기가 어렵다. 이때 사용하는 것이 바로 t-SNE이다. sklearn에서는 t-SNE와 PCA를 지원해주기에 본 글에서는 sklearn 패키지를 활용해서 시각화한다. from sklearn.manifold import TSNE from sklearn.feature_extraction.text import TfidfVectorizer newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers..

[Linear Algebra] 선형 결합

edwith 주재걸교수님의 강의자료를 참고했다. 선형 결합은 어떤 것일까? Linear Combination은 각각의 vector ( $v_{1},v_{2},...,v_{p} \in \mathbb{R^{n}} $ )가 주어지고, scalar ( $c_{1},c_{2},...,c_{p} $ ) 가 주어졌을 때 $c_{1}v_{1} + c_{2}v_{2} + ... + c_{p}v_{p} $ 형태를 vector와 weight 혹은 coefficient 간의 Linear Combination 혹은 선형 결합이라고 부른다. 선형 결합에서의 weight는 실수들만을 다루게 되고 당연히 0도 포함할 수 있다. 만약 기존 vector가 3차원이라면 선형 결합을 한 vector 역시 3차원으로 반환된다. 이전에 다루었..

PCA (Principal Components Analysis)

PCA(Principal Components Analysis) 란? 대표적인 차원 축소(dimension reduce) 방법 중 하나다. 본인이 가진 데이터를 최대한 보존하면서 compact 한 자료를 만드는 것이 목적이다. 전진 선택법, 후진제거법, 유전 알고리즘 등 변수제거를 하는 방식이 아니라 차원을 축소하는 것이다. 원래 데이터의 분산을 최대한 보존할 수 있는 기저를 찾는 것이다. 각 점 $x^{(i)} \in \mathbb{R}^n$에 대해 그에 대응되는 code vector $c^{(i)} \in \mathbb{R}^l$을 구한다음 만약 $ n \ge l$이라면 원래보다 더 적은 메모리로 code point에 저장할 수 있을 것이다. $ Var(x)_{x\in\mathbb{R^3}} = max..

Machine Learning 2021.06.23
반응형