Python/Visualization 4

[t-SNE] manifold 데이터 시각화하기

t-SNE는 차원축소 기법 중 하나다. 차원 축소 기법 중 대표적인 기법은 PCA가 있을텐데, PCA는 데이터의 형태가 선형이라는 가정하에 분석을 수행하게 된다. 그렇기 때문에 manifold 형태를 가지는 데이터에서는 성능을 발휘하기가 어렵다. 이때 사용하는 것이 바로 t-SNE이다. sklearn에서는 t-SNE와 PCA를 지원해주기에 본 글에서는 sklearn 패키지를 활용해서 시각화한다. from sklearn.manifold import TSNE from sklearn.feature_extraction.text import TfidfVectorizer newsgroups_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers..

[Python] matplotlib 시작하기

matplotlib은 파이썬에서 시각화할 때 주로 사용되는 패키지 중 하나이다. seaborn, folium 등의 다양한 패키지가 존재하지만, 가장 많이 사용되는 matplotlib에 대해서 다루어보자. 1. plt.figure() figure는 하나의 종이라고 생각하면 된다. 우리가 그림을 그리기 위해서는 종이가 필요한데, figure는 종이를 만들어주는 함수라고 보면 된다. figsize 인자를 통해 종이의 크기를 설정해주고, facecolor 인자를 통해 종이의 색을 지정해줄 수 있다. fig = plt.figure(figsize=(7, 7), facecolor = 'linen') # red plt.show() 2. plt.add_subplot() add_subplot을 통해 ax라는 변수에 sub..

[Python] Monte Carlo algorithm

몬테카를로(Monte Carlo) 방법은 원하는 면적을 무한정 찍어서 그 면적을 구한다는 방식이라고 보면 된다. 정사각형 내에 원을 그리고 원의 면적을 구하고 싶다면 랜덤하게 점을 찍고 원 안에 들어간 점의 수와 전체 점을 찍은 수를 가지고 원 면적의 근삿값을 찾을 수 있을 것이다. 여기서는 몬테카를로 샘플링을 이용하여 원주율($pi$)을 근사해볼 생각이다. import matplotlib.pyplot as plt import numpy as np import math import time %matplotlib inline plt.rcParams['axes.unicode_minus'] = False plt.rcParams['font.family'] = 'NanumGothic' plt.rcParams['a..

[Python] matplotlib으로 스타벅스 데이터 시각화 하기

스타벅스 데이터를 구할 수 있어서 그 자료를 가지고 간단하게 시각화해보자. import pandas as pd import matplotlib.pyplot as plt import numpy as np import os import matplotlib.font_manager as fm plt.rcParams['font.family'] = 'NanumGothic' 필요한 라이브러리는 다음과 같다. 스타벅스 코리아, 즉 한국에 입점한 스타벅스 데이터를 가지고 오는거라 위도, 경도 주소 등 여러 데이터가 포함되어 있어서 한글 폰트를 받아와야한다. 나눔 고딕 폰트를 선호해서 해당 폰트로 진행을 했다. ( 음수일 경우 표시가 안된다는 단점이 있다.. ) # 현재의 directory 를 체크한다. os.getcwd..

반응형