분류 전체보기 310

[Regularization] variety methods of Regularization

Regularization은 규제화라고 할 수 있을 것이다. 모델에 제약을 걸어 Generalization performance를 좋게 하고 싶은 것이다. 회귀분석에서의 제약 모델에 있어서는 Ridge, Lasso, ElasticNet 등이 있을 것이며, 딥러닝에 있어서는 다음과 같은 Regularization 이 존재한다. Early stopping Parameter norm penalty Data augmentation Noise robustness Label smoothing Dropout Batch normalization 학습을 방해하는 것이 Regularization의 주된 목적이지만 단순히 방해만 하는 것이 아니라 학습 데이터에서만 잘 작동되게 하는 것이 아니라, 테스트 데이터에도 잘 작동하..

[Optimization] Important Concepts in Optimization

최적화에서도 여러가지 방법이 있지만 여기서는 머신러닝, 딥러닝에서 활용되는 최적화 기법과 기본적인 모델에 대해서 다뤄볼 것이다. 우리는 모델의 Generalization 성능을 높이는 것이 목표다. 하지만 우리가 무조건적인 일반화를 하는 것이 좋은 모델인가? iteration을 반복하게되면 학습데이터에 대해서 계속 학습을 하기 때문에 training error는 지속적으로 줄어들게 된다. training error가 0이 되었다고 해서 모델의 일반화가 되었다고는 말할 수 없다. 왜냐하면 너무 training data에 적합한 모델이 되어버려서 일반화가 되지 않아, training 되지 않은 새로운 dataset에서는 모델이 적절하지 않기 때문이다. 너무 과적합 되어버리면 test set에서는 오히려 er..

[Statistics] independent of probability variable

우리가 일반적으로 생각하는 독립(independent)이라는 개념과 확률변수(probability variable)에서의 독립과는 다소 차이가 있다. 일반적으로 생각하는 독립은 '떨어져 있는', '겹치지 않은' 의 의미로 받아들인다. 하지만 확률 변수에서의 독립은 다음과 같이 정의한다. 어떤 값 $a,\ b$에 대해 조건 '$X=a$'와 조건 '$Y=b$'가 항상 독립할 때 확률변수 $X,Y$는 서로 독립이라고 한다. $X$와$Y$가 독립 $P(Y=y | X=x)$이 $x$에 의존하지 않고 $y$만으로 정해진다. $P(Y=y | X=x) = P(Y=y)$ 항상 성립 결합 확률의 비가 일정. $P(X=x, Y=y) = P(X=x)\cdot \ P(Y=y)$ 위와 같은 벤다이어 그램을 생각해보자. $P(A)..

[Statistics] Chi-squared test

Chisq-test 는 기존에 활용된 모수추정과는 조금 다른 모습을 띈다. Chisq-test는 일반적으로 두 집단 혹은 집단 내 데이터들의 분포가 비슷한가에 대한 검정을 하는 방법으로 대표적인 비모수 통계 기법 중 하나이다. 만약 우리가 기존에 연속형 변수를 가지고 분석을 하려고 하는데, 정규성, 선형성, 독립성 등 BLUE의 가정을 만족하지 못한다면 윌콕슨, 카이제곱 검정 등 여러 비모수 추정 단계로 넘어와서 분석을 진행한다. $\chi^2$ 검정은 범주형 변수 간의 관련성을 확인할 수 있다. $\chi^2$의 기본 가정은 기대 빈도(도수)가 5이하인 셀이 20퍼센트 이하 존재할 경우 정규분포를 가정하고 $\chi^2$을 사용할 수 있다. 해당 가정에 위배될 경우 Fisher's exact test를..

[Statistics] ANOVA(Analysis of variance) 사후검정까지

ANOVA ANOVA(Analysis of variance)는 두 개가 아닌 여러 모집단 간의 평균의 동일성을 검정한다. 집단을 구분하는 범주형 변수가 한 개인 경우를 일원분산분석(one-way ANOVA)라고 하며, 두 개인 경우 이원분산분석(two-way ANOVA)라고 한다. 이론상으로는 삼원분산분석, 사원분산분석등 더 많은 집단을 구분하는 것이 가능하지만 해석하는데 있어서 어려움이 있기 때문에 한 개 혹은 두개의 범주형 변수를 다룬다. 예를 들어 수학학원A, B가 있다고 하자. 학생들은 두 학원 모두 다니는 것은 불가하며 한 번에 한 학원만 다닐 수 있다고 가정하자. 여기서 집단을 구분하는 학원은 독립변수며, 수학점수는 종속변수다. 집단 간 one-way ANOVA를 시행할 수 있으며, 분산을 비..

[Python] Open file

파이썬에서 분석을 하기 위해서는 데이터가 필요하다. 파이썬 패키지 내의 내장된 데이터셋을 활용하여 분석을 할수도 있지만, 직접 데이터를 호출해 분석하는 일이 생길 것이다. 그럴때 패키지를 다운받지 않고도 파일을 불러오는 방법에 대해서 알아보자. 파일을 불러오는 패키지로 대표적인 패키지는 pandas가 있단는 것을 알고 있다. 하지만 여기서는 패키지가 아닌 내장함수 open에 대해서 다루어 볼 것이다. 다음에 있는 open 함수 내의 method를 하나하나 뜯어보자. open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None) file 우리가 불러오고자 하는 파일의 위치를 적어주어야..

Python 2021.09.30

[CS224N] ELMo, ULMfit

기존에 우리는 모델에 사전학습을 하지 않고 모델을 바로 Small labeled data 에 적용을 시켰다. 모델의 성능을 더 좋게하기 위해서 semi-supervised approach를 이용하자는 내용으로 Pre-ELMo(Train NLM on large unlabeled corpus for NER)이 등장했다. Pre-ELMo는 총 3가지 과정을 거친다. step1. Pretrain language model step2. Word embedding and Char-CNN step3. Use both word embedding and LM for NER ELMo : Embeddings from Language Models ELMo는 모든 문장을 이용해 Contextualized word vector를..

[Statistics] T test with R

T test 는 주로 평균검정을 할 때 사용한다. 평균검정이란 평균에 대한 가설검정을 의미하며 선정한 표본이 특정 평균값을 갖는 모집단에 속하는지 또는 두 표본집단의 평균값 간에 차이가 존재하는지에 대해 검정하는 것이다. 평균검정의 종류로는 일표본, 독립표본, 대응표본 등이 있다. t test의 가설은 다음과 같다. $ H_{null}\ :\ \mu\ =\ a $ $ H_{a}\ :\ \mu\ \neq \ a $ 연구자가 찾고자하는 결과는 기존과 다르다라는 주장이며 대립가설로 설정한다. t test에서는 $\sigma$를 사용하지 않고, 표본의 표준오차인 $s \over \sqrt{n}$ 를 사용한다. 다음과 같이 정의되는 t값을 검정통계량(test statistic)으로 사용하여 검정한다. $ t = ..

[Python] matplotlib으로 스타벅스 데이터 시각화 하기

스타벅스 데이터를 구할 수 있어서 그 자료를 가지고 간단하게 시각화해보자. import pandas as pd import matplotlib.pyplot as plt import numpy as np import os import matplotlib.font_manager as fm plt.rcParams['font.family'] = 'NanumGothic' 필요한 라이브러리는 다음과 같다. 스타벅스 코리아, 즉 한국에 입점한 스타벅스 데이터를 가지고 오는거라 위도, 경도 주소 등 여러 데이터가 포함되어 있어서 한글 폰트를 받아와야한다. 나눔 고딕 폰트를 선호해서 해당 폰트로 진행을 했다. ( 음수일 경우 표시가 안된다는 단점이 있다.. ) # 현재의 directory 를 체크한다. os.getcwd..

[CS224N] Subword Model - BPE, Wordpiece

12강에서는 Subword Models에 대해서 다룬다. 이전의 언어모델에서는 형태론을 통해서 각 단어를 띄어쓰기 기반으로 분류해 단어에 대해 분석을 진행했다. 하지만 합성어의 경우 띄어쓰기가 존재하는 합성어도 있고 아닌 경우도 있으며, 띄어쓰기가 없는 언어도 존재하기 때문에 문제에 직면하게 된다. 모든 단어를 커버할 수 없기 때문에 단어기반이 아닌 Character 기반의 모델이 등장했다. Character level 모델은 Unknown word도 파악이 가능하며, Conneted Language 분석은 당연히 가능하며, Character n-gram으로 의미를 추출하는 경우로 주로 사용된다. Byte Pair Encoding (BPE) 수부지 피부 고민이라는 단어를 예측하려면 '수부지'라는 단어는 ..

반응형