time series 5

Unsupervised Model Selection for Time-Series Anomaly Detection (ICLR'23)

Contents Introduction 본 논문은 아마존 연구진들이 작성한 논문으로, 시계열 데이터에서 이상치 탐지를 할 때 어떤 비지도 학습 모델을 선택하여야 하는 지에 대한 내용을 다루고 있다. 이상치 탐지에서 이상치는 데이터가 매우 희박하고, 이상치 데이터를 얻기 위해서는 시간적, 비용적인 문제에 직면하게 된다. 따라서, 정상 데이터만으로 모델을 학습하고 이 후에 이상치가 들어올 때, 정상 데이터 간의 차이를 바탕으로 이상치를 탐지하는 비지도 학습(Upsupervised Learning) 모델이 주로 사용된다. 이처럼 비지도 학습 모델은 학습 단계에서 정상 데이터만을 바탕으로 Reconstruction Loss 혹은 Forcasting 을 바탕으로 학습하게 되는데, 이때의 Loss가 낮게 나온다고 ..

Anomaly Transformer: Time Series Anomaly Detection with Association Discrepancy (ICLR'22)

Contents 본 논문은 이상치 탐지(Anomaly Detection)를 위해 Prior Association과 Series Association 간의 차이 즉, Association Discrepancy를 이용한 Transformer 기반 모델 Anomaly Transformer를 제안하였다. 최적화를 위해 Minimax 방식을 사용하였으며, 기존 이상치 탐지 기법에 비해 월등히 높은 성능을 보이는 것을 확인하였다. Introduction 이상치 탐지는 지도 학습(Supervised-Learning) 기반, 비지도 학습(Unsupervised-Learning) 기반 등 다양한 기법으로 구성되어 있다. 본 연구에서는 비지도 학습 기반 중 Transformer 기법을 활용하여 이상치 탐지를 수행한다. 학..

[Time-Series] 시계열 데이터에서의 교차검증(Cross-Validation)

머신러닝이나 딥러닝, 통계 모델을 다루다 보면 모델의 예측 성능 및 적합도를 판단하기 위해 혹은 과적합(Over-fitting)을 방지하기 위해 교차검증을 사용한다. 교차검증은 LOOCV(Leave-One-Out Cross Validation) 혹은 k-fold Cross Validation을 주로 사용하지만 시계열 데이터의 경우 이와 같은 방식을 사용하게 되면 문제가 발생한다. 시계열 데이터는 시간의 순서를 고려해야하기에 이같은 방식을 사용하면 시간의 흐름이 뒤바뀌어 제대로된 성능을 발휘할 수 없기 때문이다. 그렇다면 시계열 데이터에서 교차검증은 어떤 식으로 수행 해야할까? Nested Cross-Validation은 Rolling이라고도 부르며 Rolling basis로 교차 검증을 수행하는 것이다...

Time-Series 2022.05.25

시계열 데이터에서 전처리하는 방법

Contents 시계열(Time-Series) 데이터에서 전처리 과정에서 수행하는 일은 결측치를 제거하는 것과 노이즈(Noise)를 제거하는 것이다. 결측치와 노이즈는 예측 성능을 떨어뜨리는 녀석들 중 하나이기에 사전에 전처리 과정을 수행하여 처리한 후 작업을 수행하는 것이 옳다. 결측치 (Missing Values) 결측치는 말 그대로 값이 존재하지 않는 값을 의미한다. 예를 들어, 식당의 매출을 예측하는 경우 식당의 휴무일에는 매출이 존재하지 않을 것이다. 이와 같은 경우 이를 제거하고 예측하는 형태로 진행할 수 있을 것이다. 실제 데이터를 다룰 때 휴무일과 같은 경우로 데이터가 없을 수도 있고, 단순히 누락되었을 수도 있다. 일반적인 데이터의 구성에서는 큰 문제가 되지 않는다면 결측치를 제거하면 된..

Time-Series 2022.05.24

Time-Series 시계열 입문하기.

Contents 시계열 분석은 다양한 분야에서 사용되고 있다. 단순히 사용자 출입 로그나 행동에 대한 분석을 하는 것도 시계열 분석으로 접근할 수 있다. 시계열 분석은 기본 통계 모델인 ARIMA와 딥러닝 기반인 RNN, CNN+LSTM 등 모델이 존재한다. 딥러닝이 최신 기술이라고 예전의 전통적인 통계모델을 무시할 수 없다. 일반적으로 이상치가 존재하지 않는 경우에는 ARIMA 등 전통적인 모델의 성능이 더 잘나올 수 있다. 즉, 패턴이 명확한 데이터의 경우에는 머신러닝 기법을 사용하는 것이 일반적으로 성능이 좋으며, 패턴이 복잡한 경우 일반적으로 딥러닝 기법을 사용하는 것이 성능이 좋다. 시계열 데이터는 '시간의 흐름에 따라 관측치가 변하는 데이터'를 의미하며, 우리가 가지고 있는 데이터에서 시간이라..

Time-Series 2022.05.14
반응형