Contents
이전 단계에서는 Node-Level prediction에 대한 내용을 다루었다. 이번 Lecture에서는 Link-Level prediction에 대해서 다룬다. Link는 Edge라고도 부르며 혼용해서 부르니 참고하길 바란다.
Link Prediction Task and Features
Linke-Level Prediction이란, 이미 존재하는 링크(Link)를 기반으로 노드

Two formulations of the link prediction task
node-level prediction으로는 link-level prediction을 수행하는 것이 다소 어렵다. 그렇기 때문에 link-level prediction에서는 다음과 같은 두 가지 방식을 통해 링크를 예측한다.
Links missing at random
무작위로 이미 연결되어 있는 링크를 지우고 그 링크를 예측하는 것에 초점을 두고 모델을 학습한다. 일반적으로 사용하는 방법이며, 머신러닝 알고리즘에서 사용하는 방법과 유사한 방법으로 진행하는 것이다. 이는, 생물학자들이 단백질 구조 간의 연결성을 파악하기 위한 연구에 많이 사용된다. 실제로 단백질 구조 간의 결합을 하지 않더라도 예측하는 것이 가능하기 때문이다.
Links over time
시간이 지남에 따라 변화하는 그래프가 존재하는 경우 시점
Link-Level feature
그래프 내에서 두 노드 간의 관계에 대한 특징을 도출하는 방법은 Distance-base, Local neighborhood, Global neighborhood 총 3가지 방법이 존재한다. 각 방법이 어떠한 방식으로 특징을 도출하는지 확인해보자.
Distance Based Features
그래프의 구조를 보고 노드들에 대한 차수(Degree,

그렇다면 Distance 관점으로 바라보자. 노드
Local Neighborhood
Local Neighborhood는 노드
Common neighbors
Common neighbors는 가장 간단한 방법이며, 단순히 노드

Jaccard's coefficient
Jaccard's coefficient는 자연어처리를 다루는 사람에게는 익숙한 지표일 수 있다. 먼저 Common neighbor으로 구한 각 이웃 간의 교집합을 합집합으로 나눈 것으로 비율을 나타낸다고 이해할 수 있다. Common neighbor의 경우에는 단순히 정수의 표현으로 나타나기 때문에 노드에 대한 이웃이 많다면 값이 커져서 파악하는 것이 어려울 수 있으나, Jaccard's coefficient 경우에는 비율로 나타나기 때문에 의미를 보다 잘 이해할 수 있다. 본 강의에서는 common neighbor의 normalized version을 jaccard's coefficient라고 언급한다.
Adamic-Adar index
Adamic-Adar index는 노드
이때
Global Neighborhood
Global Neighborhood는 Local Neighborhood의 한계점을 극복하기 위해 제안된 방법이다. 만약 노드
Katz index는 인접 행렬(Adjacency Matrix)를 통해 모든 노드쌍의 경로(path)의 수를 모든 길이에 대해서 count하는 방식이다. 이때 길이가 1인 경우가 인접행렬이고, 2인 경우는 다음과 같이 표현할 수 있다.
길이가 2인 경우에는 노드

Katz index는 이렇게 계산된 모든 길이에 대한 인접행렬에
갑자기
Summary
Distance-based features는 두 노드 간의 가장 짧은 경로를 사용하였으나, 노드 간의 이웃들이 겹치는 것에 대한 정보는 포착하지 못한다. Local neighborhood overlap은 노드들 간의 이웃들이 겹치는 정도를 파악할 수 있으나, 겹치는 이웃이 없는 경우에는 계산하는 것이 불가능하다. 마지막으로 Global neighborhood overlap의 경우에는 katz index를 사용하여 두 노드의 모든 길이에 대해서 계산하기 때문에 노드 간의 이웃이 겹치지 않더라도 이를 파악하는 것이 가능하다.
'Deep Learning > CS224W' 카테고리의 다른 글
[CS224W] Node Embeddings (0) | 2022.07.05 |
---|---|
[CS224W] Traditional feature-based methods: Graph-level features (0) | 2022.07.04 |
[CS224W] Traditional feature-based methods: Node-level features (0) | 2022.05.17 |
[CS224W] Choice of Graph Representation (0) | 2022.05.16 |
[CS224W] Application of Graph ML (0) | 2022.05.16 |