그래프 자료구조에 대한 이해
그래프 (Graph): 그래프 정점(Vertex, 노드라고도 함)의 집합과 간선(Edge)의 집합으로 구성된 자료구조
- 각 정점은 고유한 특성(Node Feature)을 가집니다 (예: 특정 시점의 유전자 발현량, 돌연변이 정보).
- 간선 (Edge / Link): 정점(유전자/단백질) 간의 관계를 나타냅니다. (예: 단백질-단백질 상호작용(PPI), 유전자 조절 관계, 게놈 상의 물리적 인접성).
이 정도는 알아두어야 할 그래프의 대표 특성:
- 동종 vs. 이종 (Homogeneous vs. Heterogeneous): 모든 정점과 간선이 동일한 유형(예: 오직 ‘유전자’ 정점과 ‘조절’ 간선)이면 동종 그래프입니다. 만약 ‘유전자’, ‘단백질’, ‘마이크로RNA’ 등 다양한 유형의 정점과 ‘조절’, ‘상호작용’, ‘전사’ 등 다양한 유형의 간선이 공존한다면 이종 그래프(Heterogeneous Graph)입니다. 게놈 데이터는 본질적으로 이종 그래프일 가능성이 높습니다.
- 방향성 vs. 무방향성 (Directed vs. Undirected): 유전자 A가 B를 조절(A→B)하는 관계는 방향성 그래프입니다. 단순히 A와 B가 상호작용(A-B)한다는 정보만 있다면 무방향성 그래프입니다. GNN 모델은 이 방향성을 고려하여 정보를 전파할 수 있습니다.
- 가중치 vs. 비가중치 (Weighted vs. Unweighted): 간선에 ‘상호작용의 강도’나 ‘관계의 신뢰도’ 같은 실수 값을 부여하면 가중치 그래프가 됩니다. 이는 GNN이 더 풍부한 정보를 학습하는 데 도움이 됩니다.
그래프의 행렬 표현(Matrix): GNN 모델, 즉 컴퓨터가 그래프를 이해하고 계산하기 위해 그래프를 행렬(Matrix) 형태로 표현하는 것이 가장 일반적임.
그래프와 그래프 이론 응용, 네트워크 분석을 이해하기 위해서 필요한 라플라시안, 스펙트럴 이론 등에 대해서 다음 시간에 정리 예정. (메시지 전달 / 이웃 집계 (Message Passing / Neighborhood Aggregation), 수용 영역 (Receptive Field) 포함)
그래프 이론이 뜬금없이 왜 유전체학에서 튀어나왔나? -> 다다음 시간에 논의해볼 예
댓글 남기기