분석 관점에서의 그래프 모델링
이번에는 데이터 모델링이란? (그래프 DB편)에서 예고했던 분석 관점에서의 GDB모델링을 실제 사례에 대입하여 비교 확인을 하려 한다. GDB 모델링을 시도해보려면 막연하고 각 데이터에 대해 접근 방법을 찾기가 어려울 때가 많다. 그만큼 각 데이터의 도메인 및 활용 방안에 따라 GDB의 모델링 방법도 다양하기 때문이다.
분석관점에서 GDB를 모델링 하기 위해선 크게 3가지를 고려해야 한다.
먼저, 데이터 및 도메인(domain)에 대한 분석이 필요하다. 분석 데이터 및 도메인에 대한 이해가 기본이 되어야 하며, 이를 기반으로 프로젝트 현장 및 외부에서는 어떤 분석 서비스 및 시스템이 연구되어왔는지를 조사해야 할 필요가 있다. 데이터 및 도메인 조사가 완료된다면, 현재 도메인 내에서 이슈나 한계 및 보완이 필요한 부분을 정리하여, 그래프를 도입하였을 때 가치를 제공할 수 있는지를 예상하며 모델링 설계할 필요가 있다. 그리하여, 기존의 서비스와 그래프 모델링을 도입 시 차별되는 부분이 있는지를 고려하고 이를 중점적으로 모델링을 진행해야 한다.
분석 데이터 및 도메인 분석이 완료되고 데이터 설계가 진행되었다면, 다음으로는 모델링 연구 및 검증 과정이 필요하다. 해당 도메인 내에서 가능한 그래프 모델을 다각도로 실험 설계를 해보면서 그래프 모델에 대한 연구 및 가설을 검증하여 선택하는 과정이 필요하다.
마지막으로는 그래프 모델을 통한 가치 도출 및 결과 검증을 하며, 이를 내재화하는 과정이 필요하다. 선택된 그래프 모델에 대해 가치를 도출하고 결과를 검증하여, 실제 서비스에 적용하고 또한 유사한 도메인에 대한 분석을 수행 시 적용할 수 있게 내재화하는 과정이 필요하다.
다음은 그래프 모델링을 통해 알아보는 지식 그래프에 이어 모델링을 활용한 FDS(Fraud Detection System, 이상거래 탐지 시스템)가 위의 3가지를 고려하여 분석관점의 그래프 모델링을 어떻게 풀어나갈지 살펴보자.
분석 관점에서의 FDS 모델링
먼저 FDS에서의 그래프 모델링을 하기 위해 기존의 FDS 데이터 및 도메인에 대해 알아보자. 기존의 이상거래 탐지 시스템(Fraud Detection System)을 살펴보면 미리 정의된 규칙으로 실시간으로 쌓이는 데이터를 탐지하는 방식이다. 여기서 그래프를 도입한다면, 그래프의 특성인 ‘연결’을 이용해 모든 거래 및 Action을 연결하는 것이 가장 기본적인 접근일 것이다.
FDS에서 주로 사용되는 모델링은 2가지 방법이 있으며 보통 이 두 가지 방법을 같이 조합하여 사용한다. 첫 번째는 거래행위 및 흐름을 단일그래프로 모델링하는 방법이 있다. 이상거래 및 사기행위 같은 경우는 Trace, 즉 일종의 ‘자취’라는 것을 남긴다. 이러한 자취에 대하여 시간과 거래정보를 edge(엣지)에 모델링한다면, 단순히 이상거래에 대한 거래금액 패턴뿐 아니라 거래의 흐름 및 이상계좌와의 거래관계를 고려한 탐지 모델이 생성될 수 있다.
두 번째 방법으로는 분석대상의 ‘개인정보’ 등 과 같은 데이터를 추가하여 연결하는 이기종 네트워크(heterogeneous network) 모델링이 있다. 이기종 그래프 모델링이 얻을 수 있는 효과는 단일그래프에서 서로 연결되지 않아서 찾기 어려운 관계를 공통된 추가정보를 통해 연결 관계를 도출해낼 수 있다. 쉽게 말하면 ‘한 다리 건너면 연결되는 관계’라고 할 수 있으며, 그 다리의 역할을 해주는 데이터가 공통된 속성 정보가 된다.
FDS 그래프 모델링의 4가지 VALUE
FDS에서 그래프 모델링을 위와 같이 하였을 때 얻어지는 가치는 다음의 4가지라 할 수 있다.
1) ‘거래 행위에 대한 패턴 도출’의 강점이 있다. 기존의 FDS 시스템과 달리 거래의 흐름 및 이상계좌와의 거래 관계를 고려한 패턴을 새롭게 정의할 수 있고, 도출할 수 있다.
2) ‘이상행위에 대한 데이터 탐색’의 강점이 있다. 거래행위 및 이상행위를 모두 그래프의 점과 선으로 모델링을 하여서, 좀 더 직관적인 데이터 구조로 저장이 되어있고 사용자에게 데이터를 효율적으로 탐지 및 활용할 수 있게 도와준다.
3) ‘순환고리 패턴’이 있다. 순환고리 패턴은 이기종 그래프를 모델링하면서 생겨나는 패턴인데 한 다리 건너서 관계를 맺게 되면 결국 그래프의 점과 선에 의해 순환고리 형태로 데이터 구조가 저장되어 있다. 그것을 순환고리 패턴이라 하며, FDS 영역에서는 ‘Fraud Ring’이라고도 한다. 이러한 Fraud Ring 패턴 도출은 그래프 모델에서만 활용할 수 있는 강점이 된다.
4) ‘투영(Projection)의 활용’이 있다. 이기종 그래프 모델링을 통해 한 다리 건너서 맺은 관계는 실제 Raw Data상으로는 어떠한 관계도 존재하지 않는 관계이다. 이기종 그래프 모델의 한다리 건너서 맺은 관계를 단일 그래프 모델로 변환해주는 방법이 있는데, 이것이 바로 ‘그래프 투영’이다. ‘그래프 투영’의 장점은 단일그래프로 변환하면서 새로운 관계들이 형성되고 이를 기반으로 새롭게 그래프 분석을 시도해볼 수 있다는 점이다.
다음 편 예고: 그래프 모델링으로 알아보는 추천 시스템
다음 그래프 모델링 시리즈의 주제는 추천 시스템이다. 그래프 데이터베이스의 적용 사례를 소개할 때 항상 언급되고 있으며, 모의 시나리오를 통해 왜 그래프에는 항상 추천 시스템을 예시로 따라오는지에 대한 답을 확인할 수 있을 것이다. 사용자의 콘텐츠에 대한 평가를 기반으로 사용자에게 적합한 콘텐츠 추천을 하는 모델링이 어떻게 표현되는지, 추천 시스템에서 그래프 모델링 적용 시 어떤 장점을 가졌는지 살펴볼 것이다.
글: 비트나인 그래프 AI 센터
멀티모델 그래프데이터베이스 AgensGraph
60일간 무료로 사용해 보세요
bitnine.net/agensgraph-downloads/
제품 및 기술문의
070-4800-3517 | agens@bitnine.net
'USE CASES > 사례 연구' 카테고리의 다른 글
그래프 FDS로 잠재적인 보험 공모 사기 적발하는 방법 (0) | 2021.04.26 |
---|---|
그래프 모델링으로 알아보는 추천 시스템 (0) | 2021.03.29 |
데이터 모델링이란? (그래프 DB 편) (0) | 2021.02.08 |
데이터 모델링이란? (관계형 DB 편) (1) | 2021.02.05 |
그래프 모델링으로 알아보는 지식 그래프 (0) | 2021.01.26 |