RESEARCH & REPORT/그래프 기술

[기고] 그래프 기술의 가치…표현, 발견 그리고 추론

(주)비트나인 2020. 8. 25. 15:22

데이터를 다루는 방법들이 다양해지고 있다. 최근 정보기술의 발달과 더불어 데이터양의 폭발적인 증가 및 데이터 유형의 다양화로 인해, 기존의 관계형 데이터베이스 이외에 목적 지향적인 데이터베이스의 활용이 증가하고 있는 추세이다. 더욱이 국내 기업들 사이에서 확산되고 있는 탈(脫)오라클 현상과 오픈소스 프로그램 활용의 증가로 인해 데이터를 수집, 가공, 적재 및 분석하는 기법들이 다양하게 발전하고 있다.

 

E.F 코드(Codd)가 1970년 주창한 관계형 데이터베이스 이론은 대용량 데이터를 제한된 컴퓨팅 자원을 활용해 '효율적으로' 관리하기 위한 방안이었으나, 최근 컴퓨팅 자원의 성능 증가 및 가격 하락으로 인해 효율적인 관리보다는 “효과적인” 관리가 관심을 끄는 동인이 되고 있다.

 

목적 지향적인 데이터베이스 기술은 대용량 텍스트 데이터 처리, 시계열 데이터의 처리 등 다양할 수 있으나 그중 그래프 이론을 기반으로 하는 데이터베이스인 그래프 데이터베이스에 대한 관심 역시 증가하고 있다.

 

본고에서는 그래프 데이터베이스 및 그래프 기술이 주는 가치를 몇가지 사례를 통해 간략히 살펴보고자 한다.

■ 그래프 기술의 가치 1: 표현(Representation)

기존의 데이터 모델은 데이터를 테이블 형태로 전환하여 저장하고 활용하지만, 그래프 데이터베이스는 실세계에 존재하는 데이터 모델 그대로를 모델링하여 그래프 형태로 적재하고 활용한다. 따라서 관계성 그래프를 가지는 데이터의 경우 그래프 형태로 적재 관리하게 되면, 데이터 저장의 효율성은 물론 데이터 가공과 표현 및 분석에 막강한 파워를 선사해준다.

 

다음의 '그림 1'과 같이 다양한 형태의 차트 표현 기법들이 존재한다. 구태여 그림과 같은 사례를 들지 않더라도 상식적인 수준에서 표현의 방법이 다양할 수 있음은 누구나 인지하고 있는 사실일 것이다. 다만, 비교(Comparison)와 분포(Distribution) 그리고 구성(Composition) 뿐만 아니라, 관계(Relationship)를 표현해주는 것을 통해 그래프 모델은 데이터가 가지는 의미를 직관적으로 해석하고 활용할 수 있는 잠재적인 가치를 선사해 준다.

 

[그림 1] 데이터의 다양한 표현 방법

실세계에 존재하는 모델 그 자체를 변형하지 않고 표현해 준다는 것은 데이터에 대한 수집, 가공, 적재, 분석의 사이클에 투입되는 노력을 감소시켜 줌과 동시에 변화하는 데이터에 대한 유연한 모델 변경 및 데이터 처리 성능을 보장해 줄 수 있는 기반 구조를 구축하게 됨을 의미한다. 특히 관계성 복잡한 연관관계 데이터에 대한 질의처리에 있어서는 탁월한 처리 성능을 보여준다.

■ 그래프 기술의 가치 2: 발견(Discovery)

그래프 형태로 표현된 데이터가 주는 가치는 특정한 패턴에 대한 발견이다. 다음의 '그림 2'는 정상적인 사용 패턴을 지니는 전화기와 범죄 또는 특정한 목적의 이상행위로 활용되는 전화기의 패턴을 직관적으로 보여준다.

 

정상 전화기의 경우, 특정 그룹의 사용자들과 쌍방간의 송수신이 이루어 지며, 사용자 이외 그룹간 통화가 발생하지만, 이상행위 전화기의 경우는 상당한 숫자의 통화 거절이 이루어지며, 이후에도 연락이 오지 않는 경우가 많고, 지속적으로 통화가 이루어지는 그룹이 존재하지 않는 특성을 가진다. 아마도 유추해 보건대 대포폰으로 아웃바운드 콜 또는 무작위 광고성 연락을 목적으로 이용되는 전화기로 판단할 수 있다.

[그림 2] 전화기 이용 패턴에 따른 범죄 탐지 사례(Gaurav Deshpande, Using Graphs and Machine Learning to Find Needles in a Haystack, 19 Jul 2018)

 

위 사례 에서와 같이 관계성 정보를 갖는 데이터의 경우 특정한 패턴의 발견이 용이하며, 그래프 기술을 활용하면 특정 패턴에 대한 발견과 탐지가 매우 용이하다.

■ 그래프 기술의 가치3 : 추론(Inference)

그래프가 주는 세번째 가치는 표현과 발견에 이어지는 추론이다. 통계학의 영역에서 활용되는 구조방정식 모형을 예로 들면 인과관계의 연속적 발생을 유향성 그래프로 모델링하여 미래에 발생할 사건이나 데이터를 추론해 내는데 직관적인 모델을 제공해 준다. 예를 들어 특정한 재료의 투입이 목적변수에 어떤 영향을 주는가를 추론하거나, 제품의 수명 특성 등에 어떤 영향을 주는지에 대한 모델을 설계하기에 용이한 구조를 가진다.

[그림 3] 재료와 특성간 인과 모델 예시

최근 인공지능 기술에 대한 폭발적인 관심과 발달로 인해, 그래프 기술과 인공지능 기술이 연계하여 활용되는 사례와 연구들이 급증하고 있다. 그래프 기술과 인공지능 기술의 연계에 대해서는 별도의 자료를 통해 정리할 예정이다.

 

그래프 기술이 주는 가치는 보다 더 다양하고 상세하게 정의될 수 있겠으나, 최근 적용되는 그래프 기술 사례를 통해 확인할 수 있는 '표현–발견–추론'을 통해 실세계에 대한 직관적인 이해와 분석 그리고 통찰력이 확대되는 가능성을 기대해 본다.


▷ 출처 : ZDNet
▷ 원본 링크 : https://zdnet.co.kr/view/?no=20200824112244