USE CASES/사례 연구

그래프 모델링으로 알아보는 지식 그래프

(주)비트나인 2021. 1. 26. 13:57

지식 그래프는 지식 베이스에 축적한 다양한 지식을 점과 선 관계로 구현한 그래프 모델이다. 지식 베이스란 특정 분야의 전문가가 지적 활동과 경험을 통해서 축적한 전문 지식이나 문제 해결에 필요한 사실과 규칙 등이 저장되어있는 데이터베이스를 말한다. 그렇기에 기존의 지식 베이스들은 문제 해결의 수법이 전문가에 따라 다르듯이, 대상으로 하는 문제별로 구축해야만 했다. 하지만 2012년 구글이 개별적 지식뿐 아닌 다양한 소스로부터 축적하고 통합 과정을 통해 서로의 콘텐츠를 연결하는 독자적인 지식 베이스인 ‘지식 그래프’라는 걸 선보이며, 지식 그래프의 활용성이 제대로 입증되기 시작했다.

 

지식 그래프 모델링 2가지 기법

지식 그래프 모델링 기법에는 크게 2가지로 분류할 수 있는데, ‘지식 베이스 그래프 모델링’‘텍스트 그래프 모델링’이 있다.

 

먼저 지식 베이스 그래프 모델링은 기존에 체계가 구축되어있는 지식 베이스를 그래프의 점과 선으로 연결하는 모델링이다. 이러한 지식 베이스에는 문제 해결에 필요한 사실과 규칙 등을 내포하고 있기에, 그에 적합한 가공 모델을 생성해야 한다. 모델링하고 구축하는 부분에서는 비교적 수월한 편이며, 기존의 지식 베이스로만 사용하다 그래프로 변환할 시에 니즈에 맞게 모델링하는것이 중요하다. 

 

가령, 초등교육의 수학을 단원별로 체계적으로 구축해놓은 문제은행 지식 베이스가 있다 가정한다면 단원의 문제와 각 단계별 필요한 개념과의 지식 그래프 구축을 통해 문제와 개념 간의 관계 그래프를 형성을 할 수 있으며, 이로써 사용자가 푼 문제를 기반으로 다음의 문제를 추천해줄 수도 있다. 비트나인은 이러한 지식 그래프의 기능을 통해 인공지능 기반 맞춤형 교육 솔루션을 구축하여 지식 베이스로 활용했다.  

 

수학 단원과 개념간의 그래프 모델링을 한 예시

 

또한, 영화-배우 및 감독 등의 IMDB 지식 베이스를 지식 그래프로 구현한다면, 그래프의 점과 선으로 이루어진 관계를 통하여 영화와 배우 및 감독간의 관계를 시각적으로 잘 표현할 수 있으며 관계 데이터의 활용성 증가를 기대할 수 있을 것이다.  

 

텍스트 그래프 모델링은 자연어 처리된 데이터에서 단어 및 문장 성분을 추출하여 그래프 모델링을 통해 지식을 쌓아나가는 것을 말한다. 위의 지식 베이스 모델은 이미 체계적인 규칙에 의해서 구축된 지식 모델인 반면, 텍스트 그래프 모델은 웹에 있는 위키나 지식백과 또는 기사 등을 수집 후, 자연어 처리를 통해 지식 그래프에 쌓는다. 그렇기에 텍스트 그래프 모델을 잘 활용하기 위해서는 그 목적이 명확하게 설계가 되어야 하는 게 중요하다.  텍스트 그래프 모델링 예시로는 여러 가지 방법이 있는데 몇 가지 사례 및 데모 모델링을 통해 간단하게 설명하고자 한다. 

 

먼저 키워드 추출 모델링이 있는데, 웹에 있는 지식을 자연어 처리 할때 명사들을 추출하여 노드로 모델링하고 각 키워드 간의 관계 및 링크를 엣지에 모델링하는 방법이다.

 

다음으로는 SPO 모델링이 있다. 키워드 추출과 유사하며, 문장을 자연어 처리 할때 주어(Subject), 술어(Predicate), 목적어(Object) 3가지 구성요소로 추출한 후 S P O 3가지 항목을 ( S ) - [ P ] - ( O )로 모델링하는 방법을 의미한다.

 

부동산 정책 관련 기사의 S-P-O 추출 후 그래프 모델링을 한 예시

 

마지막으로는 SPO나 키워드처럼 문장의 구성요소만 추출하는 것이 아닌 문장 전부를 모델링하는 방법이다. 바로 ‘신경망 텍스트 그래프 모델’과 ‘계층 텍스트 그래프 모델’이다. 문장의 모든 성분을 사용하는 그래프 모델은 아직 그렇게 많은 연구가 되어있지 않으나, 좀 더 높은 성능의 자연어 처리가 필요하기에 곧 연구가 되어 체계적인 모델이 나올 것으로 예상한다.

 

신경망 텍스트 그래프 모델링을 한 예시


계층적 텍스트 그래프 모델링을 한 예시

 

결론: 지식 그래프의 4가지 가치

지식 그래프의  대표되는 가치는 다음의 4가지라 할 수 있다.

 

1) ‘Schema의 유연성에 강점이 있다. 지식 베이스와 달리 특정 스키마에 종속되어 있지 않고 지식 베이스의 통합을 통해 개념 간의 관계를 자유롭게 구조화하고 연결함으로써 활용성이 극대화될 수 있다.

 

2) ‘대화형 검색에 강점이 있다. 가령 지식 베이스 기반으로 구축된 대화형 챗봇이나 검색엔진을 사용할 때 검색되는 정보가 검색어에 제한되어있거나 동의어 및 다의어 경우 빈도수가 높은 정보 위주로 나오는 불편한 경우가 있다. 지식 그래프에서는 한 단어의 연관되는 단어들 또한 서로 연결이 되어있음으로 검색의 용이성과 풍부한 정보량을 확보할 수 있다.

 

3) ‘가시성(Visibility)에 효과적인 모델이다. 각각의 키워드들과 키워드들이 서로 연결되고 참조되는 것을 그래프 구조상으로 바로 확인이 가능하기에 가시성이 뛰어난 모델이다.

 

4) ‘그래프 분석기술의 적용이 가능한 모델이다. 단어 간 유사도를 측정하여 그래프 군집기술을 사용하는 등 이미 단어 간의 관계를 그래프로 구축하였기에 다양한 그래프 분석을 활용하기 좋은 모델이다.



글: 비트나인 그래프 AI 센터

 


 

멀티모델 그래프데이터베이스 AgensGraph

60일간 무료로 사용해 보세요

bitnine.net/agensgraph-downloads/

 

제품 및 기술문의

070-4800-3517  |   agens@bitnine.net