RESEARCH & REPORT/그래프 기술

그래프 DB: Chat GPT의 핵심 기술

(주)비트나인 2023. 1. 30. 11:07

 

 

 

그래프 데이터베이스(DB)는 여러 방식으로 연결된 복잡한 데이터를 저장할 수 있는 데이터베이스 관리 시스템(DBMS)이자, 데이터의 성능을 가장 효율적으로 활용할 수 있는 강력한 분석 솔루션입니다. 지식그래프 분야에서 잘 알려져 있는 것처럼 가장 유용한 그래프 DB의 활용 영역 중 하나는 자연어 처리(NLP) 및 Chat GPT 모델과 같은 챗봇, 나아가 인공지능(AI)의 영역입니다.


 

Chat GPT : 챗봇을 더욱 인간답게 만드는 기술

챗봇(Chatbot)은 인간이 질문(Chat)을 하면, 데이터베이스 시스템에 저장된 지식을 검색하고 응답하는 인공지능(Bot)입니다.

 

물론 챗봇이 전혀 새로운 기술은 아닙니다. 그리고 우리가 이미 체감하고 있는 대로, 시장에 존재하는 많은 챗봇들의 성능이 그리 만족스럽지 않은 편이기도 합니다. 정형화된 질문에 대해 일정한 규칙을 가지고 기계적으로 답변하는, 룰에 기반한(Rule-based) 형태가 대부분이기 때문입니다. 여기에서 말하는 성능이란 얼마나 더 '인간 다우냐'는 것을 그 척도로 삼을 수 있습니다.

 

High-Level Chatbot Architecture

 

Chat GPT 또한 인간의 질문에 응답하는 챗봇의 형태를 띠고 있습니다. 다만, 우리가 익히 아는 챗봇보다는 좀 더 일반적인 영역에서의 다양한 Q&A가 가능한, 매우 고도화된 챗봇(High-Level Chatbot)이라고 할 수 있습니다. ‘대화형 언어 모델’, 혹은 ‘대화형 언어 서비스’라고 표현하기도 합니다.

 

어쨌든 여기서 발생하는 첫 번째 요건은 ‘인간이 질문한다’는 것입니다. 사실 Chat GPT와 챗봇뿐만 아니라 모든 시스템은 컴퓨팅 기술과 프로그래밍 언어로 개발되었기 때문에, 우리가 컴퓨터에 명령할 때도 컴퓨터가 이해할 수 있는 언어를 사용해야 합니다. 따라서 극도의 복잡성과 모호성을 띄는 인간의 언어, 즉 ‘자연어’를 컴퓨터가 이해하는 것이 첫 번째 요건일 것입니다. 이것이 인공지능이 가진 고유의 속성인 ‘자연어 처리(Natural Language Processing, NLP)’입니다.

 

NLP가 충족되었다면, 더 중요한 것은 챗봇의 지식수준입니다. 지식수준이야말로 챗봇의 성능을 좌우하는 가장 핵심적인 요소입니다. 인간도 그렇듯, 챗봇과 같은 인공지능 또한 스스로 검색할 수 있는(저장되어 있는) 지식수준에서만 답변할 수 있습니다. 그러나 많은 양의 데이터만 가지고 있다고 해서 인공지능의 지식수준과 성능이 향상될 수는 없습니다. 인간의 경우에도 그렇듯, 얼마나 많은 책을 가지고 있느냐보다는 책에 있는 정보를 얼마나 정확히 찾아내 이해할 수 있느냐가 훨씬 더 중요할 것입니다. (물론 책을 많이 가지고 있는 것 또한 중요합니다)

 

이를 위해서는 지식의 저장소인 지식베이스(Knowledge Base), 그리고 지식과 지식 간의 관계를 촘촘히 연결할 수 있는 지식그래프(Knowledge Graph)와 같은 기술이 반드시 필요하게 됩니다.


그래프 DB: Chat GPT의 핵심 기술

1. 지식그래프

Chat GPT가 지금과 같이 주목받고 있는 이유는 단순히 지식을 검색해 응답하는 것 이상으로 새로운 지식을 ‘스스로 생성’할 수 있다는 데 있습니다. 지금껏 우리에게 익숙한 기존 챗봇들과의 결정적인 차이가 바로 이것입니다. 우리는 이미 백과사전과 같이 모범적으로 쓰인 지식 베이스에서 몇 가지 키워드를 통한 단순 검색으로 지식을 뱉어내는 수준에는 더 이상 만족할 수 없게 되었습니다. 앞으로의 인공지능은 우리보다 더 앞서 생각하고 새로운 지식까지도 생성할 수 있어야 합니다. 이것이 우리가 Chat GPT에 열광하는 이유입니다.

Classic Chatbot vs Knowledge Graph based Chatbot

 

새로운 지식을 생성하기 위한 필수적인 조건 중 하나는 바로 그래프 DB 기반의 ‘지식그래프’입니다. 지식과 지식, 지식베이스와 지식베이스가 연결될 때, 그리고 파편화된 데이터를 그래프 모델링을 통해 지식의 정보로 구조화할 때 비로소 그 관계 속에서 새로운 사실과 인사이트를 도출해 낼 수 있습니다.

 

또한, 지식그래프는 인공지능을 만들기 위한 대표적인 방법이자 ML/DL 및 클라우드 컴퓨팅 등 다양한 기술과의 조합이 필수인 지능형 서비스에도 폭넓게 사용되고 있습니다. 구글의 검색 엔진 또한 지식그래프를 기반으로 구축, 관리되어 왔기에, 인간에 가장 근접한 수준의 검색 결과를 제공하는 것입니다.

 

2. 데이터 모델의 설계

그래프 DB는 서로 다른 유형의 데이터 간의 복잡한 관계를 쉽게 모델링할 수 있습니다.

 

GPT와 같은 챗봇의 경우, 데이터 모델은 주어진 텍스트에서 단어, 구, 문장 간의 관계를 이해해야 합니다.

 

그래프 DB를 사용하면 개발자가 이해하고 쿼리하기 쉬운 방식으로 이러한 관계를 저장할 수 있으므로 GPT가 언어를 더 정확하게 이해하도록 설계할 수 있습니다.

 

뿐만 아니라, 개발자가 이해하고 쿼리하기 쉬운 방식으로 이러한 관계를 저장할 수 있으므로 GPT 기반의 챗봇 모델이 데이터를 더 정확하게 이해하거나 빠르게 탐색하도록 설계할 수도 있습니다.

 

3. 빅데이터 처리

기존의 시스템으로는 저장된 많은 양의 데이터를 처리해 정확히 질의하기가 어렵기 때문에, 챗봇의 성능이 저하될 수도 있습니다. 반면에 그래프 DB는 대량의 데이터를 처리하는 데 최적화되어 있어 챗봇 개발에 가장 적합합니다. 챗봇 개발에서 그래프 DB의 이점 외에도 감정 분석 및 텍스트 분류와 같은 NLP의 다른 영역에서도 유용할 수 있습니다.

그래프 DB는 기존의 관계형 DB보다 더 직관적이고 유연한 방식으로 데이터를 저장하고 질의하는 방법을 제공하기 때문에, NLP 모델의 성능을 향상할 수 있습니다. 여러 방식으로 연결된 복잡한 데이터를 저장하고 쿼리 할 수 있는 강력한 방법을 제공하여 챗봇이 인간의 언어를 더욱 정확하게 이해하고 응답하도록 훈련할 수 있습니다.

 

이에 따라 많은 양의 데이터를 처리하고 복잡한 관계를 쉽게 모델링할 수 있는 기능을 갖춘 그래프 DB는 NLP 및 챗봇 기술 분야에서 필수적인 도구가 되고 있습니다.


비즈니스적 가치 : 개인화

이쯤에서 우리는 이런 고도화된 챗봇이 어떤 비즈니스적 가치가 있냐는 의문을 가질 수 있습니다. 최첨단의 IT 기술이 출시되는 과정에서 끊임없이 요구되는 검증의 단계이기도 합니다.

 

그래프 DB를 기반으로 구축된 챗봇 및 인공지능 시스템의 가장 주요한 이점은 ‘개인화(Personalization)’된 지식과 정보를 제공할 수 있다는 것입니다. 개인화는 글로벌 빅테크 기업들을 포함, 주요 기업과 기관들이 가장 주목하고 있는 기술적 가치로, 기업들은 개인화를 기존 서비스에 내재화하거나 새로운 서비스로 개발해 시장에 선보이고 있습니다. 아마존의 경우 매출의 35% 이상을 개인화된 추천 알고리즘에 의해 발생시키는 것으로도 알려져 있습니다.

 

요즘은 이미 영양제부터 F&B, 가전제품, 취미 플랫폼, 금융 서비스 등 고객이 원하는 서비스를 모두 고객 니즈에 맞게 추천하는 개인화 서비스가 대세를 이루고 있습니다. 이에 따라 개인화를 구현하는 기술 또한 기업의 자본과 역량을 가장 효율적으로 활용할 수 있는 비즈니스 가치가 높은 기술로 함께 주목받고 있습니다.


왜 그래프 DB여야 하는가

앞에서 언급한 바를 다음과 같이 정리해 볼 수 있습니다.

  1. 챗봇, 인공지능은 주로 스스로 가진 데이터 내의 지식만을 이해할 수 있다
  2. 따라서 기반이 되는 지식 데이터베이스의 양과 품질이 챗봇의 성능을 좌우한다
  3. 수많은 지식의 연결과 탐색에 최적화된 그래프 데이터베이스가 최적의 선택이다

그리고 그래프 DB가 어떻게 챗봇과 인공지능 구현에 최적화되어 있는지도 아래와 같이 정리해 볼 수 있습니다.

  1. 파편화된 데이터를 연결해 구조화한 지식그래프는 지식 간 맥락의 이해가 가능하다
  2. 이미 연결된 구조를 통해 데이터를 빠르게 찾기 때문에 신속한 응답이 가능하다
  3. 새로운 지식과 데이터를 추가함에 있어서도 매우 유연하다

부록: 그래프 기술의 활용도를 높이는 Chat GPT

오히려 Chat GPT를 통해 그래프 기술에 대한 장벽을 허물어 그 활용도를 높일 수도 있습니다. 현존하는 가장 고난도의 IT 기술 중 하나인 그래프 기술은 훈련받은 기술자가 아니라면 접근하기 어려운 편입니다. 그 요인 중 하나가 바로 싸이퍼(Cypher)라는 그래프 질의 언어의 사용입니다. 우리가 영어 등의 외국어를 배우기 어려운 것처럼 말입니다.

질문을 그래프 언어인 싸이퍼로 변환해주는 Chat GPT

 

Chat GPT는 마치 통역하듯 우리의 언어를 싸이퍼 언어로 변환시켜 줍니다. 이를 통해 그래프 기술, 그래프 DB에 쉽게 접근할 수 있습니다. 심지어는 그래프 기술의 가장 주요한 방법론인 그래프 모델링까지도 도와주기도 합니다. 인공지능을 위한 그래프 DB를 위한 (다시) 인공지능인 셈입니다.