DBMS 56

퍼블릭 vs 프라이빗: 기업 데이터 보안을 위한 LLM은?

퍼블릭 LLM 사용의 한계 최근 창작, 번역, 챗봇 등 다방면에 활용되고 있는 생성형 AI 서비스들은, 일반적으로 거대 언어 모델(Large Language Models, LLM)을 기반으로 합니다. LLM은 그 성능을 보장하기 위해 수십 억에서 수천 억 개의 매개변수를 가지며, 학습이나 추론에 고가의 전문 장비를 필요로 합니다. 이러한 특성때문에, 전문 장비 및 인프라를 갖추지 못한 기업은 자체적으로 LLM을 구축하기 어려우므로 퍼블릭(public) 또는 개방형 LLM을 이용하여 생성형 AI 서비스를 구축해야 합니다. 퍼블릭 LLM은 주로 API 형태로 제공되며, 대표적으로 ChatGPT 모델을 개발한 OpenAI 사에서 ChatGPT 모델을 API로 이용할 수 있도록 제공하고 있습니다. 하지만 퍼블릭..

DBMS/AgensSQL 2024.04.22

그래프 RAG: 복합 검색이 가능한 개선된 RAG 시스템

개선된 RAG 시스템 RAG는 정보 검색과 생성형 AI 기술을 결합하여 사용자 데이터를 손쉽게 생성형 AI 모델에 반영하고, 이를 통해 생성 콘텐츠의 품질을 개선할 수 있는 혁신적인 솔루션입니다. RAG 시스템은 생성형 AI의 활용성을 크게 높였지만, 종종 복잡한 질문에 대해 충분한 맥락을 제공하지 못하는 경우가 있습니다. 이러한 한계를 극복하기 위해 개선된(advanced) RAG 시스템이 다양하게 등장하고 있습니다. RAG를 개선할 수 있는 영역들 다음과 같습니다. 데이터 인덱싱(indexing): 검색 모델에 사용되는 데이터는, 모델이 이해하기 용이한 방식으로 변환되고, 인덱싱됩니다. 데이터 변환 단계에서는 임베딩 모델 개선, 데이터 분할(chunking) 방법 개선을 통한 개선이 가능합니다. 또한..

DBMS/AgensSQL 2024.04.22

검색 증강 생성(RAG)과 데이터베이스 기반 생성형 AI에 대한 이해

생성형 AI 활용의 한계점 최근 몇 년 간 ChatGPT, Bard, LLaMA 등 거대 언어 모델(Large Language Models, LLM) 기반 생성형 AI가 대중화되었고, 많은 기업들은 생성형 AI를 비즈니스에 도입하여 생산성을 높이려는 시도를 하고 있습니다. 생성형 AI는 일반적으로 방대한 데이터로 사전 학습(pre-training)된 LLM 모델을 기반으로 제공되며, 일반적인 작업에서는 잘 작동합니다. 하지만, 특정 산업군의 전문 지식이나 별도의 데이터가 필요한 작업의 경우 기본 모델만으로는 성능의 한계가 존재합니다. 특히, 일반적인 생성형 AI 모델은 생성 결과의 출처를 알 수 없어 거짓 정보를 사실인 정보처럼 출력하는 환각 현상(hallucination)을 구분하기 어렵습니다. 이를 ..

DBMS/AgensSQL 2024.04.22