ARCHIVES

빅데이터와 잘 맞는 RDBMS '스플라이스 머신'... 이유는?

(주)비트나인 2015. 12. 10. 15:08



스플라이스 머신의 관계형 데이터베이스 2.0 버전이 최근 소개됐는데, 이 제품은 하둡의 확장성과 스파크의 인메모리 성능을 모두 갖췄다는 것이 특징이다.


스플라이스 머신(Splice Machine)이 지난 11 17일 자사 관계형 데이터베이스 관리 시스템(RDBMS, Rational DataBase Management System) 2.0 버전을 새로이 공개했다. 스플라이스 머신의 RDBMS 솔루션은 사용자에게 직원 재교육이나 수 년 분량의 SQL 재작성 등의 번거로움 없이도 하둡의 확장성과 스파크의 성능을 누릴 수 있도록 하는 것을 목표로 한다.

스플라이스 머신의 공동 설립자이자 CEO인 몬테 츠위벤은 “우리는 이 새 버전의 RDBMS가 데이터베이스 테크놀로지의 새로운 지평을 열었다고 평가하고 있다. 단일 데이터베이스로 복합적인 워크로드를 다루는 작업은 지금까지 매우 어려운 과정이었다. 지금까지 기업들은 한 곳의 플랫폼에서 자신들의 실시간, 공동 업무 작업을 진행한 뒤 그 모든 데이터를 ETL을 통해 별도의 플랫폼으로 이전하는 과정을 거치고서야 온전한 분석, 시각 도출 작업을 진행할 수 있었다”라고 이야기했다.

츠위벤은 “이러한 구조에서 기업들은 어제의 데이터를 이용해 의사결정을 내리게 된다. 모든 것이 실시간으로 변화하는 오늘날의 비즈니스 환경에서 이는 상당히 비효율적인 방식이다”라고 지적했다.

 

어떻게 작동하나
스플라이스 머신의 신형 RDBMS는 솔루션의 하둡 및 스파크 컴포넌트를 위한 프로세스와 자원 관리를 분리하는 기법인 ‘자원 분리(resource isolation)’를 이용해 대규모의, 매우 복잡한 OLAP(Online Analytical Processing) 쿼리가 시간에 민감한 OLTP(Online Transaction Processing) 쿼리를 압도하는 일이 없도록 보장해 준다.
 
OLAP
쿼리의 우선권 수준 맞춤 설정을 통해 사용자는 대량 배치 프로세스가 모든 가용 자원을 소모함으로써 주요 리포트가 차단되는 문제가 발생하지 않도록 보장할 수 있다. 새로운 버전에는 포괄적 관리 콘솔 역시 추가돼 사용자들이 처리 중인 쿼리를 모니터링하고 실행 과정의 각 단계를 시각적으로 확인할 수 있도록 지원한다. 이를 통해 사용자는 배치 입수 프로세스 중 발생하는 주요 오류를 실시간으로 확인할 수도 있다.

츠위벤은 “우리의 아키텍처에서 분석 작업이 트랜잭션에 영향을 미치거나 간섭하는 일은 발생하지 않는다. 이러한 하이브리드 아키텍처를 갖춤으로써 사용자는 동시적 워크로드를 확보하게 되고, 이를 통해 실시간으로 각종 의사결정을 내릴 수 있다”라고 설명했다
 
이러한 특성은 디지털 마케팅에서 추출/변환/적재(ETL, Extraction, Transformation, Loading) 가속화, 운영 데이터 레이크(operational data lake), 데이터 웨어하우징 오프로드, 사물인터넷(IoT) 애플리케이션, , 모바일, 소셜 애플리케이션, 운영 애플리케이션 등 다양한 컴퓨팅 도구들에 적합한 용례라고 츠위벤은 이야기했다.

클라우데라 제품 사업부의 찰스 제들스키 부사장은 11 17일에 한 연설에서 “스플라이스 머신 2.0은 기업들에게 합리적인 가격에 OLTP, OLAP 워크로드를 동시에 지원하는 완전 가용 플랫폼을 제공해 준다. 기업들은 성능을 포기한다거나 비용 압박을 받지 않으면서 분석과 운영 쿼리를 함께, 실시간으로 실행하는 강력한 기능을 제공하는 특별한 솔루션으로 거듭났다. 클라우데라의 플랫폼에서 스파크를 구동하는 고객들이 늘어나고 있는 현 상황에서, 스플라이스 머신의 통합 기능은 우리의 데이터 허브들이 한계를 보이는 애널리틱스 관련 기능을 보완하는 도구가 될 것이다. 스플라이스 머신의 도움을 통해 고객들은 모든 유형의 워크로드를 한층 효율적으로 다룰 수 있게 될 것이다”라고 발언했다.


SQL 데이터베이스 내 비정형 데이터 처리
스플라이스 머신 2.0의 아키텍처는 가상 테이블 인터페이스(VTI, Virtual Table Interface)를 이용해 외부 데이터베이스 및 파일 내 데이터의 연합 쿼리를 실행하는 기능도 포함하고 있다. 기계학습, 스트림 분석, 데이터 통합, 그래프 모델링용 모든 사전 구축 스파크 라이브러리들을 실행하는 기능도 새로운 버전이 지원하는 내용이다.
 
즉 이는 관계형 데이터베이스지만 VTI를 이용해 비정형 데이터를 처리할 수 있다는 것이다.

츠위벤은 “우리가 외부 데이터 유형에 쿼리를 적용하는 과정에서 해당 데이터의 정형/비정형 여부는 제약 요인이 아니다. 또 우리는 표준 하둡 인터페이스 역시 갖추고 있기 때문에 하둡 및 스파크 내 어떤 비정형 기능이라도 우리의 데이터베이스를 호출하고 이로부터 업무적으로 성숙한 데이터를 획득할 수 있으며, 이후 이를 업무적으로 일관된 방식으로 처리한 뒤 다시 반환하는 과정 역시 아무 문제없이 진행할 수 있다”라고 설명했다.

츠위벤은 “이를 통해 기업들은 이제 부작용 없이 NoSQL 데이터베이스가 제공하는 확장성의 이점을 누릴 수 있게 될 것”이라고 강조했다

그는 “수십 억 줄의 코드가 SQL로 쓰여져 있다. 기업들에게 이 코드들의 재작성을 요구하는 것은 미친 짓이다. SQL은 분명 NoSQL 보다 강력한 방식이다. 30년간 누적된 SQL의 탄탄한 토대는 기업 애플리케이션을 설계하는 개발자들에게 값진 자양분이 된다. 기존의 모든 코드를 재작성하고 모든 인력을 재교육하는 것, 그리고 그 일련의 과정에 수백 만 달러를 지출하고 싶어하는 기업은 어디에도 없을 것이다”라고 말했다.

이들 기업은 현재 스플라이스 머신 2.0의 공개 베타를 실험할 애플리케이션들을 모집하고 있다. 츠위벤에 따르면, 스플라이스 머신 2.0의 정식 출시는 수 개월의 공개 베타 이후 2016년 상반기 중에 이뤄질 예정이다.  

베타 테스터는 혼합된 워크로드를 처리하는 기업들을 위주로 모집 중이며, 특히 실시간, 동시 요청이 전달돼 데이터의 지속적인 업데이트와 갱신이 필요하고 동일 데이터에 대한 다수 사용자의 동시 접근이 요구되는 업무 환경의 기업들에게 우선권이 주어진다. 베타 지원자는 정기 리포트나 추가 분석 등 데이터 상의 분석 작업을 빈번히 진행해야 한다는 조건도 충족해야 한다.

스플라이스 머신이 중점적으로 모집하는 활용 영역으로는 디지털 마케팅 애플리케이션, 금융 서비스 애플리케이션, 생명 과학 애플리케이션 등이 있다.
 
웰즈 파고(Wells Fargo)는 이미 스플라이스 머신 2.0와 베타 테스트 계약을 체결한 상태다.

웰즈 파고의 R&D 사업부 제스 룬드 대표는 11 17일 성명서에서 “우리 금융 서비스 산업은 점점 더 다양하고 많은 데이터를 다루고 있다. 이 경향은 앞으로도 이어질 것이라 본다. 이 데이터들을 처리하기 위해 우리에겐 운영 업무와 분석 업무를 동시에 지원할 수 있는 새로운 아키텍처가 반드시 필요하다. 그런 측면에서 스플라이스 머신 2.0은 상당히 흥미로운 솔루션이고, 우리가 누구보다 먼저 이를 테스트해볼 수 있게 됐다는 점을 매우 기쁘게 생각한다”라고 이야기했다.

 


출처 : http://www.ciokorea.com/news/27583






Posted by Bitnine