분류 전체보기 355

BI & 데이터 분석 툴

[BI & 데이터 분석 툴] ■ 데이터 분석에 대한 관심이 높아지면서 너무나 많은 분석 툴이 쏟아져 나오고 있으며, 데이터 분석 수행 시 필요한 분석 툴들을 알아보고 각각의 분석 툴의 목적과 사용 방법에 대해 이해해 보도록 한다. 1. 데이터 분석 툴 데이터 분석이란 의미 있는 정보 획득 또는 의사 결정 지원의 목적을 달성하기 위해 데이터를 통해 이루어지는 일련의 과정1이며, 분석 툴은 사용자가 데이터 분석을 쉽게 접근하거나 특화된 분야 또는 특정 목적에 따라 적절한 기능들을 제공하는 것이라 할 수 있다. 즉, 데이터 분석 툴은 분석가를 도와 주는 도구일 뿐, 분석 그 자체가 될 수는 없다는 것이다. 따라서 분석 툴은 사용자의 분석 목적에 따라 적절한 선택이 필요하다. 분석 툴을 선택하기 위해서는 우선 ..

ARCHIVES 2015.12.24

PostgreSQL을 위한 분산 트랜잭션 매니저 개발을 위한 프로젝트, DTM (Distributed Transaction Manager)

이번 포스팅에서는 지난 PG conf China에서 소개 되었던 DTM에 대해서 간략히 소개 하겠다. 기회가 된다면 DTM의 자세한 구조와 동작 프로세스 그리고 자세한 예제를 다음 포스팅에 추가 할 것이다. DTM (Distributed Transaction Manager)은 PostgreSQL을 위한 분산 트랜잭션 매니저 개발을 위한 프로젝트 이다. 이 프로젝트는 기존의 유사한 프로젝트의 문제점을 보완하고 있다. 기존 프로젝트의 문제점은 다음과 같다. 1. 다음 툴들은 샤딩을 지원하지만 global consistency를 제공 할 수 없다 -Pgshard -Pgpool 이 툴들은 데이터를 여러 노드들에 저장하고 분산 질의를 통해 결과를 얻는다. 하지만 이들 툴들은 global consistency를 제..

ARCHIVES 2015.12.18

빅데이터와 잘 맞는 RDBMS '스플라이스 머신'... 이유는?

스플라이스 머신의 관계형 데이터베이스 2.0 버전이 최근 소개됐는데, 이 제품은 하둡의 확장성과 스파크의 인메모리 성능을 모두 갖췄다는 것이 특징이다. 스플라이스 머신(Splice Machine)이 지난 11월 17일 자사 관계형 데이터베이스 관리 시스템(RDBMS, Rational DataBase Management System) 2.0 버전을 새로이 공개했다. 스플라이스 머신의 RDBMS 솔루션은 사용자에게 직원 재교육이나 수 년 분량의 SQL 재작성 등의 번거로움 없이도 하둡의 확장성과 스파크의 성능을 누릴 수 있도록 하는 것을 목표로 한다. 스플라이스 머신의 공동 설립자이자 CEO인 몬테 츠위벤은 “우리는 이 새 버전의 RDBMS가 데이터베이스 테크놀로지의 새로운 지평을 열었다고 평가하고 있다. ..

ARCHIVES 2015.12.10

PgConf.China 2015

PgConf China 2015가 중국 베이징에서 11월 20일부터 22일까지 3일동안 열렸습니다.장소는 베이징 시내에 위치하고 있는 Park Plaza Beijing Science Park Hotel 3층. 저쪽 멀리에 등록을 하는 곳이 있습니다. 사람들의 움직임이 많아 사진상태가 고르지 못한점 양해바랍니다.등록을 하는곳 왼쪽에는 방명록처럼 자신의 이름을 적는 패널이 있습니다. 빨간색으로 이름쓰는게 한국에서는 조금 내키지않는 일이지만 중국에서는 빨간색을 좋은 뜻으로 생각하니 적어보았습니다. 한문으로 적을까 하다가 자랑스럽게 한국말로.. 이름밑에 회사이름도 자랑스럽게 적고.. 왼쪽에 있는 패널은 스폰서 리스트인데 밑부분에 저희 회사의 로고가 보입니다. 괜히 마음이 뿌듯하고 저자체만으로도 기분이 좋았습니다..

ARCHIVES 2015.11.25

NewSQL에 대하여

이 글은 NewSQL이라는 용어에 대해 정리한 것이다. 1. NewSQL 개요 최근 인터넷과 스마트폰의 폭발적인 성장으로 인해 용량이 크고 다양한 속성의 데이터가 늘어나면서 기존의 RDBMS와 NoSQL로 처리하는 데에는 한계가 나타나게 되었다. 그래서 대용량 데이터 처리와 높은 수준의 데이터 정합성이 필요로 하는 분야에서는 NewSQL이 부상하고 있다. 기존 RDBMS와 NoSQL의 한계는 이러한 것들이 있다. RDBMS의 경우에는 대용량 데이터로 인한 데이터 워크로드가 발생하여 성능을 초과할 수 있으며, 데이터웨어하우스에서도 처리 시간이 일반적으로 수십 분이라서 실시간 분석에 적합하지 않는다는 문제가 있다. NoSQL의 경우에는 트랜잭션 기능을 지원하지 않아 높은 수준의 데이터 정합성이 필요한 분야에..

ARCHIVES 2015.11.20