함께 만들어 나가는 IT 용어사전, 알쓸IT잡!
IT 분야의 모든 궁금증을 해결해 드립니다.
오직 알쓸IT잡에서만!
빅데이터, 이제는 모르는 사람이 없을 정도로 널리 알려진 개념이며, 이를 해석하는 것 또한 다양한 시각이 존재합니다.
일반적으로는 ‘기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 데이터, 또는 심지어 데이터베이스의 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터’라고 정의할 수 있습니다. 또한, ‘기존(2010년대 이전)의 아날로그 환경에서 생성되던 데이터에 비해 그 규모가 방대하며, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터’라고도 덧붙일 수 있습니다.
한편, 다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 합니다. 뿐만 아니라, 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석 가능케 하면서 과거에는 불가능했던 기술을 실현시키기도 합니다.
이같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있습니다.
빅데이터의 정의
통상적으로 빅데이터는 일반적인 데이터베이스, 소프트웨어로 관리가 어려운 대용량의 데이터를 의미하며, 최근 에는 대용량 데이터의 수집, 저장, 플랫폼, 분석기법 등을 포괄하는 용어로 변화하고 있습니다.
세계적인 컨설팅 기관인 매켄지(Mckinsey)는 빅데이터를 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 규모로서 그 정의는 주관적이며 앞으로도 계속 변화될 것이라고 언급하고 있습니다. 또 어떤 그룹에서는 빅데이터를 테라바이트 이상의 데이터라고 정의하기도 하며 대용량 데이터를 처리하는 아키텍처라고 정의하기도 하는 등 다양한 해석을 내리고 있습니다.
빅데이터의 특징 (3V, 4V, 5V?)
빅데이터의 특징은 3V로 요약하는 것이 일반적입니다. 즉 데이터의 양(Volume), 데이터 생성 속도(Velocity), 형태의 다양성(Variety)을 의미하는데, 최근에는 기존 데이터와 차별화되는 빅데이터의 특성을 5V(Volume, Velocity, Variety, Veracity, Value)로 설명합니다.
Volume(양) : 물리적인 크기와 개념적인 범위까지 대규모인 데이터의 양
Velocity(속도) : 실시간으로 생산되며 유통 속도 또한 매우 빠른 데이터
Variety (다양성) : 기존의 구조화된 정형 데이터는 물론 사진, 동영상 등의 비정형 데이터가 포함
Veracity(신뢰성) : 데이터의 원천 및 형태 다양화에도 불구하고 신뢰성이 보장된 데이터
Value(가치) : 새로운 가치를 창출할 수 있는 데이터
이 V로 설명되는 특징에 대해서는 다양한 견해가 있으나 가트너의 3V 정의(데이터의 양,volume, 데이터 입출력의 속도,velocity, 데이터 종류의 다양성,variety) 모델이 가장 널리 사용되는 빅 데이터의 정의가 된 바 있습니다. 이에 더해, IBM은 정확성(Veracity)이라는 요소를 더해 4V를 정의하였고, 브라이언 홉킨스(Brian Hopkins) 등은 가변성(Variability)을 추가하여 4V로 정의하기도 하였습니다.
빅데이터 분석
빅데이터에서 분석(Analytics)이란 사물을 이해하는데 필요한 광의의 분석이나 데이터의 단순 조회 및 단순 리포팅의 생산 과정이 아닌, 데이터에 근간한 통계분석, 트렌드 예측, 최적화 등이 여기에 해당합니다. 또한 의사결정과 그 Action에 활용하기 위한 데이터의 광범위한 활용, 통계적이며 정량적 측면의 분석, 탐색적 분석 및 예측모델링, 사실에 근거한 경영을 의미하기도 합니다.
빅데이터 활용 트렌드
빅데이터는 2012년 세계경제포럼에서 발표한 10대 신기술 중 첫 번째로 선정되면서 기업들에게 데이터의 가치와 중요성을 인식하게 했습니다. 이후 많은 기업들이 필수적으로 빅데이터 시스템을 구축하고 방대한 양의 데이터를 수집 ·관리하고 있으며 이를 분석해 의사결정, 비즈니스 모델 확장 등에 필요한 정보를 도출하기 위해 많은 비용과 시간을 투자하고 있습니다.
뿐만 아니라, 데이터 처리 및 분석 기술의 발달로 빅데이터 활용 분야가 다양해지고 있으며, 4차 산업혁명으로 다양한 분야가 융합되면서 데이터간의 연결을 통한 통합 분석이 중요해지고 있습니다. 현대는 모든 것이 연결되는 초연결(Hyper-Connect) 사회로, 이러한 연결은 더욱 견고해지고 있습니다. 따라서 지금까지는 데이터의 안정적인 관리가 핵심이었다면, 최근에는 데이터간 초연결을 통한 통찰력(Insight)을 발견하는 것으로 변화의 흐름이 가속화되는 중입니다.
가트너의 2019년 10대 데이터 및 분석 기술 트렌드에 따르면 데이터간 상관관계를 보다 쉽고 빠르게 파악하기 위한 ‘그래프 분석’이 중요한 트렌드로 제시되고 있습니다.
그래프 분석은 조직, 사람, 거래 등 이해 주체간의 관계를 탐색할 수 있는 기법으로 이를 가능하게 하는 애플리케이션과 그래프 데이터베이스 관리 시스템은 2022년까지 매년 100%씩 성장해 더욱 복잡하고 적응력이 뛰어난 빅데이터 사이언스를 구현할 것으로 기대하고 있습니다.
데이터간의 연결을 관계 그대로 처리 가능한
그래프 데이터베이스 알아보기
'ARCHIVES' 카테고리의 다른 글
[알쓸IT잡] FDS 란? (이상거래탐지시스템, Fraud Detection System) (0) | 2020.07.22 |
---|---|
[알쓸IT잡] 지식 그래프(Knowledge Graph)란? (3) | 2020.07.15 |
[IT조선] 비트나인 ‘AGE’, 아파치재단 오픈소스 인큐베이션 프로젝트 채택 (0) | 2020.07.02 |
[알쓸IT잡] 그래프 데이터베이스(Graph Database)의 장점 - Part. 2 (0) | 2020.07.01 |
[알쓸IT잡] 그래프 데이터베이스란? (Graph Database) - Part.1 (0) | 2020.06.25 |