RESEARCH & REPORT/그래프 기술

판도라 페이퍼스, 그래프 DB로 조세회피를 밝히다

(주)비트나인 2021. 10. 26. 09:38

 

국제탐사보도언론인협회(ICIJ)에서는 10월 3일 공식적으로 판도라 페이퍼스(Pandora Papers)를 공개했습니다. ICIJ의 대표는 판도라 페이퍼스를 “스테로이드 복용한 파나마 페이퍼스”로 비유하며, 이전의 조세회피 사건보다 크고 충격적이다라는 것을 밝힌바 있습니다. 

 

2016년 파나마 페이퍼스(Panama Papers) 공개 당시에는 단일 제공 업체이자 현재는 사라진 모색 폰세카(Mossack Fonseca) 로펌의 1,150만 문서에서 2.6테라바이트의 데이터를 기반으로 분석했었습니다.

 

2017년 파라다이스 페이퍼스(Paradise Papers) 조사 당시에는 19개 싱가포르 기반 제공업체인 아시아시티 트러스트(Asiaciti Trust) 및 정부 기업 등기부뿐만 아니라 해외 로펌인 애플비(Appleby)의 1,340만 개 이상의 파일에서 1.4테라바이트의 유출된 데이터를 기반으로 분석을 진행했었습니다.

 

*참고: 판도라 페이퍼스의 전체 이야기가 궁금하신 분은 한국탐사저널리즘센터 뉴스타파의 영상에서 세밀한 조사를 한 바가 있습니다.

 

본 글은 판도라 페이퍼스의 전체 이야기를 소개하기보다, 어떤 방식으로, 특히 그래프 데이터베이스를 통해 어떻게 2.9테라바이트, 1,200만개에 육박하는 기록물의 패턴을 파악하여 90여국 300명 이상의 정치인, 공무원, 연예인 등을 찾아냈는지를 설명하고자 합니다.

 

 

 

판도라 페이퍼스에 들어간 1190만 개의 비정형 데이터 (출처: ICIJ)

 

위 이미지는 판도라 페이퍼스에 들어간 여러 비정형 데이터 및 문서들을 조사한 내용입니다. 기존 시스템으로는 저장할 수 없는 문서, 이미지, 이메일, 오디오 파일, 영상 파일 등 수 많은 데이터가 존재합니다. 

 

ICIJ는 정형 및 비정형 데이터에 대한 전처리 작업을 먼저 수행해야했습니다. 2.94 테라바이트의 데이터 중 오직 4%만이 테이블로 정리된 (스프레드시트, csv 등) 정형 데이터였으며, PDF와 문서 파일은 파이썬 언어를 사용하여 데이터 추출 작업을 거쳤습니다. 일반적으로, 데이터의 중복 제거, 소유자의 국적, 거주 국가 및 출생지와 같은 핵심 요소를 식별하는 것은 정형 데이터를 가공하는 첫 단계입니다. 데이터의 중복성은 키워드 검색과 공개 데이터와의 일치를 통해 확인했으며, 여권 정보를 비교하여 정보를 식별했습니다. 

 

ICIJ는 추출된 데이터가 한꺼번에 검색이 가능하도록 그래프 데이터베이스에 저장하고, 시각화 도구로 데이터 관계를 시각화했습니다. 관계형 DB로는 1190만 개의 문서를 통해 관련된 조세회피자들을 찾아내려면 무한한 시간이 걸렸겠지만, 이를 그래프 DB가 짧은 시간에 샅샅히 밝혀냈습니다. ICIJ는 그래프 데이터의 시각화를 통해 330명 이상의 정치인과 공무원 중, 35명의 현직 및 전직 국가 지도자, 사업가, 억만장자 등의 이름과 정보를 나열할 수 있었습니다. 

 

더 나아가 ICIJ는 파나마 로펌인 알레만(Alemán), 코데로(Cordero), 갈린도 앤 리(Galindo & Lee), 알코갈(Alcogal)이 금융 당국에 제출한 의심스러운 활동 보고서 109건을 분석했습니다. 분석 결과, 자금세탁 방지 양식 중 87건이 당국이나 언론인이 공개적으로 회사의 고객을 불법 행위에 연루된 것으로 확인했습니다. 또한, 판도라 페이퍼스의 조사에서 파나마 페이퍼스 스캔들의 중심에 있던 로펌인 모색 폰세카의 고객이었던 500개 이상의 BVI(BVI Financial Services Commission)회사가 포착되었습니다. 

 

ICIJ에서 조사한 방식은 아래 그래프 모델을 예시로 보여드리겠습니다.

 

ICIJ 그래프 모델링

 

 

위 이미지의 4가지 속성은 다음과 같습니다.

 

개체: 유령 회사 (페이퍼 컴퍼니)

중개자: 유령 회사를 만들고 관리하는데 도움을 준 로펌, 은행

관리자: 유령 회사의 대리인/사장, 주주, 관리자 

주소: 각 객체의 등록된 주소

 

위 그래프 모델에서 원은 노드(node)를, 선은 엣지(edge)를 나타냅니다. 노드가 다른 노드와 어떠한 관계를 가지고 있다를 표현하고 있는데, 예를 들어 개체가 유령 회사라고 하면, 관리자라는 노드는 유령 회사의 관리자를 나타내는 것입니다. 데이터를 열과 행으로 표현하는 관계형 DB와 달리, 그래프 DB는 정보간 직관적인 관계를 바로 볼 수 있다는 장점을 가지고 있습니다. 

 

하지만 아무리 직관적인 구조를 가지고 있어도 수천에서 수억개가 되는 노드와 선을 한꺼번에 보면 사막에서 바늘을 찾는 것과 같습니다. 그럴 때는 그래프 쿼리 언어인 Cypher를 사용하여 찾고자 하는 것을 바로 검색해서 볼 수 있습니다. 예를들어 유령 회사의 대리를 맡고 있는 관리자를 찾아보거나, 그 유령회사가 어디에 위치해 있고, 어떠한 로펌 또는 은행이 그 유령 회사를 관리하고 있는지까지 세부적으로 찾아볼 수 있습니다. 그래프는 데이터에 투명성을 더해 신뢰있는 팩트를 제공하는 것입니다. 이러한 모델을 가지고 ICIJ의 기자들은 2.94테라바이트가 되는 양의 데이터의 관계를 연결하여 조세회피자와, 중개자, 그리고 유령회사의 관리자들의 관계를 파악할 수 있었던 것입니다. 

 

이를 기존 시스템(예: 관계형 DB)으로 파악하려면 기하급수적인 시간을 필요로 하거나, 또는 전혀 불가능한 일이 될 것입니다. 그러나 이전의 파나마와 파라다이스 페이퍼스에서 증명했듯이 그래프 DB는 비정형 데이터에 대한 숨겨진 관계와 의미를 찾는데 특화되어있기 때문에 이와 같은 판도라 사건까지 낱낱히 밝혀낼 수 있었습니다.

 

흥미로운 사실은, ICIJ의 판도라 페이퍼스 사건을 통해 한국인 이름이 등장한 문건이 8만 8353건에 이르며, 이중 274건이 홍콩에 위치한 회계법인에서 나왔다는 것입니다. 수익소유자는 465명(개인 이름 275명, 회사 이름 184명)으로 나온다고 뉴스타파에서 전했습니다. 

 

ICIJ는 불법 행위를 찾기 위해 기존의 기술이 아닌 그래프 DB로 놀라운 성과를 거두었으며, 전 세계적으로 엄청난 파장도 함께 일으켜냈습니다. 우리나라의 정부나 금융기관도 이처럼 그래프 기술 도입을 주저하지 않고 적극 받아들여 가상화폐 범죄, 탈세 및 자금세탁 방지 등 많은 현대 사회의 지능적인 범죄 이슈들을 해결하는데 활용해봐야 할 것입니다.  

 

 

참조

ICIJ, Pandora Papers: An offshore data tsunami  

https://www.icij.org/investigations/pandora-papers/about-pandora-papers-leak-dataset/

 

뉴스타파, 조세도피처로 간 한국인들 2021… 판도라페이퍼스 http://newstapa.org/article/Re4iz

 


 

멀티모델 그래프데이터베이스 AgensGraph

60일간 무료로 사용해 보세요

bitnine.net

 

제품 및 기술문의

070-4800-3517  |   agens@bitnine.net