USE CASES/사례 연구

2020 美 대선 특집: 그래프 DB로 러시아 트윗 추적하기

(주)비트나인 2020. 11. 6. 17:32

그래프 DB로 러시아 트윗 추적하기

안녕하세요?

 

지금 미국 전역에서는 고도의 긴장과 흥분이 가라앉지 않고 있습니다. 바로 2020년 미국 대통령 선거 때문인데요, 공화당 도널드 드럼프 대통령과 민주당 조 바이든 전 부통령의 대결은 개표 초반부터 치열한 양상을 보여왔고, 최종 결과를 앞두고 있는 현재에도 예측이 쉽지만은 상황입니다. (한국시간 2020.11.6. 오후 기준, 바이든이 유력한 상황이긴 합니다) 미국의 대통령 선거 결과는 미국 뿐 아니라 전세계의 정치와 경제 등에도 큰 영향을 미치기 때문에 전 세계인의 이목이 집중되고 있습니다.

 

지난 2016년 미국 대선에는 러시아의 트윗 활동이 침투하여 분열을 일으켰던 적이 있습니다. 본 글은 트윗을 추적하기 위해 언론 방송사인 NBC 뉴스가 그래프 데이터베이스 개발사인 N사와 협업했었던 사례를 소개하고자 합니다.     

2016년 美 대선을 침투한 러시아의 ‘트롤 트윗’

2016년 미국 대선 때, 러시아가 소셜 미디어 플랫폼을 통해 선거에 개입한 정황이 밝혀졌습니다. 다만, 익명성이 보장된 인터넷 환경에서 소셜 미디어상의 위조계정을 찾아내는 것은 하늘의 별따기와 같이 어려운 일이었습니다.

 

2017년 11월, 미국 하원 정보위원회는 크렘린의 Internet Research Agency와 관련된 트위터 계정 2,752개의 목록을 공개했습니다. IRA는 러시아 비즈니스 및 정치적 이익을 대변해 온라인 영향력을 행사하는 일명 ‘트롤 농장’인 회사입니다. 그들은 미국 시민, 언론 기관 및 정치 단체를 사칭해 가짜 계정을 생성하고 허위 정보를 퍼뜨리고 유권자의 분열을 조장했습니다.

 

목록이 공개되었을 당시, 트위터는 트윗과 사용자 프로필이 포함된 일부 계정을 이미 삭제한 뒤였습니다. 트위터가 외국의 선거 간섭을 증명할 수 있는 자료를 지우자 미국의 전문가들은 이를 비판했습니다. NBC 뉴스팀은 삭제된 트롤 트윗을 찾기위해 데이터를 복구하기로 결정했고, 당시의 데이터를 복구하는데 성공해 분석까지 마칠 수 있었습니다.  NBC 뉴스는 파나마 페이퍼스 사태의 주요 역할을 수행했던 그래프 데이터베이스 개발회사인 N사를 찾아서 트위터가 삭제한 러시아 ‘트롤 트윗’을 추적해달라고 요청했습니다.

그래프 데이터베이스로 숨겨진 사이버 계정 발견 

그래프 데이터베이스로 데이터의 관계를 연결하여 분석하기 전, 우선 최대한 많은 데이터를 모으는 것이 관건이었습니다. 분석가들은 인터넷 기록 보관소(Wayback Machine으로 알려짐)와 선거 기간에 트위터를 집중적으로 모니터링하는 독립적인 기관으로부터 데이터를 수집했습니다. 총 454개의 계정을 발견하여 202,973개의 트윗을 데이터베이스에 저장할 수 있었습니다. 이는 극히 소수의 트윗이었지만, NBC의 기자들과 N사의 분석가들이 러시아 트롤들의 의도를 조사하기에는 충분했습니다.  

 

N사의 분석가들은 트윗, 사용자(트롤로 밝혀진 일부), 해시태그, 응용프로그램 및 링크를 그래프의 객체로 나타내고, 관계를 지어 숨은 연결고리를 찾고자 했습니다. 그래프 쿼리 언어인 싸이퍼(Cypher)로 질문을 작성하여, 저장된 데이터 세트를 통해 답을 탐구했습니다. 

 

예를 들어, 트롤들이 가장 많이 사용한 해시태그를 작성했는지 알고 싶을 때는 아래와 같은 쿼리를 입력했습니다.

 

그래프 데이터베이스 Cypher 쿼리 : 해쉬태그 상위 추출

또 다른 예로, 다른 트롤의 글을 리트윗하고 있는 트롤을 찾을 때는 아래와 같이 입력했습니다.

 

그래프 데이터베이스 Cypher 쿼리 : 리트윗 추출

N사의 분석가들은 트위터 데이터를 더 쉽게 이해하기 위해 아래 3가지의 그래프 알고리즘을 응용했습니다. 

  • 중심성(Centrality)

- 그래프 혹은 연결망에서 꼭짓점 혹은 노드의 상대적 중요성을 나타냄

  • 커뮤니티 탐지(Community Detection)

- 연결 밀도가 높은 집단끼리 서로 묶어서 분석함

  • 길찾기(Pathfinding)

- 객체간의 최단 경로를 찾아줌 

 

다른 객체와의 연결을 기반으로 노드의 중심성을 측정했습니다. 커뮤니티 탐지 알고리즘은 트롤들과 자주 소통하는 사용자의 네트워크를 분석하여, 가장 큰 영향력을 행사하는 트롤과 이 트롤의 활동을 증폭시킨 다른 트롤을 확인했습니다.

 

그래프 알고리즘을 반영한 그래프 시각화

기자들은 트롤만의 네트워크가 형성되어 있는 것을 발견했습니다. 각 커뮤니티는 소수의 콘텐츠 생성 계정과 많은 리트윗용 계정으로 구성되었습니다. 트롤 트윗의 약 25%가 오리지널 트윗이고, 나머지는 리트윗이었던 것입니다. 트롤 계정은 팔로워를 모으고 영향력을 구축하기 위해 일반적인 해시태그를 활용하고 인기 있는 계정이 응답했습니다.

 

트롤 계정은 많은 발자국을 남겼습니다. 대다수의 일반 트위터 사용자들은 휴대폰으로 트윗을 하지만, 분석가들이 발견한 트윗은 대부분 웹 클라이언트를 통해 생성된 것을 알 수 있었습니다. 또, 트롤 계정의 트위터 활동 시간을 추적해봤을 때 러시아의 근무 시간에 급증한 것으로 나타났습니다. 

NBC의 보도로 마침내 드러난 실체

러시아의 IRA가 운영한 계정은 몇가지 유형이 있었습니다. 어떤 계정은 일반적인 미국 시민을 연상시키는 아이디로 계정을 생성했었고, 어떤 경우에는 온라인 뉴스 또는 공화당 정치 단체 행세를 하기도 했습니다.

 

가짜 계정의 목록이 공개된 이후 몇 주 만에 NBC와 N사는 200,000개의 트윗을 발견할 수 있었고, NBC 뉴스팀은 N사의 분석에 따라 러시아 트윗의 정체를 폭로했습니다. 폭로한 보도는 러시아 트롤들이 미국인 행세를 하며, 여러 팔로워를 모으고, 미국 정치에 부정적인 선전을 전파한 내용을 담았습니다. 

 

이러한 계기를 통해 그래프 데이터베이스의 적용 분야가 넓혀졌습니다. 만약 정부 또는 소셜 미디어 플랫폼이 그래프 데이터베이스를 활용하여 연결 우선 (connections-first) 접근 방식으로 데이터 세트를 분석한다면, 온라인상에 발생할 수도 있는 간섭 행위를 감지하고 미리 저지할 수도 있습니다. 이는 현재 그래프 DB가 적극적으로 활용되고 있는 사이버 위협 인텔리전스(CTI) 또는 이상행위탐지시스템(FDS)과도 유사한 방식임을 알 수 있습니다. 


 

 

 

트럼프의 당선이 페이스북 덕분이라고요?

페이스북의 반사적인 반응이 만든 트럼프의 당선 소셜 미디어 플랫폼에 대한 전면적인 정치적 광고 금지는 미국 민주당에게 좋지 않은 결과를 가져올 것 입니다. 트위터가 해당 사이트에서 정

bitnine.tistory.com

참고 : https://neo4j.com/case-studies/nbc-news/?ref=solutions

 


 

 

멀티모델 그래프데이터베이스 AgensGraph

60일간 무료로 사용해 보세요

bitnine.net/agensgraph-downloads/

 

제품 및 기술문의

070-4800-3517  |   agens@bitnine.net