RESEARCH & REPORT/IT 트렌드

넷플릭스(Netflix)는 어떻게 내 취향을 분석할까?

(주)비트나인 2020. 5. 27. 15:39

넷플릭스는 어떻게 내 취향을 분석할까? (비트나인)

 현대는 정보 과잉의 시대다. 정보가 많을수록 무언가를 결정하기가 힘들어진다. 가령 친구와 집에서 영화를 보기로 했다. 사이트에 영화 검색을 했더니 수천 개의 영화들이 쏟아져 나온다. 영화수가 많으니 뭘 볼지 결정이 어려워진다. 무엇을 볼지 인터넷을 뒤지며 한두 시간을 훌쩍 보내다 어렵사리 한 영화를 골라 친구와 보기로 결정했다. 다음번에는 나 대신 누군가 영화를 추천해줬으면 좋겠다는 생각이 든다.  

 

 온라인에서 접할 수 있는 콘텐츠가 기하급수적으로 늘어나니 이를 추천해주는 서비스도 우후죽순 생겨나고 있다. 이런 서비스들은 추천 알고리즘을 통해 제공된다. 위의 경우 넷플릭스 구독자라면 서비스에 들어가 본인의 취향에 맞는 영화 목록을 참고했을 것이다. 그렇다면 이런 알고리즘은 어떻게 사용자에게 맞는 콘텐츠를 추천해 줄 수 있을까?

 

 추천 알고리즘은 크게 두 가지 방법을 조합해서 사용자에게 콘텐츠를 제공한다. 

 

출처: Software carpentry, https://statkclee.github.io/parallel-r/recommendation-sys.html

*협업 필터링 (Collaborative Filtering)

 협업 필터링이란 사용자들로부터 얻은 데이터를 기반으로 취향을 예측한다. 사용자 기반 추천은 취향이 비슷한 사용자들을 같은 그룹에 놓고, 사용자들에게 비슷한 상품을 추천하는 방식이다. 예를 들어 히어로물을 좋아하는 이용자들을 같이 묶어놓고 A라는 사용자가 어벤져스를 보고 추천을 눌렀다면 같은 취향의 B에게 추천해주는 방식이다. 

 

출처: 네이버 영화 아이언맨 검색시 나오는 추천영화 목록

 협업 필터링은 사용자의 데이터를 활용해 추천해주는 만큼 상품이나 서비스의 구매로 이어질 확률이 높다. 게다가 사용자가 많아질수록 데이터가 쌓여 추천 정확도와 신뢰도 또한 올라간다. 

 

 반면에 사용자의 데이터가 없다면 추천이 어렵다. 신규 사용자의 경우 추천이 힘들고, 사용자가 많아질수록 추천에 계산시간이 오래 걸린다. 

 

*콘텐츠 기반 필터링 (Content-based Filtering)

 콘텐츠 기반 필터링은 콘텐츠 자체를 분석한다. 콘텐츠 프로필을 작성한 뒤 사용자 기호와의 유사성을 비교, 추천한다. 다시 영화를 예로 들면 배우, 장르, 감독, 스토리 특징 등을 데이터베이스화해 놓고 사용자가 소비한 콘텐츠를 기준으로 유사한 특성을 가진 콘텐츠를 추천하는 방식이다.  

 

 예를 들어 사용자가 아이언맨을 검색하면 이와 유사성이 높은 DC의 슈퍼맨이나 마블의 퍼스트 어벤져를 추천해주는 방식이다. 콘텐츠 기반 필터링의 장점은 콘텐츠 자체를 분석하는 것이기 때문에 초기에 사용자의 행동 데이터가 적더라도 추천할 수 있다는 장점이 있다.

 

 하지만 비슷한 특성의 상품을 계속해서 추천하기 때문에 아이템의 다양성이 떨어지고 콘텐츠의 특성만을 추출하다 보니, 사용자 개개인의 취향을 정밀하게 파악할 수 없다는 문제점도 있다.

 

 콘텐츠를 추천하는 대부분의 알고리즘은 위 두 형태를 조합해서 사용한다. 세세하게 어떤 알고리즘 규칙으로 조합하는지가 그 기업만의 특화 방식인 셈이다. 제목에서 소개한 넷플릭스도 자사만의 특화된 추천알고리즘을 사용하는데 대외비라 세세한 내용까진 알 수 없지만 언론보도나 직원 인터뷰, 연구자료를 통해 대강은 확인할 수 있다. 

 

넷플릭스(Netflix) 화면 캡쳐

 

 우선 넷플릭스는 협업 필터링에서 한 발 나아가, 동일한 영상을 본 사람들이 비슷한 패턴의 행동을 보인다면, 같은 그룹으로 묶는다. 예를 들면 어떤 드라마를 시청하는 데 2화까지만 보고 종료한 두 사람이 있다면, 이 두 사람을 같은 그룹으로 묶는다. 사용자의 다른 특징은 상관없이, 같은 그룹에 속하게 되는 것이다. 그룹 항목은 콘텐츠, 찾는 속도, 재시청비율, 사용 기기, 데이터 환경, 좋아요/싫어요, 중간 정지 여부, 요일/날짜/시간, 재생 중 정지/되돌리기/빨리가기 지점 등 종류만 수십 가지다. 넷플릭스는 이런 그룹 중 5개를 골라 개인화된 화면으로 배경을 채운다.   

 

 이런 협업 필터링에서 더 나아가, 콘텐츠 기반 필터링이 추가된다. 이 지점에서 넷플릭스는 AI가 아니라 대규모의 인력을 활용하는데, 이들을 태거(Tagger)라고 부른다. 이들 전문가 집단은 하루 종일 넷플릭스 콘텐츠를 감상하고 키워드, 즉 핵심 키워드인 태그를 엑셀에 기록한다. 예컨대 로맨틱 코미디라고 하면 원작소설이 있는지, 여성이 주도했는지, 실화를 바탕으로 하는지, 감정이 밝은지 혹은 어두운지, 어떤 결말인지, 주인공이 아웃사이더인지, 장소와 시대는 어떤지, 대상 연령층은 누구인지 등을 7만~8만 개의 미세한 ‘태그’로 정리하고 조합한다. 영화 한 편의 태그 양이 30쪽을 넘을 정도로 양이 방대하다. 그리고 이를 협업 필터링과 함께 데이터로 갱신하고 분석에 들어간다. 머신러닝을 통해 각 요소의 비중이 결정되고 그 결과 사용자들은 2천여 개의 취향 그룹으로 분류된다.

 

 여기에 더 소름 돋는 디테일이 들어가는데, 같은 콘텐츠라도 나라에 따라, 문화권에 따라 썸네일까지 변화하며 같은 콘텐츠에도 여러 가지의 다른 표지 이미지를 사용하고 선호도에 따라 표지 이미지를 다르게 적용한다.  예를 들어 '라라랜드’란 영화를 추천할 경우에 ‘뮤지컬’ 취향이 강한 사용자에게는 주인공들이 춤추는 장면을 메인 이미지로 내 보내고, ‘로맨틱’ 취향이 강한 사용자에게는 주인공들이 키스하는 장면을 메인 이미지로 내세운다. 계속 다양한 이미지를 뿌려주며 반응을 수집하고 개인의 취향을 더 깊이 파악해 콘텐츠를 한 번이라도 더 보게 만든다. 

 

 2011년, 넷플릭스가 자신들의 추천 알고리즘 효율을 10% 높이는 개발자(팀)에게 10억원을 상금으로 내걸었던 일화는 유명하다. 이후에도 넷플릭스는 지속적으로 추천 알고리즘을 진화시키고 있다. 향후 실제 나보다 나를 더 잘 아는 맞춤형 서비스가 나올 날이 멀지 않아 보인다.


추천 알고리즘의 비밀, 그래프 기술

 

그래프 기술의 가치 : 표현, 발견 그리고 추론

데이터를 다루는 방법들이 다양해지고 있다. 최근 정보기술의 발달과 더불어 데이터양의 폭발적인 증가 및 데이터 유형의 다양화로 인해, 기존의 관계형 데이터베이스 이외에 목적 지향적인 데

bitnine.tistory.com

 

그래프 데이터베이스가 어떠한 방식으로 추천을 할까요?

 

그래프 기반 추천 시스템이란?

추천 시스템이란? 추천 시스템은 사용자가 콘텐츠 이용 시에 개인화된 추천을 지원하는 시스템으로 콘텐츠 및 사용자의 정보, 콘텐츠에 대한 평가를 기반으로 사용자에게 적합한 콘텐츠를 추천

bitnine.tistory.com

 


▷참고자료 : http://www.crteconomy.com/news/articleView.html?idxno=1608