DBMS/AgensGraph

AG Cloud Express에 CSV 파일 가져오는 방법

(주)비트나인 2021. 6. 15. 09:30

 

 

비트나인의 R&D팀은 최근 AG Cloud Express에 유저들의 CSV 데이터를 읽고 데이터를 노드 및 엣지로 표현할 수 있는 ‘Import your own data’ 기능을 업데이트했습니다. 이 기능을 기다리고 있던 사용자 분들이나, 신규 가입자 분들은 새롭게 추가된 기능을 바로 사용하기 전에 꼭 따라야 할 규칙을 먼저 이해해야 할 필요가 있습니다.  

 

AG Cloud Express는 비트나인에서 개발한 다중 모델 (관계형 및 그래프) 데이터 처리를 담당하는 그래프 데이터베이스인 아젠스그래프(AgensGraph)와 그래프 및 그래프 쿼리의 데이터 시각화를 돕는 AGViewer가 합쳐진 클라우드 서비스입니다. AG Cloud Express가 읽을 수 있는 CSV 파일을 만드는 방법은 해당 튜토리얼에서 제공하는 모델링 기술과 유사한 원칙을 따르기 때문에 아젠스그래프에서도 동일하게 적용할 수 있다는 점을 알려드립니다.

 

AG Cloud Express로 CSV 데이터를 가져오려면 몇 가지 규칙과 설정을 시행해야 합니다. 만약 아래 튜토리얼 내용을 따르지 않으면 오류 메시지가 뜰 것이고 새로운 프로젝트를 추가하지 못하거나, AGViewer의 기능이 제대로 작동하지 않을 것입니다.

 

CSV 파일을 만드는 방법을 보여주기 위해 구글 애널리틱스(Google Analytics)에서 수집한 데모 샘플 데이터를 준비했습니다. 이 데이터는 특정 기간 동안 특정 상품 매장 웹사이트를 방문한 전 세계의 주요 주와 도시에 대한 데이터가 기록되어 있습니다. 



데모 데이터 외 본인의 데이터를 CSV 파일로 변환하려면 필요에 따라 데이터 모델링의 방법이 다를 수 있습니다. 가이드를 잘 살펴보고 이해한 후, 본인의 데이터에 규칙을 적용하면 됩니다. 

 

  

 

우선, 위와 같은 테이블 데이터를 비트나인의 그래프 데이터베이스(AG Cloud Express)가 이해할 수 있는 CSV 파일로 변환하려면 먼저 노드와 엣지에 대한 별도의 CSV 파일을 만들어야 합니다. 

 

Node CSV 만드는 방법

페이지 제목(Page Title)과 지역(Region)이라는 항목이 있습니다. 이 항목을 개별적으로 복사하여 각각 다른 파일에 붙여넣습니다. 

 

이미지에 완전히 표시되지는 않았지만, 이 시트는 한 달 가량의 누적 데이터입니다. 반복되는 노드가 있으므로, 불필요한 노드가 생성되지 않도록 한 열에 있는 모든 중복 값을 제거합니다.  

 

RegionPage에 대한 노드 CSV는 아래와 같습니다.

 

 

 

각 노드 파일의 첫 번째 행은 노드로 구분하기 위해서 “name”으로 지정해야 합니다. (name 이외의 이름은 AG Cloud Express가 읽을 수 없습니다) CSV 파일의 이름은 각각 RegionPage로 저장합니다. 이 파일 이름은 AGViewer에서 노드(혹은 버텍스/Vertex)의 이름으로 표시됩니다. 

 

Tip: 

데이터를 가져올 때 오류가 발생하지 않도록 아포스트로피(apostrophe, ’)를 제거해야 합니다. (예: men’s -> mens)

 

Edge CSV 만드는 방법

Edge CSV를 만드는 것은 생각보다 더 간단합니다. 구글 애널리틱스에서 가져온 원본 파일을 그대로 사용하거나 사본을 만들어 AGViewer가 이해할 수 있는 방식으로 행 이름을 변경하면 됩니다. 

 

Raw data (전)

 

 

Start_node와 end_node 옆의 열 데이터는 그래프 데이터의 품질과 깊이를 더욱 향상시킬 수 있는 속성(property)값 입니다. 데이터를 정의할 때 도움이 되는 중요한 속성은 남겨두고, 판단에 방해가 되거나 불필요한 속성은 제거해도 됩니다.

 

Visit[region&page].csv (후)

 

저장된 엣지 CSV 파일명은 visit[region&page]로 저장하며, 노드의 시작은 start_node, 끝은 end_node로 표시해야 합니다. 또한, 엣지 파일은 다음과 같이 저장해야 합니다.   

 

1. 한 노드에서 다른 노드 사이에는 관계가 존재합니다. 그 관계는 주로 특정 행위를 나타내며, 엣지 파일의 이름을 이 행위에 따라 저장해야 합니다. AG Cloud Express 내에 있는 시각화 도구인 AGViewer의 edge label로 표시할 행위의 이름은 (방문수를 뜻하기 때문에) ‘visit’로 정합니다. 

 

2. 대괄호 ‘[ ]’ 안에 Start node와 end node를 포함해야 하며 노드 사이의 구분 기호는 ‘&’로 정합니다. 마이크로소프트 엑셀 파일에서 직접 파일명을 저장하는 경우, ‘&’와 같은 특수 문자로 파일을 저장할 수 없음으로, 파일을 따로 수동적으로 편집해야 합니다. 

 

AG Cloud Express에 업로드할 준비가 된 파일들은 아래와 같습니다. 

 

  

 

다만, 이 글에서 설명하는 시나리오는 단순한 튜토리얼이기에 CSV 변환 프로세스를 비교적 짧게 단축한 것이지만, 어떤 인사이트를 원하느냐에 따라 데이터 모델링의 시간이 더 걸릴 수도 있습니다. 



AG Cloud Express로 가져오는 방법

AG Cloud Express로 CSV 파일을 가져오는 방법을 설명합니다. 우선 Link를 통해 먼저 AG Cloud Express에 로그인하는 방법을 확인하시기 바랍니다.

 

로그인 후 ‘Add a New Project’를 클릭하면 아래와 같은 팝업이 나타납니다. 

 

 

새로 업데이트된 옵션인 User Data (.CSV) 를 선택합니다. 

 

 

준비한 파일들을 Drag&Drop 상자로 끌고 오거나, 불러올 수 있습니다. 

 

CSV 파일을 성공적으로 불러온 경우 아래와 같은 팝업창이 나타납니다. 파일을 성공적으로 가져오지 못한 경우 파일 이름과 CSV 파일의 내용이 튜토리얼에 언급된 규칙을 따랐는지 확인한 후 다시 파일을 가져와야 합니다. 문제가 계속되면 AG Cloud Express 우측 하단에 위치한 Request for Improvement를 통해 비트나인에 제보하실 수 있습니다.

 



추가 탭으로 그래프 시각화 화면을 실행하려면 Launch AGViewer를 클릭합니다. 아래 스크린샷과 같이 노드와 엣지가 제대로 정렬되어 있는지도 확인이 필요합니다.

 

 

노드 레이블과 엣지 레이블이 위와 같이 올바르게 표시된다면 데이터를 그래프로 볼 준비가 다 되었음을 의미합니다. 레이블 중 하나가 0으로 표시되면 오류로 간주한 것이니, 가져온 파일을 수정해 다시 업로드해야 합니다. 

 

 

위 이미지는 캘리포니아주와 콜로라도주가 방문한 웹사이트를 보여주는 샘플 데이터입니다. 엣지의 두께가 굵을수록 방문 트래픽이 더 많다는 것을 보여줍니다. 해당 주에 있는 많은 방문자가 다양한 카테고리의 의류 웹사이트에 관심을 보였으며, 샘플 데이터에 따르면 캘리포니아와 콜로라도의 공통되는 노드가 두 개라는 것을 알 수 있습니다. 

 

공통 페이지 노드 중 콜로라도는 ‘Mens / Unisex / Apparel’에서 트래픽이 가장 많지만, 캘리포니아는 다른 페이지에 더 트래픽이 많은 것을 볼 수 있습니다. 해당 그래프를 보면 캘리포니아보다 콜로라도에 남성 의류에 관심을 보이는 고객이 더 많다는 것과 캘리포니아는 더 다양한 페이지를 방문하는 것을 알 수 있습니다.

 

그리고 AG Viewer에 대해 심층적인 기능 설명 및 분석은 후속 콘텐츠를 통해 소개될 예정입니다.   

 

한눈에 인사이트를 얻을 수 있는 AG Cloud Express!

AG Cloud Express 내에 있는 AGViewer는 데이터 모델을 더 쉽게 볼 수 있도록 도와주는 그래프 시각화 도구입니다. 이 튜토리얼을 통해 미가공 데이터를 AG Cloud Express가 읽을 수 있는 CSV 파일로 변환하는 방법을 살펴보았습니다. 주요 사항들을 요약하여, 규칙을 확실히 습득한 후, AG Cloud Express에 본인의 데이터 시각화를 체험해 볼 수 있습니다.

 

구글 시트로 통하는 아래 3가지 링크를 클릭하여 CSV 파일로 내려받은 후, 튜토리얼을 따라 AG Cloud Express의 신기능을 체험해보세요. 


튜토리얼 샘플 Datasets 

region.csv

page.csv

visit[region&page].csv

 

CSV 변환 핵심 팁

1. Node 파일의 첫번째 행 이름은 ‘name’이어야 합니다.

2. 엣지 파일의 첫번째와 두번째 행의 이름은 각각 ‘start_node’‘end_node’이어야 합니다.

3. 엣지는 다음과 같은 포맷을 따릅니다: ‘관계[start_node 파일명&end_node 파일명]’. 

(예: Visit[Region&Page]

(노드 사이의 구분 기호는 ‘&’로 정합니다. 마이크로소프트 엑셀 파일에서 직접 파일명을 저장하는 경우, ‘&’와 같은 특수 문자로 파일을 저장할 수 없음으로, 파일을 따로 수동적으로 편집해야 합니다)

4. 노드 엣지와 엣지 파일이 준비되면 이를 AG Cloud Express의 박스에 클릭 & 드래그로 가져오기

 


그래프 시각화 클라우드 서비스 AG Cloud Express

무료로 사용해 보세요

https://agcloud.bitnine.net/

 

제품 및 기술문의

070-4800-3517  |   agens@bitnine.net