데이터 분석의 궁극적 목적은 무엇인가
사용자에 따라 달라지는 데이터 분석 결과
데이터 분석 방법론, '맥락'과 '스토리텔링'
글. 신광섭 인천대학교 동북아물류대학원 교수
Idea in Brief
데이터분석의 목적은 사용자가 의사결정하는 데 도움이 될 수 있는 정보를 생성하는 것이다. 이 때문에 필자는 데이터 분석의 결과를 받아들이는 사용자가 어떤 입장에 있는 지, 분석의 결과가 어떻게 활용되는 지 더 고민해야 한다고 생각한다. 이런 관점에서 데이터는 수치(도표) 보다는 맥락(Context), 맥락보다는 스토리텔링(Story telling)으로 설명되어야 한다. 이번호에서는 데이터분석의 목적과 유형에 따른 표현방식에 대해 알아보겠다. |
여름 휴가철은 훌쩍 지나 날씨가 점점 선선해지는 것 같더니 다시 더워진다. 휴가철이 되면 늘상 “OO, 어디까지 가봤니?”라는 한 항공사의 TV 광고가 떠오른다. 개인적으로 그 광고를 볼 때마다 “어디까지 가야 그 나라를 다 본 것일까”하는 궁금증이 생겼었다. 우리들에게 여행의 목적은 무엇일까? 보통 여행이라고 하면 누구나 알 법한 곳에서 멋지게 기념사진을 찍고, 그 지역에서 가장 유명하다고 하는 음식을 먹는 것을 생각한다. 혹은 다른 사람들이 많이 가보지 못한 곳에서 새로운 경험을 하고자 하는 이들도 있을 것이다.
사람들은 왜 이런 이유로 여행을 떠나는 것일까? 대부분의 사람들은 흔히 '휴식’을 위해 여행을 떠난다고 말한다. 그러나 필자의 개인적인 사견으로는 사실 그 속에 ‘여행가는 것 자체를 자랑하고 싶은 마음’이 숨어있을 것이라 생각한다. 많은 사람들이 여행을 가면 사진, 동영상을 찍고 자신의 SNS에 올려 친구들에게 자랑한다. 친구들 대부분은 부럽다는 내용의 댓글을 달고 ‘좋아요’를 누른다. 여행자는 늘어나는 좋아요 숫자와 수많은 댓글 하나하나에 다시 답글들 달면서 스스로 만족스러운 여행을 다녀왔다는 기분에 취하게 된다. 결국 사람들은 휴식을 취하러 간 여행지에서조차 ,SNS로부터 멀어지기 싫어하는 것 같다. 이것이 과연 ‘휴식’을 위한 여행일까, 소위 말하는 ‘자랑질’을 위한 여행일까.
물론 필자가 여행 전문가는 아니며, 뜬금없이 이번 기고를 통해 여행의 의미를 논하고 싶은 것도 아니다. 다만 사람들이 어떤 행동을 하는 표면적인 이유(여행의 경우 ‘휴식’)와 궁극적인 이유(여행의 경우 ‘자랑질’) 사이에 차이가 있을 수 있다는 것을 염두에 두고 이야기를 풀어가고자 한다. 앞서 언급했듯이 여행의 의미(?)는 우리 주변에서 흔히 확인할 수 있는 일상적인 현상이다. 그러나 데이터를 통한 기업의 경영 및 관리는 대중에게 예외적인 상황이 될 수 있다. 과연 데이터 분석의 범위에서도 표면적 이유와 궁극적 이유가 다를 수 있을까? 우리는 현재 데이터 분석의 어디쯤에 있는 지, 혹은 어디까지 가봤는지 생각해 볼 필요가 있지 않겠나.
데이터 분석의 발전 과정, 궁극적 목적은 무엇인가
필자가 지난번 기고했던 데이터 분석의 목적에 대한 대분류(참고: 빅데이터는 노스트라다무스가 아니다)를 잠시 살펴보자. 해당 연재에서 필자는 데이터 분석의 목적을 크게 지도적 학습과 비지도적학습으로 나눴다. 지도적 학습은 예측(Prediction)과 분류(Classification)이며, 비지도적학습은 데이터를 구성하는 변수 사이의 관계(패턴)를 확인하는 것이다. 사실 이러한 구분은 지극히 상위의 개념이다. 때문에 현실에 적용하기 위해서는 데이터 분석의 목적이 조금 더 구체화될 필요가 있다. 구체화된 데이터 분석의 목적은 ‘사실(Fact)’, ‘데이터’, ‘정보’, ‘지식’의 발전 과정을 중심으로 살펴볼 수 있다.
실제로 발생한 사건이나 측정한 기록을 ‘사실’이라고 한다. 사실 여부에 따라 참과 거짓을 구분할 수 있기 때문에 사실을 ‘객관적 사실’이라 부르기도 한다. 객관적 사실은 우리 주변에 항상 존재하며, 지속적으로 생성되고 있다. 그러나 그 자체를 데이터라고 부르지는 않는다.
객관적 사실이 ‘데이터(Data)’가 되기 위해서는 특정 기준에 맞추어 정리가 되어야 한다. 쉽게 예를 들자면 '표'로 정리할 수 있으면 데이터가 된다. 최근 빅데이터를 설명할 때 주로 사용하는 ‘다형성’ 때문에 적합하지 않은 예시일지 모르지만, 대부분의 사람들이 데이터라고 하면 가장 먼저 떠올리는 것이 바로 ‘표’의 형태이다. 초기 관계형 데이터베이스 역시 수많은 표(Table)로 구성되어 있었다.
그러나 사실과 데이터보다 중요한 것은 데이터가 정보(Information)로 전환되는 단계이다. 객관적 사실을 특정 기준에 맞추어 정리해둔 것을 데이터라고 한다면, 그 데이터에 의미를 부여한 것이 ‘정보’라고 정의할 수 있다. 결국 데이터를 분석하는 목적은 데이터로부터 정보를 만들어내고, 그 정보가 ‘지식(Knowledge)’으로 전환될 수 있도록 하는 것이라 할 수 있다.
다시 처음 질문으로 돌아가 보자. 우리는 왜 데이터를 분석하려는 것일까? 왜 우리는 세상에 널려 있는 객관적 사실들을 모으고 모아 이리 저리 살펴보고, 예측하고, 분류하고, 패턴을 찾으려고 노력하는 것일까? 그 목적은 당연히 자신이 마주하고 있는 문제를 해결하는 데 필요한 정보를 획득하기 위함이다.
농부는 농작물의 작황을 예측하기 위해 기상 조건과 관련된 데이터를 분석한다. 쇼핑몰 운영자는 소비자의 요구 사항을 파악하기 위해 과거 주문과 반품, 관심 상품 등록현황, 상품 조회수 등과 같은 데이터를 분석한다. 여기까지는 모두 다 쉽게 동의할 것이다. 그렇다면, 농부는 왜 작황을 예측하고 싶은 것일까? 쇼핑몰 운영자는 왜 소비자의 요구사항을 확인하고 싶은 것일까? 모두 다 알고 있듯이 수확량을 늘리거나, 매출을 올려서 돈을 더 많이 벌고 싶기 때문이다. 그러기 위해서 수요보다 공급이 더 낮을 수 있는 농작물을 선택하고, 소비자가 더 좋아할만한 상품을 개발하는 것이 데이터 분석의 궁극적인 목적이다.
그렇다면 데이터 분석의 결과는 어떤 모습이어야 할까?
‘비 올 확률 51%’와 ‘비가 내릴 것’ 의 차이
위 그림은 2016년 6월 20일 저녁을 기준으로 인터넷 포털 사이트에서 일기 예보 화면을 캡쳐한 것이다. 누구나 쉽게 이해할 수 있도록 각종 기호와 이미지, 숫자 등을 잘 배치해서 오늘 서울에서 비가 오고 있지 않고, 오늘 밤까지도 비가 오지 않을 것을 알려주고 있다.
여기에서 주목할 만한 부분은 주간 예보에서 오늘, 내일과 수요일부터 주말까지의 정보이다. 오늘과 내일은 강수확률이 20~30% 수준이다. 따라서 일기예보를 보는 사람은 비가 오지 않을 것이라 스스로 판단할 수 있다. 날씨를 나타내는 이미지 또한 구름이 끼거나 흐린 형태이다. 그런데 수요일 오전을 보자. ‘흐리고 가끔 비’라고 친절하게 설명하고 있다. 비가 올 확률이 높은 것이 아니라 비가 온다고 설명하고 있다. 토요일 오전도 그렇다. 물론 화요일이 되면 다시 이 정보는 업데이트가 될 것이고, 수요일 오전의 강수확률 역시 공개될 것이다.
아주 단적인 예일지는 모르겠지만, 하나의 화면에서 제공되는 이 데이터 분석 결과를 통해 데이터 분석의 목적을 알아보겠다. 조금 더 자세하게 설명하자면 ‘데이터 분석의 결과를 활용하고자 하는 목적’을 두 가지로 나눠 설명할 수 있다.
첫째는 아주 자세하고 많은 양의 정보를 제공해서 사용자가 직접 판단하게 만드는 것(강수확률을 제공하는 것)이다. 마치 현재 주식 차트에 20일 이평선, 30일 이평선, 주봉 월봉 등을 표시해 주고, 주가가 오를 것인지 내릴 것인지 여부는 투자자가 직접 판단하게 하는 것과 유사하다. 최근 우리 주변에서 볼 수 있는 대부분의 데이터 분석은 이 유형에 속한다. 데이터 분석의 결과를 해석하는 입장이나, 처한 상황, 개인적인 성향에 따라서 다른 결론을 내릴 수 있다. 데이터를 분석하는 사람의 입장에서는 결론에 대한 책임을 질 필요가 없다는 이점도 있다.
둘째는 ‘비가 온다’, 혹은 ‘오지 않는다’처럼 사용자가 알고 싶어하는 답을 제공하는 것이다. 데이터 분석을 직접 해 본 사람이라면 이 부분에 대해서는 이런 경우가 있는지 의구심을 가질 수도 있다. 아주 단순한 예로 데이터 분석을 통한 암세포 진단을 들 수 있다. 환자로부터 측정된 모든 데이터를 바탕으로 병명과 수준을 진단하고 그 결과를 알려주는 것이다.
물론 일반적으로 의사는 “OO병일 확률이 높습니다”라고 이야기하고 있고, 딥러닝을 통한 진단결과 역시 확률로 이야기할 것이다. 그러나 결과를 전달받는 환자 입장에서는 그 결과를 확정적으로 받아들일 수밖에 없다. 이 경우는 사용자가 데이터 분석 결과를 이해하는 데 필요한 전문 지식이 부족하거나 사용자가 전문가에게 전적으로 의지할 수밖에 없을 때 발생하는 것이 대부분이다. 물론 데이터 분석의 결과가 항상 맞는 것은 아니기 때문에 틀릴 경우에 대한 책임을 피해갈 수는 없다.
데이터분석의 목적은 사용자가 의사 결정하는 데 도움이 될 수 있을 법한 정보를 생성하는 것이라는 점을 고려한다면 대부분이 첫 번째 경우에 해당한다고 생각할 수 있다. 그렇지만 두 번째 유형은 첫 번째에 비해 제공되는 정보의 중요도 혹은 의사결정에 미치는 영향력이 상당히 높은 경우라는 것을 생각해 봐야 한다. 지금 우리가 하고 있는 데이터 분석의 목적이 첫 번째 혹은 두 번째 유형에 속하냐를 판단하는 것이 중요하다고 말하려는 것은 아니다. 더 중요한 것은 데이터 분석의 결과를 받아들이는 사용자가 어떤 입장에 있는 지, 분석의 결과가 어떻게 활용되는 지에 대해 심각하게 고민해야 한다는 점이다.
화물차 데이터 분석, 데이터는 맥락(Context)의 형태로
최근 물류기업뿐만 아니라 차량을 통해 사업을 수행하는 대부분의 기업들은 차량에 GPS 장치를 부착하고 이동 경로와 속도, 운행 패턴 등의 데이터를 수집하고 있다. 그렇다면 영업용 차량으로부터 측정되는 데이터의 분석 결과는 기업의 경영활동에 어떻게 활용할 수 있을까?
첫째, 영업팀의 성과를 극대화하기 위한 기초 자료로 활용할 수 있다. 여러 차량의 운행 경로를 비교 분석해서 수익성 측면에서 우수한 성과를 보인 직원과 그렇지 못한 직원을 평가할 수 있다. 평가 결과는 성과에 따른 보수 책정의 근거로 활용될 것이고, 시장 환경 분석을 통해 더 많은 기회를 확보하기 위한 근거 자료로도 활용될 수 있다.
둘째, 공통 자원을 공유하는 이해 관계자들 사이의 비용 산정과 계약 체결의 근거로 활용할 수 있다. 여기서 말하는 이해관계자들은 서비스를 제공하는 사람과 고객을 의미한다. 하나의 차량이 다수의 고객 서비스에 활용되는 경우, 정확하게 서비스를 제공받은 비율 등에 대한 데이터를 확보할 수 있다. 서비스를 제공하는 입장에서는 미래 시장 상황에 대한 예측 능력을 향상시켜 본인들이 보유한 자원을 더욱 효과적으로 활용할 수 있는 방법을 마련할 수 있다.
셋째, 서비스 수준 협약(SLA: Service Level Agreement)의 준수 여부를 실시간으로 모니터링하는 데 활용할 수 있다. 영업용 차량에서 측정되는 GPS 데이터를 바탕으로 서비스 제공자와 고객이 체결한 SLA(Service Level Agreement)의 세부 계약 항목이 지켜지고 있는 지 확인할 수 있는 것이다. 예를 들어 화물 배송 차량의 위치가 고객이 지정한 목적지에 도착했는지 여부와 도착 시간을 시스템을 통해 확인할 수 있다. 때문에 해당 정보를 통해 측정되는 다양한 계약항목의 준수 여부를 확인할 수 있는 것이다. 위치 정보의 활용 가치는 여기에서 그치지 않는다. 한발 더 나아가 더욱 치열해져가는 시장경쟁 환경에서 고객과의 접점에 위치한 영업차량 혹은 영업사원들에 대한 투명한 평가를 통해 내부 의사결정 절차나 자원 활용의 효율성을 극대화할 수 있는 방안을 확보할 수 있다.
앞선 사례에서 소개한 영업 차량의 GPS 데이터 활용 방법 세 가지는 모두 비슷한 형태를 띠고 있다. 처음에는 GPS를 통해 측정된 로그 데이터를 ERP(Enterprise Resource Planning) 거래 데이터와 연동해서 내부 평가 혹은 통제의 목적으로 활용한다. 그러나 여기에 그치지 않고 문제점을 찾고 개선 방안을 수립하는 근거 자료로 더욱 발전시켜 나가고 있다.
다시 한 번 데이터 분석의 목적, 결과의 활용방안이라는 관점에서 생각해보자. 차량에 장착된 GPS로그라는 동일한 데이터를 분석해서 다각도로 활용할 수 있도록 하되, 단순 수치를 제공하는 것을 넘어 비즈니스의 관리라는 측면에서 ‘맥락(Context)’을 제공하는 것이 핵심이다. 즉, 데이터를 분석하고 그 결과를 제공하는 방법에 있어 순서가 있고, 그 의미가 연결되어야 한다는 것이다.
맥락의 수단, 스토리텔링
영업용 화물차 사례의 GPS는 RFID와 함께 IoT(Internet of Things, 사물인터넷) 혹은 IoE(Internet of Everything, 만물인터넷) 시대에서 가장 흔히 사용되는 데이터일 것이다. 그렇다면 이렇게 기계 혹은 장비 사이의 통신을 통해 생성되는 데이터로부터 우리는 어떻게 효율적인 방법으로 맥락을 생성하고 전달할 수 있을까?
모범 답안이 될지는 모르겠지만 ‘데이터 스토리텔링(Data Storytelling)’ 기법을 활용하는 것이 하나의 대안이 될 수 있다. 데이터 스토리텔링에 대해 알아보기 전에 '데이터 시각화(Data Visualization)'에 대해 알아보자. 데이터의 분석 결과(예측, 분류, 패턴 등)와 함께 시사점(insight)을 사용자에게 전달할 수 있는 방법으로 단순하게 숫자 혹은 T/F의 형태로 제공하거나, 만약 그 양이 너무 많거나 복잡하다면 도표의 형태로 제공하는 방법이 있다. 이것을 데이터 시각화라 부른다. 결과를 어떻게 보여주느냐에 따라 사용자가 분석 결과를 쉽고 빠르게 이해할 수도 있고, 그 반대의 경우가 발생할 수도 있다.
데이터 스토리텔링은 시각화를 넘어 실제 사용자가 이해할 수 있는 언어로 제공하는 단계를 의미한다. 데이터 스토리텔링에는 주로 ‘NLG(Natural Language Generation)’ 기법이 활용된다. 이미 다수의 사용자로부터 확보된 자연어를 데이터 분석의 방법에 맞게 처리하는 것을 자연어 처리 기법(Natural Language Processing; NLP)이라 불리는 반면, NLG는 확보된 데이터를 분석해서 얻은 결과를 사람들이 읽거나 쉽게 이해할 수 있는 언어로 표현하는 기법을 의미한다. 앞으로 더 많은 기술 발전이 있어야 할 것이고, 현재 개발된 기술이 상용화될 때까지의 시간은 필요할 것이다. 그렇지만 우리 모두가 알고 있는 것처럼 그 시간은 그리 오래 걸리지 않을 것이라 생각한다.
이번 기고를 통해 데이터 분석의 목적이 단순 정보 제공에서부터 의사결정의 핵심 역할을 하는 데까지 다양한 형태로 나타날 수 있고, 그 구분 기준은 분석 결과를 활용하는 사용자 입장에 따라 달라질 수 있음을 확인했다. 특히 데이터 분석의 활용 목적이 의사결정 지원에 더욱 가까워지거나, 분석 결과가 가지는 영향력이 커질수록 결과를 전달하는 방식 자체가 단순한 수치를 제공하는 방식을 넘어 사용자가 쉽고 빠르게 의미를 이해할 수 있는 방식이 되어야 한다.
데이터 분석을 기획하는 사람, 혹은 이러한 서비스를 설계하고 구현하는 사람들 모두 한번쯤은 고민해 봐야할 사항이 아닐까. 우리는 지금 어디쯤 있는 지, 우리는 어디까지 가야하는 지 말이다.
<참고문헌>