INSIGHT

[신광섭의 데이터바로보기]데이터과학자, 네 정체가 뭐니

by 신광섭

2017년 03월 14일

데이터 과학자는 어떤 사람일까, 어떤 사람이어야 할까

데이터과학자

글. 신광섭 인천대학교 동북아물류대학원 교수

 

“빅데이터의 시대가 가고 데이터 사이언스의 시대가 온다.”

 

어느 날 필자의 눈에 뜨인 기사 하나. 가트너의 발표를 인용한 이 기사에 따르면 “다가오는 2020년엔 데이터 사이언스(과학)의 업무 40%가 자동화된 시스템을 통해 처리될 것”이라고 한다.

 

그런데 빅데이터와 데이터 과학은 어떻게 다른 것일까. 요컨대 빅데이터는 ‘크기’와 ‘복잡도’와 같은 특성에 집중한다. 반면 데이터 과학은 데이터를 ‘분석’하여 ‘시사점’을 찾고, 그 결과를 바탕으로 무언가 개선하는 ‘행동’에 집중한다.

 

그렇다면 가트너의 이야기대로 빅데이터의 시대는 정말 끝나고 만 것일까? 물론 이런 설명은 일부의 주장이다. 실제 데이터 과학이라는 용어는 빅데이터가 등장하던 시기부터 이미 동시에 사용되고 있었다. 빅데이터와 데이터 과학이 개념적으로 큰 차이가 있는 것인지도 분명치 않다.

 

사실 두 가지 용어의 개념 차이를 정의하는 것보다 중요한 것은 따로 있다. 실제 빅데이터가 저물고 데이터 과학이 뜬다면, 앞으로 다가올 데이터 과학의 시대엔 어떤 사람이, 어떤 일을, 어떻게 해야 하는지 고민하는 것이 더욱 중요한 것이다. 필자의 생각으로는 데이터의 크기와는 상관없이 데이터를 분석하고 그 결과를 업무에 적용하는 방법과 능력을 고민하는 것이 더 중요한 일이다.

 

과연 데이터 과학자는 어떤 사람일까. 또 어떤 사람이어야 할까. 본격적으로 살펴보도록 하자.

 

데이터과학자의 필요역량

 

데이터 과학을 업으로 삼는 데이터 과학자들. 그들이 갖춰야 할 능력과 역할은 무엇일까? 다음은 가트너가 정의한 데이터 과학자의 역할(참조: 가트너 홈페이지)이다.

 

여기서 우리는 데이터 과학자의 중요한 역할을 다음과 같이 정리해볼 수 있다. 데이터 과학자는 정보로부터 시사점을 찾아내야 한다. 이를 위해 분석 및 의사결정 모델링 기술, 데이터 관리 기술을 갖춰야 한다. 또한 협업에 능해야 한다.

 

보다 구체적으로 살펴보자. 다음은 포브스가 발표한 ‘데이터 과학자가 가져야할 역량’을 재분류한 것이다.(Mastersindatascience.org)

데이터과학자 필요역량

빅데이터는 사람의 손으로 처리할 수 없는 규모와 복잡도를 갖는다. 따라서 이 방대한 정보를 다루는 데이터 과학자에게 ‘소프트웨어 개발 및 운영 능력’은 필수적으로 필요하다고 할 수 있다. ‘해당 사업에 대한 지식’ 역시 마찬가지다. 때문에 이에 대한 자세한 설명은 생략하도록 한다. 여기서는 그 외 세 가지 역량에 대해 살펴보도록 하자.

 

우선 ‘분석적 문제 해결 능력’은 일반적으로 데이터와 같은 정량적 수치 혹은 객관적 사실에 기반하여 문제 해결방안을 설계하고 최적안을 도출하는 능력으로서, 이는 데이터 분석 전체 과정을 포괄하는 능력이라 할 수 있다. 즉 하나의 기술에서 월등한 성과를 보인다고 해서 분석적 문제 해결 능력이 뛰어나다고는 볼 수 없다. 다시 말해, 분석적 문제 해결 능력은 문제를 해결하는 흐름이 논리적이고 객관적이며, 해결 방안이 기존과는 달리 창의적일 것을 요한다. 문제 해결 과정에 필요한 모든 능력을 골고루 갖추고 있어야 가능한 일이다.

 

‘수학 및 통계적 지식’은 데이터 분석에 사용되는 다양한 기법이 모두 확률과 통계에 기반하고 있기 때문에 필요한 역량이다. 이 능력을 통해 데이터 과학자의 ‘지적 호기심’은 실제 문제 해결 과정으로 연결되고, 나아가 데이터 과학자의 경험과 지식이 현장에 적용될 수 있는 해결책으로 발전하게 된다.

 

마지막으로 ‘지적 호기심’. 우리는 이 부분에 가장 주목해야 한다. 지금부터는 데이터 과학자의 지적 호기심이 어떤 과정을 거쳐 ‘수학 및 통계적 지식’과 연결되고, 궁극적으로 문제 해결의 단서로 발전하게 되는지를 필자가 참여한 수요예측 관련 프로젝트와 연구 사례를 통해 살펴보도록 하겠다.

 

모두 다른 눈을 갖고 있다

 

다음 그림은 2011년부터 2013년까지의 우리나라 전력 수요를 시간단위로 나타낸 것이다.

전력수요

▲시간단위로 분석한 대한민국 전력수요(2011-2013)

 

이 데이터를 바탕으로 미래 전력 수요를 예측할 수 있는 모형을 개발해야 한다고 가정해 보자. 그림과 같은 데이터를 시계열데이터(본지 2016년 11월호 참고)라고 한다. 여기서는 시간을 의미하는 그림의 X축 정보 외에는 수요 데이터가 유일한 데이터 값이다. 우리는 데이터 기반의 이동평균법이나 지수평활법이 아니라 실제 전력 수요에 영향을 미치는 요인(독립변수)을 찾고 이를 기반으로 다양한 수요 예측 모형을 만들어내야 한다.

 

여기까지는 최종 모형을 만들기 위한 시작단계로서, 정보는 모두에게 동일한 조건으로 제공된다. 위 그림을 보며 사람들은 막연하게나마 “일정한 패턴이 있겠구나”라고 생각한다. 그렇다면 그 패턴을 결정하는 요인은 무엇일까? 바로 이 지점에서 지적 호기심이 발동한다. 또한 이 지적호기심 때문에 데이터를 바라보는 사람들의 시선은 가지각색이 된다. 지적호기심은 주관적 판단의 영역이기 때문이다.

 

생각의 꼬리를 잇다

 

필자가 이 프로젝트에 참여하며 가장 먼저 한 일은 다른 기간에 비해 극히 낮은 수치를 보이는 일자를 분석하는 것이었다. 날짜 정보를 확인해보니 해당 일자는 바로 설 연휴와 추석 연휴였다. 명절 연휴기간이 끼어 있는지가 전력수요를 예측하기 위한 독립변수로 작용할 수 있는 것이다.

 

명절을 제외하면, 전력수요는 1, 2월부터 점차 감소하다가 6, 7, 8월에 다시 증가하고 9, 10월에 다시 감소, 11, 12, 1월에 증가하는 추세를 보였다. 대부분의 사람들이 이런 패턴을 쉽게 발견할 수 있다. 그렇다면 우리가 추가로 확보할 수 있는 데이터나 요인은 무엇일까.

 

이미 확보된 날짜와 시간 데이터를 가지고 주수, 요일과 같은 달력 정보를 추출할 수 있을 것이다. 그 중 가장 먼저 해볼 수 있는 것이, 앞서 이야기한대로, 1월부터 12월까지를 하나의 변수로 설정하는 것이다. 그런데 월(Month) 정보를 변수로 포함하는 데 하나의 의문이 생긴다. 가령 1월 전체가 동일한 패턴을 보일까? 1월과 2월의 경계는 뚜렷한가와 같은 것이다. 이런 의문을 해소하기 위해 우리는 날짜별 데이터를 다음과 같이 주차별(1주~53주) 평균 데이터로 변형해 살펴보았다. 이와 함께 각 달의 요일별 평균 수요도 함께 분석했다.

전력수요2

▲주차별 평균 데이터로 변형한 전력수요 데이터
 

 

필자는 주차별 평균 전력수요 그래프를 통해 요일별 전력 소비량에 일정 패턴이 있음을 확인할 수 있었다. 근무일인 월요일부터 금요일까지는 일정 수준 이상의 전력 사용량이 유지되다가 토요일과 일요일에 급감하는 것이다. 1년을 기준으로 보면, 월별 증감 역시 확인할 수 있다. 물론 3년간의 데이터를 통합하는 과정에서 일정 데이터는 손실되었다. 하지만 독립변수로 선정할 수 있는 요인들, 즉 ‘요일’, ‘주수’, ‘월’, ‘명절 여부’ 등을 확인할 수는 있었다.

 

우리는 여기서 한 걸음 더 나갔다. 달력 정보 외에도 다른 기관에서 제공하는 데이터와 연계해서 추가적인 분석이 가능했기 때문이다. 애초 우리의 목표는 ‘전력 수요 예측을 위한 요인 선정’이었다. 목표를 달성하기 위해서는 “우리나라 사람들은 전력을 언제 많이 사용하나?”라는 근본적 질문을 던질 필요가 있었다.

 

월별, 주차별 전력 수요 데이터에서 확인한 바 같이 사람들은 겨울과 여름에 전력을 많이 사용했고, 봄과 가을에는 적게 사용했다. 따라서 춥고 더움을 표현할 수 있는 ‘외기온도’가 전력 사용량에 밀접한 관계를 가질 것이라 상정해볼 수 있다. 우리는 기상청의 데이터를 추가로 확보하여 우리가 가진 시간대별 전력 수요 데이터와 통합함으로써 다음과 같은 상관관계를 발견할 수 있었다.

외기온도와 전력수요 상관관계

▲외기 온도와 전력 사용량의 상관관계

 

외기온도(가로축)와 전력 사용량(세로축)의 관계를 살펴보면 높은 온도일 때와 낮은 온도일 때 전력 사용량이 높은 것은 일반적인 패턴이라고 할 수 있다. 그러나 확실하게 모든 사람들이 그럴지는 의문이 들었다. 동일한 온도에서 사용량의 편차가 상당히 크게 나타났기 때문이다. 이처럼 다소 주관적인 경향을 보이는 외기온도를 통계에 반영할지에 대한 여부를 결정하기는 어렵다. 이때 자주 사용되는 것이 바로 상관계수(Correlation coefficient: ρ)이다.

 

상관계수는 두 데이터 집합이 얼마나 유사하게 분포되었는가를 나타내는 정량적 지표로, 1에 가까울수록 강한 양(+)의 상관관계를 -1에 가까울수록 강한 음(-)의 상관관계를 뜻한다. 물론 0에 가깝다면 상관성이 낮다고 판단할 수 있다.

 

외기온도와 전력수요의 상관계수는 -0.2462. 즉 약한 음의 상관관계를 가진다고 할 수 있는데, 일반적으로 이렇게 독립변수와 종속변수의 상관성이 낮은 경우 해당 변수는 독립변수로 채택되기 어렵다. 그렇다면 모든 사람들이 반드시 고려할 필요가 있다고 생각하는 ‘외기온도’를 결국 독립변수로 채택할 수 없다는 것인데, 이 역시 우리로서는 받아들이기 쉽지 않은 결과였다.

 

그렇다면, 여기서 멈추지 말고 요일별 전력 수요에서 발견한 사실을 외기온도와 관계에 적용해 보자. 아무리 날씨가 춥거나 덥더라도, 혹은 동일한 온도라고 하더라도 많은 사람들이 근무하는 시간대냐, 혹은 다들 잠을 자는 늦은 밤 혹은 새벽 시간대이냐에 따라 전력 사용량은 크게 차이가 나게 된다. 반대로 말하면, 요일과 시간대가 동일하다면 외기온도에 따라 전력 사용량이 결정될 수 있다는 뜻이다. 우리는 이렇게 독립변수 사이의 복잡한 연관성을 동시에 고려하기 위해 ‘연도’, ‘월’, ‘날짜’, ‘주차’, ‘요일’, ‘외기온도’, ‘명절여부’ 등을 독립변수로 채택했다.

 

지금까지 시간대별 전력수요의 시계열데이터로부터 전력 수요를 예측하는 모형을 설계하기 위한 독립변수를 찾아가는 과정을 살펴보았다. 이 과정은 전력수요예측모형을 개발하는 프로젝트를 수행하는 과정에서 겪은 개인적인 경험을 소개한 것으로 반드시 이러한 과정을 거쳐야한다거나 이 외의 변수는 고려할 필요가 없다는 의미는 아니다.

 

대신 우리가 이미 확보한 시간 데이터로부터 출발해서 다양한 관점으로 데이터를 바라보면서 독립변수를 찾아낼 수도 있으며, 전력 수요를 만들어내는 사람들의 행동에 영향을 미치는 요인을 직관적으로 찾아내고 다시 통계적으로 검증하되 다양한 관점을 종합해서 최종 모형을 만들어가는 방법을 사용할 수도 있다.

 

데이터 분석은 근거로 말한다

 

지금까지의 내용을 다시 한 번 요약해보자. 우리는 데이터 과학자로서 필요한 역량을 확인했고, 지적호기심에서 출발하여 수학 및 통계적 지식을 거친 뒤 문제해결의 대안으로 이어지는 과정을 살펴보았다.

 

이 과정을 설명하는 데 있어, 개인적 경험을 순서에 따라 나열한 아주 간단한 사례를 든 탓에 모두에게 공감을 얻지 못할 수도 있겠다. 그렇지만 데이터 분석이라는 분야에 덧씌워진 편견을 지우는 데는 도움이 됐을 것이라 생각한다. 가령 ‘기계학습’과 ‘데이터 마이닝 도구’를 이용하면 누구나 유사한 결과를 얻을 수 있을 것이라는 편견 말이다.

 

이제는 물류의 관점에서 살펴볼 필요가 있다. 물류산업 현장에서도 데이터 과학자가 필요할까? 그렇다면 그 역할은? 다음 글에서 이 궁금증에 답을 내보기로 하자.



신광섭

현재 인천대 동북아물류대학원 부원장으로 재임 중으로 물류 및 SCM 분야에서 빅데이터 및 인공지능 활용 방안을 연구 중이다. ksshin@inu.ac.kr




다음 읽을거리
추천 기사

잠시만 기다려 주세요...