INSIGHT

[신광섭의 물류빅데이터]‘비정상’ 데이터가 기업 정상화 이끈다

by 신광섭

2017년 05월 01일

‘아웃라이어’를 통해 바라본 변화와 혁신의 단초

이상치 분석 방법은…‘모든 일엔 징후가 있다’

비정상

글. 신광섭 인천대학교 동북아물류대학원 교수

 

비정상인 것의 정상화

 

변화, 혹은 혁신이라는 것은 무엇일까? 필자는 ‘비정상인 것의 정상화’라고 생각한다. 과거에 비정상인 것으로 여겨지던 것이 마치 당연한 것으로 받아들여지는 과정이 곧 변화이자 혁신이다. 예컨대 오래전 클라크가 제시하여 한 동안 진리인 것처럼 여겨지던 1차, 2차, 3차 산업의 구분은 산업간 경계가 붕괴된 지금엔 무의미한 것이 되고 말았다.

 

우리는 매우 빠른 속도로 변화하고 있는 기술과 비즈니스 환경을 목격하고 있다. 그렇다면 그 변화의 방향은 누가 만들어내는 것일까? 통찰력 있는 선각자가 만들어놓은 것을 따라가는 것이 대부분이다. 하지만 우리가 ‘새로움’을 만들어낼 수는 없을까?

 

새로운 것은 이상한 것인가

 

새로운 것은 이상한 것인가? 누군가는 동의할 것이고 다른 누군가는 동의하지 않을 것이다. 필자는 동의하는 편이다. 무언가 새로운 것을 접했을 때, 우리는 “어, 이거 조금 이상한데?”라고 생각한다. 요컨대 새로운 것은 우리가 생각하는 ‘정상’, ‘일반’, ‘당연’의 범주를 벗어난 데 위치해 있다. 물론 새로움을 접했을 때 느끼는 이상함(Weird)은 나쁘거나(Bad) 틀린(Wrong) 것과는 거리가 멀다. 오히려 이 이상함은 ‘낯섦(Strange)’과 가깝다.

 

많은 기업이 시장에서 비교우위를 점하기 위한 방법으로 ‘차별화’를 시도한다는 점을 떠올려보자. 차별화는 말 그대로 ‘다름’을 강조하는 전략이다. 다름을 강조하기 위해서는 고객에게 새로운 것, 즉 낯선 느낌을 선사해야 한다. 어떻게 하면 기업이 이 새롭고 낯선 것을 발견해서 고객에게 제공할 수 있을까? 이번 호에서는 데이터 분석기법을 통해 이 새롭고 낯선 것을 찾아내고 발전시키는 방법에 대해 알아볼 것이다.

 

이상치의 정의와 이해

 

데이터 분석기법에서 쓰는 말 중에 ‘이상치(Outlier)’라는 게 있다. 쉽게 말해 이상치는 조금 이상한 데이터를 의미한다. 요컨대 이상치는 대개 데이터 분석에 불필요하고, 오류를 만들어내며, 그렇기 때문에 제거해야 할 대상으로 간주된다.

 

데이터 분석의 기본적인 가정은 ‘미래 역시 과거와 유사하게 반복된다’는 것이다. 따라서 어떤 데이터를 분석할 때는, 과거에 일어난 여러 가지 사건 중 통계적으로 유의미한 수준으로 반복되는 경향만을 고려의 대상으로 삼는다. 이런 이유 때문에 ‘표본 내 다른 데이터에 비해 특히 다른 통계적 데이터’(BusinessDictionary)로 정의되는 이상치는, 다른 사건과 마찬가지로 과거에 일어난 사건임에도 미래에는 발생하지 않을 것으로 간주된다.

 

가령 “그건 백만 번 중 한 번 일어날까 말까 한 일이야”, “그런 일이 일어날 확률은 로또에 당첨될 확률보다 낮아”, “내가 여기서 10년도 넘게 일했지만 아직 그런 일은 일어난 적 없어”에서 말하는 일이 바로 이상치로 분류된다. 하지만 뒤집어서 살펴보면 매주 누군가는 로또에 당첨된다. 또 10년 동안 일어지지 않은 일이 10년 하고도 하루가 지난 어느 날 일어날 수도 있다.

 

우리는 미래를 완벽하게 예측할 수 없다. 다만 과거의 기록을 살펴 다시 일어날 확률이 지극히 낮은 것을 제거해나가는 방식으로 미래에 일어날 일을 어렴풋이 예측할 뿐이다. 어쩌면 이상치는 미래 예측을 위해 희생되는 셈이다. 그러나 미리 밝혀두자면, 변화와 혁신의 단초는 바로 이 이상치에 있다.

 

이상치의 발생원인

 

그렇다면 이상치는 왜 발생하는 것일까? 주된 원인은 ‘기록오류’ 때문이다. 데이터는 어떠한 목적에 따라 과거의 사건을 기록하고 정리해 둔 것이므로, 과거의 사건이 잘못 기록되는 경우 이것이 곧바로 이상치가 된다. 예를 들어 연봉의 단위를 천 원으로 잡았는데, 누군가 백만 원, 혹은 원 단위로 연봉을 기록한다면 이상한 데이터가 만들어지게 되는 것이다.

 

데이터 분석 절차 중 이 경우는 3단계인 ‘데이터 전처리(Data preprocessing)’에 해당한다. 이 경우, 결측치(항목에 대한 값이 누락됨) 혹은 이상치를 찾아 해당 값을 수정하거나 삭제하는 방법으로 문제를 해결할 수 있다.(참고. [신광섭의 물류빅데이터] 왜곡은 필연처럼, 데이터의 함정에 빠지지 않으려면)

 

물론 이렇게 통계적인 도구를 이용해 이상치를 찾아내는 것도 중요하다. 하지만 더 중요한 것은 이상치가 실제로 이상한 값인지, 혹은 정상적으로 만들어진 값인지 판단하는 일이다. 이상치로 의심이 되는 사례가 만약 기록오류 때문이라면 문제는 간단하다. 해당 데이터를 수정하면 그만이다. 하지만 모든 데이터가 올바른 방법으로 기록되었음에도 ‘튀는’ 데이터가 있을 수 있다. 문제는 여기서 발생한다. 이런 데이터를 무작정 이상치로 간주하고 무시해버리는 것이 이후에 더 큰 문제를 초래하기 때문이다.

 

박스플롯(Box Plot)을 통한 이상치 확인 방법

 

하나의 변수를 기준으로 다른 값과 큰 차이를 보이는 값을 확인하는 방법으로 박스플롯(Box Plot)이 많이 사용된다. 박스플롯은 직사각형과 몇 개의 선, 그리고 점으로 구성된다. 측정된 값의 크기를 기준으로 하위 25%에 해당하는 수치가 Q1(1사분위 수)이 되고, 가운데 두꺼운 선은 중위값 Q2(median, 50%)가 되며, 75%에 해당하는 수치는 Q3(3사분위 수)가 된다. 이때 Q1과 Q3의 차이를 사분범위(IQR: Interquartile Range)라고 한다.

박스플롯

[그래프1]박스플롯(Box Plot)을 사용하여 이상치를 확인할 수 있다.(https://lsc.deployopex.com/box-plot-with-sigmaxl/)

 

이때 이상치는 정상적인 데이터에 비해 작게 나타날 수도, 혹은 크게 나타날 수도 있다. 작은 쪽으로는 ‘Q1-1.5×IQR 이하’인 경우, 큰 쪽으로는 ‘Q3+1.5×IQR 이상’인 경우를 이상치로 의심해볼 수 있다. 이상치를 판단할 때는 위와 같이 IQR에 1.5를 곱하는 것이 가장 일반적이지만 데이터의 분포에 따라 2나 3을 곱하는 경우도 있다는 사실을 기억해 두자.

 

그러나 박스플롯은 하나의 변수(열)를 기준으로 데이터를 분석하는 기법이다. 만약 데이터가 수십 개의 변수로 구성돼 있다면 하나의 기준만으로는 이상치의 여부를 판단하기 어렵다.

 

변수가 두 개 이상일 때의 이상치 분석

 

그래프2와 그래프3을 살펴보자. 이 데이터는 보스턴하우징(BostonHousing)이라는 공개 데이터이며, 특정 지역의 평균 주택 가격과 그 가격에 영향을 미칠 만한 11가지 변수를 기록해 놓은 것이다.

접근성과 주택가격▲ [그래프2]학생-교사비율 및 고독도로 접근성과 주택 가격의 상관관계

 

그래프2는 학생-교사비율(pupil-teacher ratio by town)과 고속도로 접근성(accessibility to radial highway) 두 가지를 변수로 하여 산출된 데이터의 분포를 보여준다. 우리는 위 그래프에서 몇몇 데이터가 다른 데이터들과 상당히 떨어져 있는 것을 확인할 수 있다. 직관적으로 보더라도 저 우측에 위치한 데이터는 이상치로 의심해 볼 만하다.

 

이번엔 그래프3을 살펴보자. 같은 데이터를 평균 방 개수(Average number of rooms per dwelling)와 저소득층 비율(% lower status of the population)이라는 변수를 기준으로 산출한 결과이다. 이 그래프에서는 쉽게 이상치를 판단하기가 어렵다. 요컨대 변수의 수와 데이터의 수가 증가할수록 이렇게 이차원 평면 위에 그려진 이미지를 통해서는 이상치 여부를 판단하는 게 거의 불가능해진다.

평균방 개수와 가격▲ [그래프3] 평균 방 개수 및 저소득층 비율과 택 가격의 상관관계

 

그럼에도 이러한 한계를 극복하기 위해 거리와 밀도, 편차, 심도를 기반으로 하여 이상치를 발견하는 여러 알고리즘이 개발·사용되고 있다. 위의 두 그래프(그래프2, 그래프3)에 표시된 녹색, 파란색, 보라색 선을 유심히 살펴보자. 이 선들은 각각 다른 알고리즘을 이용하여 도출된 정상과 이상치의 경계를 표시해주고 있다.

 

첫 번째 그래프에서 우리는 오른쪽 끝에 치우친 데이터를 이상치라고 생각했다. 하지만 파란색 선으로 표시된 알고리즘을 이 데이터를 정상으로 판단했다. 그 이유는 알고리즘이 다른 변수를 함께 고려한 결과, 그것을 이상치로 판단할 근거가 없었기 때문이다.

 

모든 이상한 일에는 징후가 있다

 

위험관리 분야에서 유명한 이론 가운데 하인리히 법칙(Heinrich’s Law)이 있다. 이 법칙은 하인리히가 1931년 자신의 저서를 통해 발표한 것으로서, 하인리히는 ‘대형사건이 일어나기 전에 29개의 경미한 사건이, 그 전엔 300개의 징후가 발생한다’는 것을 데이터를 통해 검증했다. 이와 비슷한 말로 우리는 ‘빙산의 일각’이라는 표현을 자주 쓴다. 수면 위로 드러난 빙산은 극히 일부분에 불과하며 나머지 대부분은 수면 아래 잠겨 있어 볼 수 없다는 것이다.

하인리히 법칙

▲ 하인리히 법칙. 대형사고가 발생하기 전에 그와 관련된 수많은 경미한 사고와 징후가 반드시 존재한다는 뜻이다.

 

데이터를 분석하는 과정에서 이상치를 발견했다고 가정해보자. 별 고민 없이 그것을 이상치로 간주하고 다시는 일어나지 않을 사건으로 여겨버려서는 안 된다. 하인리히 법칙에 입각하면, 그 이상치는 대형사고의 전조이거나 거대한 빙산의 일부분일 수도 있다. 따라서 우리는 이상치가 만들어진 과정과 인과관계를 면밀하게 파악해야만 한다.

 

특히 기업에서 발생하는 이상치는 장래 기업의 운영에 부정적인 영향을 미칠 가능성이 크다. 예를 들어 물류센터로 입고되는 물량이 갑작스레 증가하는 경우, 배송처리 시한을 넘어서도 배송이 완료되지 않는 경우, 특정 지역 내 배송서비스에 대한 소비자 불만 건수가 지나치게 많은 경우 등이 이에 해당한다. 기업은 이런 이상치가 반복해서 발생하여 더 큰 피해를 만드는 것을 사전에 방지해야 한다. 이상치에 대한 정확한 검토와 대응 방안 수립이 필요한 이유다.

 

변화와 혁신의 단초, 이상치

 

이상치를 내팽개친 채 정상적인 것에만 집착하여, 미래에도 이런 정상적인 일만 일어날 것이라 가정한다면, 기업 운영에 안정성은 확보할 수 있을지 모르나, ‘지속가능한 성장’을 기대하기는 어렵다. 그런 기업은 급변하는 환경을 선도하기는커녕 그 변화의 속도를 쫓기에도 벅찰 것이다.

 

이상치는 어쩌다 한 번, 우연에 의해 발생할 수도 있다. 하지만 아무런 조치 없이 이상치 그대로 내버려 두면 그것은 결국 필연이 되고 만다. 우리는 이상한 것, 낯선 것, 새로운 것에 주목할 필요가 있다. 어쩌면 우연히 일어난 일로부터 새로운 기회를 발견할 수도 있고, 기업의 운영과 관련된 심각한 문제나 위험 요인을 발견해낼 수도 있을 것이다. 앞서 잠깐 언급했듯이, 변화와 혁신의 단초는 이 ‘이상치’에 있다.



신광섭

현재 인천대 동북아물류대학원 부원장으로 재임 중으로 물류 및 SCM 분야에서 빅데이터 및 인공지능 활용 방안을 연구 중이다. ksshin@inu.ac.kr




다음 읽을거리
추천 기사

잠시만 기다려 주세요...