INSIGHT

[신광섭의 물류빅데이터] 누구를 위하여 데이터를 분석하는가

by 신광섭

2016년 05월 23일

 
인공지능의 핵심은 데이터, 계산속도, 그리고 알고리즘
 
글. 신광섭 인천대학교 동북아물류대학원 교수
 

Idea in Brief

 

알파고와 이세돌의 대국이 화제가 되고 있는 이 때, 대중의 관심이 ‘인공지능’에 몰리기 시작했다. 그렇다면 물류산업에서 인공지능의 활용수준은 어느 정도일까. 물류산업 역시 인공지능이 선박관리, 항로분석, 라우팅 등에 사용되고 있지만 그것을 대중화시키기 위해서 필요한 것은 우선 해결할 문제를 파악하고, 관련된 데이터를 확보하는 것이다. 그렇다면 원하는 데이터를 어떻게 확보할 수 있을까. 영국 정부의 데이터 개방규제를 통해 국내 데이터 정책의 문제점과 앞으로의 방향성에 대한 이야기를 전한다.

 

 
 
2016년 3월은 ‘알파고와 이세돌의 대국’이 있었던 역사적인 달로 기억될 것이 분명하다. 그만큼 많은 사람들의 관심을 끌었고, 이 관심은 곧바로 인공지능으로 이어졌다. 이제 사람의 지능보다 훨씬 앞선 기계의 등장에 일부 사람들은 인류의 미래를 걱정하는 이야기를 하기도 한다. 또 다른 이들은 새로운 기회가 찾아왔다고 말하기도 한다. 어찌됐든 분명한 것은 인공지능을 통해 새로운 기회가 탄생하고 있으며, 이에 인간은 인공지능을 갖춘 시스템과 기계를 활용해 더 많은 가치를 만들어 내는 데 집중할 필요가 있다는 것이다.
 
다시 알파고와 이세돌의 대국 이야기로 돌아가 보자. 알파고가 이세돌을 이길 수 있었던 근본적인 이유, 즉 알파고가 인간 이세돌보다 뛰어난 점은 무엇이었을까. 아마도 빠른 연산 속도와 엄청난 양의 데이터가 아니었을까. 그런데 사실 컴퓨터가 사람보다 빨리 계산하고 더 많은 양의 데이터를 저장할 수 있게 된 것은 이미 오래전 일이다. 알파고는 바둑이라는 게임을 진행하기 위해 필요한 기본적인 규칙과 경우에 수에 따라 앞으로 진행될 수 있는 모든 가능성을 계산하고, 승리의 확률이 가장 높은 수를 두는 단순한 알고리즘을 사용하지 않는다. 근본적으로 앞으로 일어날 수 있는 경우의 수를 계산하지만, 그 기반은 이미 확보된 기보(碁譜)를 기초로 하고 있으며, 그 중에서도 가장 승리 확률이 높은 수를 제한된 시간 내에 결정하기 위해 시뮬레이션과 탐색 공간을 줄여나가는 브렌치앤바운드(branch and bound) 기법을 사용한다. 결론적으로는 ‘빠른 연산 속도’와 ‘방대한 데이터’ 그리고 ‘문제 해결에 최적화된 알고리즘’까지 갖춘 알파고였기에 이세돌을 이길 수 있었다고 생각한다.
 
물류에서 인공지능을 활용하려면? 데이터는?
 
그렇다면 물류산업에서 인공지능의 활용 수준은 어느 정도일까. 대부분의 산업이 그렇듯 물류산업에서도 이미 인공지능은 최적 배송 경로 탐색, 선박관리, 컨테이너 적재 계획, 항로 분석, 항만 수요 예측 및 혼잡도 예측 등과 같은 분야에서 다양하게 활용되고 있다. 알파고와 이세돌의 대국에서 살펴본 것처럼 인공지능을 물류 산업에 적극 활용하기 위해서 필요한 것은 우선 해결하고자 하는 문제를 명확하게 하고, 그 이후 데이터를 확보하는 것이다.
 
지난 호에 물류와 SCM 분야에서 활용 가능한 공공 데이터를 소개한 적이 있다. 물론 각 기관에서 제공하는 데이터는 우리가 가지고 있는 데이터의 전부는 아니다. 게다가 그것만으로 현실의 문제를 해결할 수는 없을 것이다. 대부분의 경우 이러한 공공 데이터와 자신이 확보한 데이터의 결합을 통해 문제를 해결한다.
 
여기서 다양한 문제가 발생한다. 개인적인 경험으로도 그렇지만, 많은 사람들이 데이터 분석을 위한 시간 중 대부분을 전처리 과정에 소비한다. 예를 들어, 택배 화물의 배송 경로를 최적화하는 알고리즘이나 응용프로그램을 개발할 때 기본적으로 필요한 데이터는 바로 배송지의 주소 정보이다. 그리고 이러한 화물 수취인의 주소는 대부분 상품을 주문하는 사람이 직접 입력하거나 시스템을 통해 생성된다.
 
그런데 이 주소 입력단계에서 오류가 발생하는 경우가 허다하다. 사용자가 직접 입력하는 과정에서 발생하는 오류 외에도 특히 국제배송의 경우 국가 간 주소 입력 방식의 차이와 표기법에 따라 서로 다른 시스템에서 사용하는 데이터 체계의 차이로 인해 수많은 오류가 발생한다. 결국 이러한 문제의 근본 원인은 서로 다른 시스템에 서로 다른 데이터 양식(data scheme)을 적용하기 때문일 것이다. 그렇다고 전 세계 모든 시스템에 동일한 데이터 양식을 적용하는 것은 말이 되지 않을 뿐만 아니라 더 많은 문제를 일으킬 수 있다. 기업 간 거래를 위한 시스템 상에는 양측이 합의한 양식에 따라 XML문서 형태로 데이터를 교환한다. 이 방식이 바로 EDI의 핵심이다.
 
근본적으로 다른 양식에 따라 데이터를 저장하고 있는 시스템 사이에 존재하는 차이를 해결할 수는 없다. 그렇다고 해서 대부분의 기업들이 공통으로 활용할 가능성이 높은 이른바 공공데이터도 동일한 기준을 적용하기는 어렵다. 각 데이터 별로 제공되는 형태와 방식을 중심으로 살펴보면 데이터의 저장 형식이 매우 다양하며 제공받는 방식 역시 천차만별이기 때문이다. 데이터 형태는 pdf, doc, hwp, xls와 같은 일반적인 문서형식부터 가장 기본적인 텍스트 파일(csv, txt, dat)로 제공하는 경우도 있고, 심지어는 압축파일의 형태로 제공하는 경우도 있다. 데이터를 확보하는 방법으로는 이미 등록되어 있는 파일을 저장하거나 관리자에게 요청하는 방법이 있으며, 시스템에서 필요한 데이터를 조회하고 원하는 형태로 저장하는 방식도 있다. 물론 API를 통해 접근하는 방법도 존재한다.
 
그렇다면 현재와 같은 상황에서 기업이 필요한 데이터를 분석하기 위해서 어떻게 해야 할까. 결국 내려 받은 데이터를 필요한 양식에 맞춰 편집하고 정제하는 작업이 필요하다. 이 과정을 자동화하지 않는 이상 “빅 데이터의 시대, 실시간 데이터 분석을 통한 비즈니스 기회 창출”과 같은 구호는 다른 나라 이야기가 될 수밖에 없다. 데이터 분석을 통해 무엇인가를 해보려고 했던 사람들이라면 누구나 한번쯤 이 단계에서 진입장벽을 느끼게 된다.
 
가장 쉽게 떠올릴 수 있는 해결 방법이 바로 ‘오픈 데이터 플랫폼’을 구축하는 것이다. 이미 많은 연구결과보고서와 문서 등을 통해 데이터 개방의 필요성과 그 방법이 논의되었기 때문에 개념 정의나 기술적인 측면을 설명할 필요는 없을 듯하다. 대신 데이터 기반의 비즈니스 생태계 구축과 활성화 방안이라는 관점에서 데이터 개방을 다시 한 번 생각해보고 해외 사례를 통해 앞으로의 방향을 고민해볼 필요는 있다.
 
데이터의 공공성, 오픈 데이터 플랫폼이 가지는 가치
 
먼저 데이터가 가지는 공공성에 대해 생각해볼 필요가 있다. 아마 그럴 리는 없겠지만 최근 이슈가 되고 있는 개인정보의 감시나 공개를 지지하는 것이라 오해하지 않았으면 한다. 기업 내부에 저장되는 데이터들은 대부분 고객과의 거래를 기반으로 생성된다. 그 과정 중에 당연히 고객의 정보가 포함되게 된다. 그렇다면 그 데이터의 소유권은 누구에게 있는 것일까? 애매하다.
 
그렇다면 기상 정보, 고속도로 통행 속도 등과 같이 공공 기관들이 보유하고 있는 데이터는 어떨까? 공공 기관이 측정했으니 공공기관의 것인가? 공공기관은 기본적으로 불특정 다수의 행동 결과를 측정하고 이를 데이터로 전환했으니 측정의 대상자들에게는 무료로 제공해야 한다고 생각할 수 있다.
 
예를 들어, 무역과 관련된 데이터를 분석하고 싶다고 할 때 가장 먼저 들여다보는 곳이 바로 관세청이다. 관세청의 HS Code를 바탕으로 수출입 실적을 분석하고 싶은데, 이 데이터를 얻기 위해서는 비용을 지불해야 한다. 무역 통계지표인데도 말이다. 물론 데이터를 집계하고 저장하고 제공하는 데 비용이 발생할 수도 있지만, 공개 범위와 제공 방식을 생각해보면 너무 많은 비용을 지불하고 있지 않나 싶을 정도이다.
 
여기에서 우리나라 공공 기관의 데이터 제공 정책을 비판하고 싶지는 않지만, 다음부터 소개할 영국의 데이터 공개 정책과 비교했을 때 진정한 데이터 기반의 비즈니스 활성화를 위해선 어떤 정책이 필요할지 생각할 필요는 있다.
 
EU는 데이터 개방 전략을 통해 27개 회원국에게 공공정보와 데이터를 의무적으로 공개하도록 독려하고 있다. 영국은 이러한 전략의 일환으로 팀 버너스리(Tim Bernerslee)를 주축으로 데이터 포털(http://www.data.gov.uk)을 구축하고 기업들이 공개된 공공데이터를 바탕으로 더 많은 경제적 가치를 창출할 수 있도록 정부의 서비스 플랫폼 활용을 독려하고 있다. 영국 정부의 링크드 데이터 플랫폼은 정보의 의미적 연결을 지원하는 LOD(Linking Open Data)의 확산과 데이터의 품질 및 재이용성을 기준으로 공개 수준을 다음과 같이 5스타 기준으로 평가한다. 미국의 경우도 역시 데이터 개방 성숙도 모델(open data maturity model)을 다섯 단계로 구분해서 제시하고 있다.
 
▲ 영국 정부의 링크드 데이터 플랫폼 평가 기준
 
특히 오픈 데이터 공개 범위 확대와 비즈니스 활용 수준 향상을 위해 최소 3스타 수준을 요구하고 있으며, 그에 더해 특정 소프트웨어에 종속되지 않은 형태로 정제 가능한 데이터의 가치를 편리하게 증대시킬 수 있는 형식을 요구한다. 최종적으로는 데이터가 문맥상으로 연결되어 있는 수준을 지향한다.
 
오픈 데이터의 공유는 OKF(Open Knowledge Foundation)에서 개발한 공공데이터 오픈 소스 플랫폼인 CKAN(Comprehensive Knowledge Archive Network)을 통해 이루어지고 있다. 데이터 분석, 시각화 및 메타데이터 등을 포함한 정보 카달로그도 제공하고 있다. 이 플랫폼은 영국뿐만 아니라 해외 국가의 공공 부문 데이터의 개방과 재사용을 지원하고 있다. 여기서 중요한 점은 영국 정부가 공공 데이터를 공개하기 위한 정책과 기준을 명확하게 규정하고 강하게 추진하고 있다는 점이다. 다음은 영국 정부의 데이터 개방규칙 14가지이다.

 

영국 정부의 데이터 개방규칙 

 

1) 공공 데이터는 재사용 가능 해야 하며 기계가 읽을 수 있는 형식이어야 한다.
2) 공공 데이터는 상업적 활용을 포함하여 자유로이 재활용할 수 있는 오픈 라이선스 하에 배포된다.
3) 공공 데이터 (data.go.uk)는 온라인 단일 채널을 통해 쉽게 찾을 수 있어야 한다.
4) 공공 데이터는 개방 기준 및 W3C 관련 규정에 맞게 출판된다.
5) 동일한 주제에 대한 타 부서들간의 공공 데이터는 표준 포맷과 함께 동일한 내용이어야 한다.
6) 정부 소유 사이트에서의 공공 데이터는 재활용 가능 형식으로 출판된다.
7) 공공 데이터는 시기 적절한 정제된 내용이어야 한다.
8) 배포 데이터는 링크드 데이터 형식을 포함한 개방 표준 포맷에 적합해야 한다.
9) 공공 데이터는 적법한 범위 내에 사용 가능하다.
10) 공공 데이터는 애플리케이션 또는 별도의 등록, 사용자 정보 없이도 접근이 가능하다.
11) 공공 기관들은 공공 데이터의 재사용용에 대해 적극적으로 권장해야 한다.
12) 공공 기관들은 데이터 소장과 관리에 충실히 이행한다.
13) 공공 기관들은 데이터 셋과 관련된 메타데이터를 출판해야 하며 이는 단일 채널에서 이뤄지며 데이터 포맷 출처와 의미에 대한 설명 또한 함께 공개해야 한다.
14) 공개 데이터 정책과 사례들은 데이터 배포 시점과 형식을 포함하여 데이터 사용을 원하는 대중과 비즈니스에서 도출되어야 한다.

 

데이터 공개 규정에서 가장 눈에 띄는 단어는 바로 ‘표준 포맷’, ‘단일 채널’, ‘메타데이터’, ‘재활용성’, ‘접근용이성’ 등이다. 이 단어들이 가지는 의미를 빅데이터 플랫폼과 비즈니스 생태계를 기준으로 해석해 보자. 다음 그림은 일반적인 형태의 빅데이터 기반 분석 플랫폼 구조를 사용 시나리오를 중심으로 아주 단순화한 것이다.
 
▲ 빅데이터 플랫폼 사용 시나리오
 
데이터 공개기준에서 우선 강조되는 사항은 표준 포맷이다. 이를 강조하는 이유는 앞서 언급한 서로 다른 시스템에서 저장된 데이터들이 결합될 때 발생할 수 있는 다양한 문제와 걸림돌을 제거하기 위한 최소한의 노력이 되기 때문이다. 만약 공공 데이터 형식이 표준화될 수 있다면, 이를 이용하는 분석 시스템의 성능이 더욱 향상될 수 있고, 비즈니스에 활용하는 기업이 가지는 데이터 전처리에 대한 부담도 축소될 것이다. 더 나아가 데이터 기반의 비즈니스 생태계에 공공 데이터 표준이 하나의 기준으로 활용될 가능성도 없지 않다. 빅데이터를 정의할 때 데이터 형태의 다양성(variety)을 활용하기는 하지만 공통의 플랫폼으로 들어오는 시점부터는 최대한 표준 양식에 맞출 수 있어야 한다.
 
두 번째는 단일채널이다. 이 부분은 크게 강조하지 않아도 될 듯하다. 데이터의 원천(source)이 하나이듯, 그 데이터에 접근할 수 있는 방법도 하나여야 한다. 또한 다양한 데이터를 하나의 채널을 통해 접근할 수 있어야 데이터 분석의 효율성이 증가할 것은 당연한 일이다.
 
세 번째는 메타데이터다. 데이터에 대한 개략적인 정보 역시 표준화된 형식을 갖추어 데이터와 함께 공개되어야 한다. 메타데이터만으로도 필요한 데이터인지 여부를 판단하고 접근할 수 있는 방법도 알 수 있어야만 한다.
 
네 번째 재활용성은 한번 추출된 데이터를 분석하여 다른 형태의 데이터로 가공하더라도 이를 큰 제약 없이 비즈니스에 활용할 수 있어야 한다는 의미이다. 또 다른 측면으로는 비즈니스에서 활용된 후에 생성되는 데이터가 다시 플랫폼으로 수집 및 저장될 수 있어야 한다. 이를 위해서는 생성되는 데이터 역시 표준 양식을 따르고, 단일 채널을 통해 메타데이터와 함께 제공되어야 한다.
 
마지막 항목은 접근 용이성이다. 사용자가 특별한 프로그램이나 별도의 사용자 정보 등록 없이도 사용 가능해야 한다는 의미이다. 이는 앞서 설명한 단일 채널과 표준 양식과는 조금 다른 의미로 해석해야 한다. 물론 단일 채널과 표준화된 양식으로 제공하는 것이 접근성을 높이는 것은 맞지만, 데이터의 성격과는 무관하게 개인 정보를 요구한다거나 특정 웹 사이트에 회원 가입을 요구하는 등의 불필요한 절차는 분명히 개선되어야 할 부분이다.
 
건전하고 유연한 데이터 기반 비즈니스 생태계 조성을 위해서
 
영국과 미국, 싱가포르 등과 마찬가지로 우리나라 정부와 지방자치 단체 역시 다각도로 공공 데이터의 개방을 위해 노력하고 있다. 특히 공공데이터포털(http://www.data.go.kr)을 구축하여 다양한 기관과 사이트를 통해 제공되는 공공데이터를 단일 채널로 제공하기 위해 노력하고 있다. 이는 이전 전자정부 메타데이터 표준 미정립, 다수 사업 간의 연계성 부족, 주요사업 성과관리 조정 누락, 이전 사업 평가반영 효용성 저하 등의 문제점들에 대한 문제점을 해결하고자 하는 정부3.0 전략을 바탕으로 추진된 것이다.
 
정부는 또한 고가치, 고수요 데이터를 우선적으로 개방하며, 민간 주도 개방 로드맵 수립, 빅데이터 개방 체계 마련 및 질적 표준 체계 구축 등에 대해서도 노력을 기울이고 있다. 실제로 공공데이터 포털에서 확인한 결과 현재 오픈 API를 통해 접근할 수 있는 데이터는 2086건으로 대부분 REST 방식을 채택하고 있다. 그 외의 파일 형식은 1만 4846 건으로 대부분 CSV 파일로 제공되지만 여전히 압축파일이나 문서 형태로 제공되는 것을 살펴볼 수 있다. 정부의 노력에도 불구하고 우리나라의 데이터 공개 성숙도는 아직까지도 낮은 수준이라 볼 수 있는 것이다.
 
정부는 이러한 한계점을 극복하기 위해 데이터 품질 인증제, 오픈 포맷 데이터 비중 확대 및 민간 활용을 위한 지원 협력을 계획하고 있다. 이러한 노력의 결실은 수준 높은 공공데이터의 개방과 데이터 기반 비즈니스 생태계 활성화로 나타날 것이다. 하지만 그 속도를 높이고 효과를 극대화하기 위해서는 앞서 살펴본 데이터 형식의 표준화, 단일 채널을 통한 접근, 메타데이터의 공개 등 접근성 향상을 전제로 하는 정부의 일관된 정책이 필요하다.
 
이와 함께 경기도의 ‘빅파이 프로젝트’, 서울시 ‘공공데이터 개방’, 기상청의 ‘기상기후 빅데이터 분석 플랫폼’ 등과 같이 공공데이터가 정부 정책이나 민간 비즈니스에 활용될 수 있는 다양한 사례에 대한 개발 역시 동시에 진행되어야 한다. 즉, 다양한 공공기관에서 자신들이 확보할 수 있는 공공 데이터의 유형을 정의하고, 이를 표준화된 양식과 단일 채널을 통해 제공하기 위한 플랫폼을 구축해야 한다.
 
예를 들어 항만이나 공항 같은 시설을 두고 생각해보자. 항만과 공항은 그 시설 자체가 물류 산업에서 하나의 플랫폼으로 해석될 수 있다. 가령 항만은 스스로 다양한 데이터를 생성하는 플랫폼이다. 가령 시설 자체나 배후부지에서 물류 비즈니스를 수행하면서 생성되는 수많은 데이터, 시설을 둘러싸고 있는 외부 환경에 대한 측정 데이터 등이 한 데 모인다. 이러한 데이터들에 대한 기초적인 분석 기능을 제공할 수 있는 통합 플랫폼을 구축할 필요성이 제기되는 것이다.
 
물론 현재 인천항에서 제공하고 있는 혼잡도 분석 결과와 같이 자체적으로 공공 응용 프로그램을 제공하거나 분석 결과를 제공할 수도 있다. 하지만 궁극적으로는 시설을 관리 운영하는 기관에서 제공하는 데이터를 민간 기업에서 활용하여 새로운, 혹은 품질 수준이 향상된 서비스나 제품을 고객들에게 제공하고 이를 통해 부가가치를 창출할 수 있도록 지원해야 한다. 그 결과는 결국 항만이나 공항 시설의 이용 가능성을 확대하여 물동량을 증대시킬 수 있는 원동력이 될 것이다.
 
데이터 중에서도 공공 데이터는 그 활용범위가 넓고 부가가치 창출의 가능성 역시 높다. 따라서 정부나 공공기관은 공공 데이터를 민간 기업이 좀 더 유연하고 자유롭게 활용하여 건전한 비즈니스 생태계를 구축하고, 데이터 활용과 재생산의 선순환 체계가 강화될 수 있도록 지원하는 데 역량을 집중할 필요가 있다.
 
데이터의 주인이 데이터를 생성한 주체라고 한다면, 공공데이터의 주인은 바로 ‘공공’, 즉 불특정 다수이다. 따라서 공공데이터는 공익의 목적으로 사용되어야 하며, 사회 전체의 부가가치가 증대되는 방향으로 활용되어야 한다.
 
* 해당 기사는 CLO 통권 70호(2016년 4월호)에 수록된 기사 일부를 발췌했습니다.


신광섭

현재 인천대 동북아물류대학원 부원장으로 재임 중으로 물류 및 SCM 분야에서 빅데이터 및 인공지능 활용 방안을 연구 중이다. ksshin@inu.ac.kr




다음 읽을거리
추천 기사

잠시만 기다려 주세요...