웹진 액트온정보공유

21세기판 골드러시 – 데이터 마이닝과 클러스터링

By 2010/06/11 10월 25th, 2016 No Comments
레니

사례 1. YouTube 등에서 동영상을 다 보고 나면 해당 동영상의 주제와 유사한 다른 동영상들이 추천됩니다. 페이지 한 구석에는 어김없이 그보다 더 많은 동영상들이 추천되고 있습니다. 사례 2. 온라인 뉴스를 다 읽고 나면 관련 뉴스들이 아래에 나옵니다. 역시 페이지 한 구석에는 어떤 방식으로든 나와 연관된 뉴스들이 분류되어 있습니다. 사례 3. 온라인 쇼핑몰에서 물건을 구입하고 나면 결제를 마치기 전에 다른 상품들을 추천하는 코너가 있습니다. 내가 구매하기로 한 상품과 관련이 있거나, 내가 속한 연령대가 많이 구입하는 물건 같은 것들이죠.

위와 같은 사례들은 인터넷을 사용하다보면 빈번히 만나게 되는 상황입니다. 물론 이런저런 추천들에 크게 영향을 받지 않아서 그런 시스템이 존재하는지조차 모르고 지나가는 사람이 있는가 하면, 저같이 때때로 낚여서 원래 하고자 했던 일을 잊고 새로운 링크를 파고 들어가 헤매는 경우도 있겠지요. 이러한 추천 시스템은 명목상 "사용자 편의 증대"라는 타이틀을 내걸고 있겠지만, 어쨌든 진짜 의도는 우리 사이트에서 좀 더 놀다 가세요~라던지, 우리 물건 좀 더 구매하고 가세요~라던지 하는 것이겠지만요.

사실 온-오프를 막론하고 추천 시스템의 역사는 꽤 오래되어서, 옷가게에서 정장 한 벌 맞추면 반드시 스카프나 넥타이 추천이 따라붙고, 음식점에서 파스타 하나 주문하면 와인 추천이 따라붙는 것이 오히려 상식이라 하겠습니다. 이렇게 사람에 의해 행해지는 추천은 상대방를 대하면서 직접 파악하게 되는 직관력에 따라 이루어지기 때문에-물론 그 사람의 센스에 의해 차이가 있긴 하겠지만-꽤 정확한 추천이 가능하게 됩니다. 또한 실시간으로 커뮤니케이션함으로써 피드백을 바로 접수 하여 추천의 방향을 수정할 수도 있으니, 상당히 유리한 조건 하에서 추천이 가능하다고 할 수 있겠군요.

하지만 위의 사례에서 말하는 추천은 일일히 사람이 입력할 수 없기 때문에, 미리 조건을 정해놓고 특정 조건에 따라 자동 반응하게 된 추천 알고리즘을 사용할 수밖에 없습니다. (YouTube 동영상이 한두건도 아닌데, 모든 동영상 말미에 일일히 사람이 추천 동영상을 집어넣을수야 없지 않겠습니까…) 이런 추천 알고리즘은 인터넷 초기부터 끊임없이 연구되어온 주제이고, 최근엔 클러스터링 기술의 발전으로 인해 보다 정교한 추천이 가능해지고 있는 상황입니다.

추천을 하기 위해 가장 먼저 필요한 것은 데이터들 사이에 비슷한 구석이 조금이라도 있어야 하기 때문에 이들을 묶는 일이 되겠습니다. 이렇게 비슷한 데이터들을 한 데 묶는 기술을 클러스터링Clustering이라고 부릅니다. 물론 일반적으로 IT 기술 중 클러스터링이라고 하면 여러 서버들을 묶어 하나의 서버처럼 사용하는 기술-구글의 방대한 웹페이지 검색을 가능하게 하는 기술-을 말합니다만, 여기서 말하는 데이터 클러스터링은 데이터 마이닝Data Mining의 한 부분으로서 데이터를 분석하여 분류하는 기술을 의미합니다.

클러스터링 알고리즘은 어떤 데이터를 분석하느냐에 따라 사용되는 종류도 다양하고 현재도 많은 연구가 이루어지고 있는 분야입니다. 그럼에도 모든 클러스터링 알고리즘은 데이터에서 어떠한 패턴을 찾고, 비슷한 패턴을 보이는 데이터들을 묶는데 관심이 있습니다. 예를 들면, S회사에서 사원들의 11월 출근시간 기록을 분석해 보았더니 지각 회수가 많은 사원들은 자가용 통근자가 대부분이었다…는 결과를 얻을 수 있겠습니다. 이는 지각 회수의 패턴을 구하고 출근 방법을 다른 변수로 대입시켜 얻은 결과라고 할 수 있겠습니다. 이 결과로부터 S회사 주변 도로가 정체가 심하다, 주차장이 좁아 주차시간이 많이 걸린다…등의 추가적인 결과를 도출할 수도 있겠죠. 여기서 중요한 것은 어떤 변수를 대입해야 하는가…입니다. 아까의 지각 회수 데이터에 연령별 비교나 직급별 비교 등을 해 봐야 별 의미 없을 수도 있습니다. 아무리 데이터를 효과적으로 분류하고 정리한다 하더라도 분석자의 직관력이 형편없으면 그리 쓸모있는 결과를 내기 어렵다는 것입니다.

그래서 어떻게 보면 데이터 마이닝은 금맥을 찾아 광산을 파 들어가던 골드 러시와 유사한 점이 많습니다. 오죽하면 이름 자체가 마이닝, 즉 채굴이겠습니까. 웹을 사용하는 사람들과 시간이 늘어나면 늘어날수록 쌓이는 데이터는 많아지고 있지만, 첩첩히 쌓인 데이터의 산에서 유의미한 정보를 얻어내고자 하는 것이 바로 데이터 마이닝이라 할 수 있겠죠. 바꿔 말하면, 우리가 인터넷에서 하는 행동 하나하나가 분석 대상이 될 수도 있다는 것입니다. 물론 마이닝의 세계에선 여러 개인들이 유사한 행동을 보이는 것이 중요하므로 한 개인의 행동은 크게 의미가 없으며, 아마 대부분의 정보들이 유의미성을 찾지 못해 버려지기 일쑤겠지만요. 정말이지, 이쯤되면 21세기판 골드러시라고 해도 과언이 아니지 않겠습니까.

2008-12-09