빅데이터 시대의 위협, 익명의 권리는?
개인정보 대량유출 사태 1년③ 빅데이터와 개인정보 보호
편집자 주 : 개인정보 대량유출 사태 이후 1년, 정부의 대책과 사회적 논의들을 검토하며 주민번호 시스템의 현 주소를 짚고 대안을 모색하는 기사를 3회 보도합니다. 빅데이터 시대 개인정보 보호 방안을 제시하는 세 번째 기사의 필자는 장여경 진보네트워크센터 정책활동가입니다.
백화점을 통해 전달된, 십대 딸의 임신 소식
빅데이터(디지털 환경에서 생성되는 방대한 데이터를 뜻함. IT시대에 빅데이터를 분석하고 활용하는 기술이 주목 받고 있음)의 위험을 경고할 때 자주 언급되는 일화가 있다.
한 백화점이 고객들의 구매 정보를 분석하는 빅데이터 기술을 도입했다. 어느 날 한 남성이 항의 전화를 했는데, 자신의 십대 딸 앞으로 백화점에서 출산준비용품 쿠폰을 발송했다는 것이었다. 당황한 백화점 담당자는 고객에게 사과했지만, 얼마 후 소녀의 임신은 사실로 드러났다.
이 일화에서 우리는 두 가지를 알 수 있다. 첫째, 빅데이터 기계는 누군가의 임신 소식을 가족보다도 먼저 알아낼 수 있다. 둘째, 이 빅데이터 기계는 자신이 알아낸 정보를 영리 목적으로 사용하기 위해 존재한다.
빅데이터의 개인정보 보호 문제를 연구해 온 유럽연합 개인정보보호 작업반(ARTICLE 29 DATA PROTECTION WORKING PARTY)은 이 백화점에서 사용된 빅데이터 기술이 고객의 기대에 어긋났고, 부적절했으며 무례했다고 비판했다.
그런데, 우리가 불쾌하다는 이유만으로 백화점의 빅데이터 사용을 금지할 수 있을까? 백화점이 영업 차원에서 고객들에게 쿠폰을 발송하는 것이 어제오늘 일은 아니지 않은가? 임신부 전용 할인 쿠폰을 받으면 기뻐할 사람들도 있지 않을까? 빅데이터 기술 그 자체는 중립적인 것이 아닐까? 여기서 문제의 핵심을 무엇으로 짚어야 할 것인가.
서울 심야버스 노선에 사용된 택시콜 빅데이터
반면, 빅데이터의 선량한 사례로 거론되는 일화들도 있다. 서울 심야버스 노선을 짤 때 택시콜 빅데이터를 분석해 적용한 경우가 대표적이다. 그런데 여기서 빅데이터의 ‘선량함’이란 무엇인가?
유럽연합이 백화점에서 임신 예측에 사용한 빅데이터를 문제로 본 까닭은, 이 기술이 분석한 정보가 ‘개인정보’이며, 개인정보를 수집하거나 사용할 때에는 당사자, 즉 정보 주체의 동의권을 보호해야 한다는 이유에서다.
어떤 임산부들, 특히 임신 초기의 여성들은 임신 소식을 본인만 알고 있거나 아주 밀접한 가족친지들에게만 알리고 싶어할 수도 있다. 그런데 백화점은 자신들이 보유한 구매 정보에 대해 자신들의 이해만 따져 분석하고 사용하였을 뿐, 그 정보의 당사자들이 어떤 의사를 가지고 있는지는 개의치 않았다.
택시콜 정보를 다른 목적으로 사용한 것 역시 문제가 없는 것은 아니다. 어느 날 밤에 누군가가 택시콜을 불렀을 때, 자신이 이 시간에 이 장소에서 택시콜을 불렀다는 정보가 서울시에 제공될 것을 예상하거나 동의하지는 않았을 것이기 때문이다.
이는 분명 개인정보 보호 원칙 중에서 중요하게 간주되어 온 ‘목적 구속의 원칙’을 벗어난 것이다. ‘목적 구속의 원칙’이란, 어떤 개인정보를 사용하거나 제3자에게 제공할 때에는 원칙적으로 정보 주체가 동의한 목적에서만 가능하다는 것이다.
그럼에도 불구하고 택시콜 정보가 사용될 수 있었던 비밀은 ‘식별 가능성의 제거’에 있었다. 서울시에 따르면, 택시콜 정보가 제공될 때 개인정보로 볼 수 있는 데이터는 제거되었다고 한다. 결론적으로 이 정보는 개인정보가 아니었다는 말이다.
결국 우리가 심야버스 노선을 짜는 데 사용된 빅데이터 기술을 백화점에서 사용된 임신예측 빅데이터 기술보다 용인할 수 있는 이유는, 교통 정책이 영리 활동보다 선량하기 때문만은 아니다. 우리의 ‘익명’이 보장되었기 때문이다.
빅데이터 시대 더욱 중요해진 ‘익명권’과 ‘동의권’
최근 유럽연합의 빅데이터 정책은 ‘익명권’과 ‘동의권’을 두 축으로 하여 형성되어 가는 듯하다. 첫째, 빅데이터 기술을 사용할 때는 철저한 익명성을 보장해야 한다. 만약 익명으로 사용하지 않을 것이라면 당사자인 정보 주체에게 동의를 받아야 한다.
빅데이터는 단지 ‘많은 양의 데이터’를 의미하는 것이 아니다. 빅데이터는 많은 양의 데이터를 ‘분석’하고 ‘예측’하여 추후 다른 의사 결정에 사용할 수 있도록 처리하는 기술적 알고리즘이다. 백화점에서 물건을 사거나 인터넷에서 검색하는 것처럼, 자신이 어떤 행위를 한 결과들이 휘발되지 않고 모두 철저히 기록된 후에 분석되어서 다른 목적으로 쓰여지도록 가공되는 것이다.
때문에 빅데이터 시대에는 자신의 개인정보가 다른 목적으로 쓰일 수 있다는 사실을 당사자들이 알고 동의권을 행사할 수 있어야 한다는 사실이 점점 더 중요해진다.
그런데 이런 상황이 복잡하니까 개인정보 보호 대상을 축소하고 동의권도 축소하자는 주장이 나오고 있다. 지난 2월 6일 행정자치부가 주최한 개인정보 보호 토론회의 기조 발표 내용도 그러했다.
발표를 맡은 구태언 변호사는 개인정보처리 시스템의 정보보호 수준을 엄격하게 적용하는 게 바람직하다면서도, 모든 사용자에게 서비스 약관을 일일이 동의 받도록 한 개인정보보호법이 사물인터넷(IoT) 시대에는 맞지 않으며 과도하게 사용자를 보호하는 것이라고 말했다. 또 신기술 서비스에 있어서는 수집되는 정보를 분류해 차별적인 사전 고지를 하고, 동의 원칙을 완화해야 한다고 제안했다.
구태언 변호사는 정부 추천 2기 개인정보 보호위원 신분이라, 그 발언의 무게가 사뭇 다르다. 개인정보 보호를 주무하는 행정자치부가 주최하고 개인정보 보호를 표제로 한 토론회에서, 개인정보 규제를 완화하자고 주장하는 기조 발제를 듣게 되니, 빅데이터 시대 개인정보 보호를 포기한 것은 아닌지 걱정스럽다.
물론, 사용자가 형식적인 동의를 강요당하는 상황은 바람직한 것이 아니다. 빅데이터 환경에 사물 인터넷까지 겹치면 당사자들의 동의를 일일이 받을 수 없는 경우가 점점 늘어날 것이다. 얼마 전 삼성전자 스마트TV가 집안의 대화를 수집할 수 있다는 사실이 드러나 세계가 놀라지 않았던가.
영국 BBC 등 주요 외신들은 삼성 스마트TV 앞에서 사적인 대화를 나눌 경우에도 회사측이 이를 저장해 제3자에 전송할 수 있으며, 이러한 내용을 삼성전자 측이 온라인 서비스 약관을 통해 고객들에게 경고하고 있다고 보도했다. 사생활 침해 비난이 일자, 삼성전자 측은 서비스 개발을 위해 음성 명령을 음성 인식 솔루션 업체로 전송하는 것뿐이며 제3자에게 정보를 무단 제공하고 있지 않다고 해명했다.
실제 문제가 된 삼성전자의 온라인 개인정보 보호정책 페이지(영문) 내 스마트TV 보충 설명에는 사용자의 음성 명령이 외부에 전송될 수 있으며, 사적이거나 민감한 정보를 말할 때 주의하라는 내용이 담겨 있다. 달랑 고지하고 끝이라면, 개인정보 보호정책이란 이름이 무색하지 않겠는가.
빅데이터 기술을 ‘선량하게’ 사용할 수 있는 길
사방에서 개인정보가 수집되는 시대인 것은 사실이다. 점점 더 자동으로, 점점 더 똑똑한 기계들에 의해서. 그렇다고 동의권을 축소하는 것은 길이 아니다. 우리나라에서 개인정보 자기결정권이 헌법재판소에서 인정된 것은 불과 2005년의 일인데, 벌써 죽이려고 하는 것인가.
그보다 먼저 생각해야 할 일은 익명권을 보장하는 것이다. 어디서 어떻게 개인정보가 수집되어도, 그것이 가공되어 누군가를 식별하거나 영업 대상으로 삼을 수 없게끔 철저하게 식별 가능성을 제거하는 것이다.
그것이 완벽하지 않을 수도 있다. “서울에 사는 여성 정보인권 활동가”라고 했을 때 필자를 떠올릴 사람들이 많다면, 이것이 익명화되었다고 볼 수는 없으니까. 그래도 최선을 다해 익명화하고 익명화할 방법을 생각해야 한다. 그것이야말로 빅데이터 기술을 ‘선량하게’ 사용할 수 있는 유일한 방법이다.
우리 개인정보보호법에서도 익명 처리의 원칙을 천명하고 있다. “개인정보 처리자는 개인정보의 익명 처리가 가능한 경우에는 익명에 의하여 처리될 수 있도록 하여야 한다.”(제3조 제7항)
유출된 주민번호에 대한 대책은 어디에도 없어
그러나 갈수록 익명의 권리를 인정받기 어려운 형국이다. 특히 한국에서는 주민번호 때문에 더욱 그러하다. 주민번호는 고유번호이다. 이 땅에서 나고 자란 모든 사람을 철저하게 식별하기 위한 용도를 가지고 있다. 그러니 주민번호를 불러주면서 내가 이 사회에서 익명으로 남아 있기를 기대하는 것은 무리이다.
최근 개인정보 유출 문제가 커지면서 정부도 어쩔 수 없이 주민번호의 사용을 제한하는 방향으로 개인정보 관련 법률들을 손보아 왔다. 급기야 법적 근거 없이는 주민번호를 수집할 수 없도록 한 ‘주민번호 법정주의’가 지난해 8월 7일 엄숙하게 시행되었다. 공공 기관이 아닌 대부분의 민간 사업자들은 법적 근거를 가지기가 어려우니 주민번호를 수집할 수 없다는 것이다.
그렇다면 인터넷 본인확인제 등으로 이미 수집한 주민번호는? 뒤늦게 지우란다. 만약 주민번호를 지우지 않고 몰래 가지고 있다면?
주민번호를 가지고 있으면, 백화점이 가지고 있는 최영희씨의 구매 기록과 병원이 가지고 있는 최영희씨의 진료 기록을 손쉽게 합칠 수 있다. 진료 기록에서 보이는 최씨의 건강 상태를 기준으로 맞춤형 건강보조 식품을 판매할 수도 있다. 그래, 설마 그럴 일은 없을 것이다. 주민번호를 보호하겠다고 삭제하라고 하지 않았던가.
하지만 주민번호 앞자리인 생년월일은 삭제할 필요가 없다. 성별도 남겨 두었다. 뒷자리 처음이 2, 4이면 여성이라는 사실을 누구나 안다. 혹시 몰라 지역도 남겨 두었을지 모른다. 그렇다면 “최영희/1971년 12월 10일생/여성/제주”라는 개인정보가 남는 것이다. 이 정보들이 주민번호보다 나를 얼마나 더 보호한다는 것일까? 내가 유일한 나라는 것을 알고, 그 사실을 토대로 다른 곳의 내 정보와 합쳐질 수 있는데?
개인 입장에서 가장 큰 문제는 이미 유출된 주민번호에 대한 대책이 어디에도 없다는 것이다. 유출된 주민번호가 전세계 어디에서 어떻게 쓰이고 있는지 알 수 없는데, 정부는 주민번호 변경을 허용하지 않겠다는 입장을 고수해 왔다. 맡기라고 해서 맡겼다가 유출된 사람만 억울한 형국이다.
그나마 올해 들어 사상 처음으로 주민번호 변경을 허용하는 법률을 정부가 발의하였다. 그런데 그 법률이 허용하는 폭이 매우 좁다. 웬만한 유출 피해로는 바꿀 수 없게 만들었다. 왜 이렇게도 바꾸어주지 않으려는 것일까?
인터넷에서 익명의 영역을 남겨두지 않겠다?
2012년 헌법재판소가 인터넷 본인확인제를 위헌이라고 결정하자, 정부는 신속하게 나서 인터넷 본인확인업을 공고히 하였다. 본인확인업은 전세계에서 한국에만 있는 전무후무한 업종이다. 이동통신사나 신용정보회사는 예외적으로 주민번호를 처리할 수 있도록 하고, 이들 회사에 주민번호를 제출하면 본인이라는 사실을 인터넷에서 인증해주는 업이다.
그 과정에서 “익명 표현의 자유”가 중요하다는 헌법재판소 결정의 취지는 무색해지고 말았다. 어떻게든 인터넷에서 익명의 영역을 남겨두지 않으려는 간절함마저 읽혀진다.
과거 네이트 개인정보 대량유출 사고 이후에 인터넷 본인확인제를 재고하려는 방송통신위원회의 움직임에도 제동이 걸렸다. 그때 제동을 건 것은 정보수사 기관들이었다. 또, 카드3사 개인정보 유출사고 이후에 행정자치부가 꾸린 주민번호 개선 자문단 회의에서 여러 전문가들이 ‘주민번호 변경 폭을 확대해야 한다’고 지적했다. 그러나 정부가 주민번호 변경 폭을 넓힐 수 없었던 것은, 역시 정보수사 기관의 반대 때문이라는 이야기가 들려왔다. 결국, 수사 기관이나 정보 기관의 편의가 익명의 권리를 압도하고 있는 것이다.
국가 정책적으로 익명의 권리를 인정하지 않을 것이라면, 개인정보보호법 상 익명 처리의 원칙은 공염불이 아니라 할 수 없다. 빅데이터 시대 익명의 권리를 확보하기 위해 고민하는 다른 나라들의 경우들과는 정반대의 흐름이다.
여기서 한술 더 떠 빅데이터 시대 개인정보를 보호하겠다는 방송통신위원회의 행보가 기막히다. 방통위는 2014년 12월 23일, 빅데이터로부터 개인정보를 보호하기 위해 ‘비식별화’를 하라는 내용을 골자로 한 <빅데이터 가이드 라인>을 의결했다. 문제는, 비식별화를 하면 당사자 동의 없이 타인이 개인정보를 자유롭게 사용해도 되는 것처럼 유권 해석을 했다는 점이다. 개인정보 자기결정권을 보장하는 헌법을 비롯하여 현행 개인정보보호법의 보호 범위를 넘어서는 월권이 아닐 수 없다.
‘익명화’라는 용어를 놔두고 다른 나라의 예에서도 잘 본 적이 없는 ‘비식별화’라는 용어를 굳이 선택했다는 사실도 의미심장하다. ‘익명화’가 개인정보의 식별 가능성을 완전히 제거하는 것이라면 ‘비식별화’는 미래의 재식별화를 염두에 둔 용어 사용이다. 결국 개인정보의 활용 가능성을 염두에 두었으면서도 당장은 식별이 안되니까 괜찮다는 꼼수로 읽힌다.
모든 이를 식별하려는 강박에서 벗어나
빅데이터가 개인정보의 분석에 그친다면 그나마 다행이겠다. 빅데이터는 궁극적으로 예측하고 의사 결정을 하기 위해 분석된다. 그 의사 결정이 부정확하거나, 혹은 차별을 낳는다면 그것은 누구의 책임일까?
여성은 어떤 걸 좋아하고, 유색인종은 어떤 행동을 하고, 주소지가 어느 동네인 사람들은 범죄자일 확률이 높다…. ‘중립적’인 빅데이터 기계가 기준으로 삼는 값들이 이렇게 사회적 편견이나 고정관념을 영속시키고, 사회적 배제와 계급 문제를 악화시키게 되는 것은 아닐까?
빅데이터 시대에 우리의 익명성은 영원히 도달할 수 없는 해방의 꿈처럼 사라지고 있는지도 모른다. 그러나 결코 놓칠 수 없는 꿈이다. 국가로부터 시장으로부터 익명으로 존재할 수 있다는 것은 개인적인 취향의 문제를 넘어서는 문제가 되어버렸다. 이제부터는 익명성이 기계로서 처리되고 기계로서 처분되지 않겠다는, 인간으로서 존엄을 지키기 위한 필수 조건인지도 모른다.
주민번호와 더불어 모든 이들을 식별하려는 강박성을 키워온 우리 사회에서, 빅데이터 시대를 맞아 그 강박증을 치료받을 처방 역시 ‘익명의 권리’에서 찾을 수 밖에 없다.
☞ 원문 바로 가기 http://www.ildaro.com/sub_read.html?uid=6995§ion=sc1