월간네트워커프라이버시

인공지능 스팸 요리법

By 2003/11/12 10월 29th, 2016 No Comments

인터넷트렌드

노경윤

한국정보보호진흥원의 최근 조사에 따르면 우리 국민은 하루 40통의 스팸메일을 받으며 이 가운데 24통은 음란 스팸메일이다. 이 정도 수치라면, 들어오는 모든 메일을 잠재적 스팸으로 간주하고, 스팸들 사이에서 정상적인 메일을 골라 읽는 편이 더 효과적일 수도 있다. 우스개가 되어야 할 일이 ‘나도 한 번(?)’, 하는 참신한 접근법으로 평가받는 시대.

물론 우리는 스팸메일을 크게 줄일 수 있는 근본적이고 또 효과적인 방법을 알고 있다. 원치 않는 상업메일을 대량 발송하는 것을 법으로 금지할 수 있도록 ‘옵트-인(opt-in)’ 방식을 도입하는 것이다. 그러나 이 간단한 해결책이 실제로 채택되기 위해서는 개인정보의 보호와 상업활동의 규제 사이에서 지루한 줄다리기가 상당 기간 계속되어야 할 것이다. 그 동안 스패머들은 국가의 규제를 빠져나갈 수 있는 만반의 준비를 갖출 수 있을 것이다. 점점 더 지구화, 온라인화 되는 자본주의 추세를 감안컨대, 이는 충분히 예상 가능한 미래이다.

최선이 아닌 차선

정부가 나서서 최선의 ‘규제’를 할 수 없다면 차선의 방법은 개인이 스스로 ‘구제’하는 것이다. 자기 집 앞에 떨어진 쓰레기를 스스로 치우자는 것이다. 다행스럽게도 이 분야는 상업적 서비스들이 자리를 잡기 전에 이미 많은 오픈소스 프로젝트들이 좋은 빗자루, 즉 똑똑한 스팸 필터들을 만들어놓았다.
스팸메일의 잠재적 최종 수신자들에게 소프트웨어적인 필터링 도구를 제공하는데 있어 전통적으로 사용되어 온 방법은 메일의 메타정보에서 특정 문자의 일치 여부를 검사해 스팸으로 인식하게 하는 방법이었다. 가령 우리나라에서는 정통부 명령에 의해 메일 제목에 ‘[광고]’, ‘[홍보]’ 또는 ‘@’ 기호를 삽입하면 합법적 상업 메일로 인정되는데, 이런 표식들은 해당 메일을 스팸으로 분류하는데 좋은 지표가 된다. 그러나 이런 방식은 날로 대담해지고 교묘해져 가는 스팸들을 막기엔 크게 역부족이었다.

베이지안 필터링

기존의 메일 필터링 기술이 스패머들과의 두뇌 싸움에서 고전하고 있던 2002년 8월, ‘스팸을 위한 계획(A Plan For Spam)’이라는 문서가 공개되며 상황이 역전되었다. 이 문서의 작성자인 폴 그래엄(Paul Graham)은 야후에 인수된 최초의 인터넷 쇼핑몰 중 하나인 ViaWeb의 설립자이자 그 자신 프로그래머였으며, 저술가로서도 명성이 있던 사람이었다. 그는 이 문서에서 자신이 베이지안(Bayesian)식 접근을 통해 스팸을 효과적으로 차단하는데 성공했다고 밝혔다.
베이지안식 접근이란 수학자였던 토마스 베이즈(Thomas Bayes)의 정리를 텍스트 분류(Text Classification)에 적용한 것이다. 특정 텍스트에서 개별 단어의 출현 빈도를 모두 기록한 뒤, 비슷한 분류의 텍스트를 계속 샘플 데이터로 추가시켜나가면서 단어들의 연관을 추적하여 임의의 텍스트가 해당 분류에 속하는지 여부를 알 수 있다는 이론이다. 이 이론이 스팸 필터링을 충분히 포괄할 수 있는 상위 개념임은 두말할 필요가 없다. 그래엄은 스팸메일을 ‘원치 않은 자동발송 된 메일’로 정의하고 있는데 이러한 접근은 스패머가 무의식적으로 사용하는–또는 사용할 수밖에 없는– 어휘들을 인지할 수 있어 특히 효과적이다.
베이지안 필터의 주요 특징 중 하나는 분류하고자 하는 대상, 즉 스팸에 대하여 ‘미리 정의된 규칙’ 같은 것이 존재하지 않는다는 것이다. 모든 규칙은 자기 스스로 만들어내야 한다. 자기 메일함에 들어온 메일에 스팸 꼬리표를 달아놓으면 그 순간 규칙이 작동한다. 보다 많은 확실한 스팸 샘플을 가지고 있을수록, 그리고 필터를 오래 사용할수록 필터는 더 정교하고 똑똑해진다. 이른 바 학습(training)에 의해 개인에 특화된 규칙들을 스스로 만들어나가는 것이다.
베이지안 알고리듬을 스팸 필터링에 적용하고자 한 시도는 이미 1998년에도 있었다. 다만 그래엄도 지적한 것, 몇 가지 사소한 문제들–샘플의 부족, 메일에 대한 이해부족–으로 인해 이전의 시도는 좋지 않은 결과를 보였다. 어쨌건 베이지안식 접근을 응용한 오픈소스 프로그램들이 쏟아져 나오기 시작한 것은 슬래시닷(slashdot.org)을 비롯한 컴퓨터 공동체에 그래엄의 문서가 소개되어 열광적인 반응을 얻으면서부터였다. 현재 소스포지(sourceforge.net) 싸이트에는 베이지안 알고리듬을 응용한 프로젝트가 총 39개 존재하여, 그 인기를 실감할 수 있다.

스팸과의 전쟁

최근에 그래엄은 자신이 제안한 방식에 대해 1년이 경과한 지금까지 별다른 문제가 없었다며 ‘아직까지는 쓸만하다’는 평가를 내렸다. 스팸과의 전쟁은 곧 스팸 발송자들과의 두뇌 싸움의 연속이므로 미래를 쉽게 예측할 수는 없지만, 베이지안 필터는 개인마다 필터링 규칙이 제 각각이고, 또 시시각각으로 변화하므로 스패머들로써도 상대하기 골치 아프다는 점이 일부 증명된 셈이다. 시간을 두고 더 지켜보아야 하겠지만, 최대 99%에 육박하는 스팸 탐지율이 계속 유지된다면, 스팸 문제에 관한 사회적 합의 자체를 무색하게 하는 의도치 않은 결과를 초래할 수도 있을 것이다.

그러나 필터를 통한 자가구제 방식은 이미 발송된 스팸 메일에 대해 취해지는 사후적 대책이라는 근본적 한계가 있다. 스팸메일을 완벽하게 사전 차단한다는 것은 불가능하다는 현실을 생각하면, 스팸메일 발송/수신 구조의 최종 단계는 스스로 책임지는 것이 맞는 것인지도 모른다. 다만 네트워크를 통한 전파의 비용이 너무 낮아지면서 악성 웜이나 스팸 등으로 인한 네트워크 오용 문제는 여전할 것이고, 이것은 우리가 사는 사회에 대해 또 다른 논의를 제공할 것이다.

2003-08-31