Emory Douglas’s “Justice Scales.” (Emory Douglas/Artists Rights Society)
편집자주 :
2016년 미국 언론 프로퍼블리카가 미국 법정에서 피고의 재범가능성을 예측하기 위해 사용하는 인공지능 알고리즘 컴파스(COMPAS)가 흑인 편향을 가지고 있다고 보도했습니다.그 이후 호주 국가인권위원회는 인공지능이 인권에 미치는 영향에 대한 검토에 착수하고 보고서를 발간하는 등 인공지능과 인권 문제에 대응하기 위하여 노력하고 있으며 하버드대 버크만센터는 특별히 공공부문에 채택된 인공지능 알고리즘에 인권영향평가를 제안하는 보고서를 발간하기도 했습니다. 그러나 한국에서는 공공부문이 인공지능이 인권에 미치는 영향에 대하여 검토는 커녕 공공부문 효율화와 관련 산업발전을 위해 무차별적으로 인공지능 알고리즘을 도입하고 있습니다. 차별 받지 않을 권리, 공정한 대우를 받을 권리, 그리고 자신의 개인정보에 대한 국민의 권리는 어떻게 보호될 수 있을까요? 이에 대한 고민을 담은 호주 국가인권위원회 보고서의 일부 내용을 짧게 소개합니다.번역오류는 policy 골뱅이 jinbo.net 으로 알려주세요.
제목 : 미국 형사사법시스템의 인공지능
원문 : AI in the United States criminal justice system, Human Rights and Technology Issues Paper 2018.07 (P.29, Box 2)
작성 : 2018.07, 호주 국가인권위원회
미국 형사사법시스템의 인공지능
2016년, 프로퍼블리카는 컴파스(COMPAS)라는 알고리즘 사용에 대해 조사했다. 컴파스는 개인이 장래에 재범을 범할 위험성을 평가한다. 프로퍼블리카는 컴파스가 흑인들에 편향적이었다고 주장했다.
컴파스는 몇몇 미국 법관이
(a) 형사기소된 사람이 법원의 심리가 끝날때까지 보석으로 석방되어야 하는지 여부
(b) 범죄로 유죄판결을 받은 사람이 얼마나 오래 수감되어야 하는지에 대하여 의사결정할 때
사용되고 있다.
컴파스는 연령, 성별, 범죄경력등과 같은 100개 이상의 요인에 기반하여 피고에 대해 1점부터 10점까지 부여하는 방식으로 그의 재범 가능성을 표시한다. 분명, 인종은 [사람이] 바꿀 수 있는 요인이 아니다. 이 알고리즘은 개인의 정보를 형사사법시스템의 대규모 데이터셋에 기반한 유사 집단 인구에 대한 정보와 비교함으로써 재범 가능성을 예측했다.
프로퍼블리카는 플로리다 카운티에서 COMPAS 점수가 부여된 약 5000명의 피고들을 분석했다. 그 결과 끝까지 재범을 저지르지 않은 개인들 중 흑인 피고들은 백인 피고들보다 2배 이상 중위험군 혹은 고위험군으로 분류될 가능성이 높았다.
이 위험평가도구를 개발한 민간회사 노스포인트는 자신의 독점적인 알고리즘의 상세사항을 공개하기를 거부했지만, 평가가 공정했다고 주장했다.
2016년 7월, 한 피고가 양형에 컴파스를 사용하는 것에 대해 적법절차에 대한 피고의 권리를 침해한다고 주장하며 소송을 제기하였다. 이 도구의 독점적 특성은 그 과학적인 타당성에 대해 문제를 제기할 수 없다는 것을 의미하기 때문이다.
위스콘신 대법원은 양형을 결정하는 판사가 다른 독립적인 요인들에 의존했고 컴파스의 위험평가가 결정적이지 않았다는 이유로 이 도구의 사용을 지지했다. 그러나 법원은 이 도구를 사용하는 판사들이 위험점수가 특정한 고위험 범죄자 개인보다 고위험 범죄자 집단을 인식하는 방식으로 작동한다는 사실 등 그 한계에 주목하도록 경고했다.
이 사례는 우리가 형사사법시스템에서 인권을 보호하는 방법에 대해 여러 가지 질문을 제기한다. 공정성은 알고리즘 정보에 기반하거나 영향을 받는 의사결정과정에 손쉽게 포함될 수 있는 가치가 아니다. 알고리즘은 절대로 그 운용에 공정성을 포함시킬 수 없다고 주장하는 사람도 있다. 예측성 알고리즘의 이용이 증가한다는 사실은 정부 의사결정에서 민간 기업들에 대한 의존도 높아지면서, 이미 소외되고 취약한 사람들에게 심각한 영향을 미친다.
—
인공지능 기반 의사결정으로 잠재적으로 부당한 결과를 낳은 또다른 사례들로는 다음과 같은 것들이 있다.
- 연령, 성별, 기타 특성에 기반하여 대상을 맞춤한 구직광고에서 알고리즘의 이용은 특정 연령대 이상의 사람들에게는 결코 구직 기회를 노출시키지 않았다.[1]
- 인공지능 기반 의사결정이 교사들의 업무 수행에 대해 단순하고 극단적으로 부정확하게 평가하여 어떤 미국 학군 내 일부 초등학교 교사들이 실직하는 결과를 낳았다.[2]
- 구직자 선별 알고리즘이 정신질환을 앓고 있는 구직자를 걸러낸다.[3]
- 위험평가 알고리즘이 치안 영역에서 젊은 층이나 특정 인종, 민족, 소수집단에 속한 사람들과 같은 특정 집단에 대해 비례적이지 않게 대상으로 삼는 결과를 낳았다.[4]
- 예측적 치안 도구가 경찰로 하여금 낮은 사회경제적 지역을 지목하고, 투옥과 재범 주기를 고착화하거나 악화시키도록 유도하였다.[5]
결국 우리는 어려운 질문들이 답할 필요가 있다. 예를 들어 우리는 인공지능 기반 의사결정 시스템에서 어떤 유형의 실수들을 감내할 의사가 있는가? 또한 오로지 인간에 의존하는 다른 의사결정 시스템과 비교해 볼때, 이런 시스템이 사용에 적합하다고 판단하기 전에 얼마나 많이 예측이 정확하고, 덜 민감해야 하는가?