마이너리티 리포트 (예측 알고리즘, 자기실현적 예언, 데이터 왜곡)

범죄가 일어나기 전에 범인을 잡는다. 이것이 영화 마이너리티 리포트가 그리는 2054년의 세계입니다. 처음 이 설정을 접했을 때 저는 그냥 SF적 상상력으로만 넘기지 못했습니다. 과거에 이커머스 플랫폼에서 사용자 이탈 예측 모델을 직접 설계하고 운영해 본 입장에서, 이 시스템의 논리가 낯설지 않았기 때문입니다.

예측 알고리즘이 현실을 '만들어 버리는' 순간

프리크라임(Pre-Crime) 시스템의 작동 방식은 생각보다 단순합니다. 세 명의 예지자가 미래를 영상화하면, 수사관이 그 데이터를 분석해 범행 장소와 시간, 피해자와 가해자를 특정합니다. 그리고 사건이 일어나기 직전, 현장에 급습해 가해자를 체포합니다. 범행이 실제로 일어나지 않았는데도 '범죄 미수'로 수감되는 구조입니다.

이를 현대 마케팅 관점에서 보면 행동 예측 알고리즘(Behavioral Prediction Algorithm)과 구조가 거의 같습니다. 행동 예측 알고리즘이란 사용자의 과거 행동 데이터를 학습해 미래 행동을 예측하고, 그 결과에 따라 자동화된 개입을 실행하는 시스템을 말합니다. 저도 이 방식으로 특정 행동 패턴을 보이는 고객을 '이탈 예정자'로 분류하고, 선제적으로 쿠폰이나 푸시 알림을 발송하는 캠페인을 운영한 적이 있습니다.

문제는 그다음에 생겼습니다. 시스템이 '이탈할 것'이라고 낙인찍은 고객 중 일부는 사실 아직 구경 중이었습니다. 그런데 시스템의 강제 개입이 오히려 피로감을 유발했고, 그 고객들이 진짜로 이탈해 버렸습니다. 이것이 자기실현적 예언(Self-Fulfilling Prophecy)의 오류입니다. 자기실현적 예언이란 예측 자체가 그 예측이 가리키는 결과를 실제로 만들어 내는 현상을 뜻합니다. 알고리즘이 이탈을 예측했기 때문에, 그 예측이 이탈을 유발한 셈이었습니다. 제가 직접 데이터를 뜯어보고 나서야 이 구조를 깨달았을 때의 당혹감은 지금도 생생합니다.

소수 의견을 지운 시스템은 왜 무너지는가

프리크라임의 가장 치명적인 결함은 '마이너리티 리포트(Minority Report)'를 은폐했다는 점입니다. 세 예지자가 항상 동일한 미래를 보는 건 아닙니다. 한 명이 다른 미래를 예견할 수도 있는데, 시스템은 이 소수 의견을 신뢰도 유지를 위해 데이터에서 삭제했습니다. 그리고 이 구조적 취약점은 결국 권력자에 의한 데이터 조작으로 이어졌습니다.

데이터 분석 현장에서도 이와 동일한 상황을 자주 목격했습니다. 성과 지표인 KPI(Key Performance Indicator)를 달성하기 위해, 목표에 불리한 이상치(Outlier)를 의도적으로 제거하거나 집계에서 빠뜨리는 경우가 있습니다. KPI란 조직이 목표 달성도를 측정하기 위해 설정하는 핵심 정량 지표를 말합니다. 숫자는 깔끔해 보이지만, 실제 현실과는 점점 멀어지게 됩니다. 이 격차가 누적되면 어느 순간 시스템 전체의 신뢰가 한꺼번에 무너지는 상황이 발생합니다.

이와 관련해 알고리즘 편향 연구는 오래전부터 경고를 보내왔습니다. 실제로 AI 기반 예측 시스템의 편향 문제는 신뢰성을 심각하게 훼손한다는 연구 결과가 꾸준히 보고되고 있습니다(출처: MIT Technology Review). 프리크라임의 붕괴가 허구처럼 느껴지지 않는 이유가 여기에 있습니다.

프리크라임 시스템이 은폐한 결함을 정리하면 다음과 같습니다.

세 예지자 간 예측 불일치(소수 의견)를 시스템 신뢰도 유지를 위해 데이터에서 삭제
특정 영상의 편집·누락이 가능한 구조적 취약점
시스템 관리자(라마 버거스 국장)에 의한 데이터 조작 및 사건 설계
예지 된 결과를 유발하기 위해 인간을 도구로 활용하는 시나리오 조작

어느 하나만 봐도 심각한 문제인데, 이 모두가 '범죄율 0%'라는 단 하나의 KPI를 지키기 위해 자행되었다는 점이 섬뜩합니다.

데이터 왜곡이 시스템 전체를 삼키는 방식

라마 버거스 국장이 결국 스스로 목숨을 끊는 결말은, 단순한 영화적 장치가 아닙니다. 그는 마지막 순간 선택의 기로에 섰습니다. 존 앤더튼을 살해해 예지를 '증명'하거나, 살인을 멈춰 시스템의 오류를 인정하거나. 그가 선택한 건 시스템의 파멸이었습니다. 완벽한 예측 시스템이라는 허상을 스스로 끝낸 것입니다.

데이터 왜곡(Data Distortion)은 단순히 숫자를 조작하는 행위가 아닙니다. 데이터 왜곡이란 특정 목적을 위해 데이터를 선택적으로 수집·가공하거나 불리한 결과를 누락시켜 실제와 다른 결론을 도출하는 행위를 말합니다. 짧게는 성과처럼 보이지만, 길게는 의사결정의 근거 자체를 오염시킵니다. 그 결과는 시스템 내부에서 서서히 축적되다가, 어느 임계점에서 브랜드와 조직 전체의 신뢰 붕괴로 나타납니다.

이 문제는 AI 시스템의 신뢰성 문제와도 직결됩니다. 유럽연합(EU)은 2024년 AI Act를 통해 고위험 AI 시스템에 대한 투명성과 설명 가능성 요건을 법제화했습니다(출처: European Commission). 예측 시스템이 어떤 데이터를 근거로, 어떤 결론을 냈는지를 설명할 수 없다면 그 시스템은 신뢰받을 수 없다는 인식이 사회 전반에 자리 잡고 있는 것입니다.

~라고 생각하는 분들도 있는데, 저는 이 문제가 기술의 한계보다는 설계자의 태도 문제라고 봅니다. 예외 데이터를 이상치로 보고 걸러낼 것인지, 아니면 시스템을 교정할 신호로 볼 것인지는 결국 사람이 결정합니다. 프리크라임도, 저도 한때 예외를 무시했고, 그 결과는 각각 시스템 폐기와 캠페인 부작용이었습니다.

시스템은 인간의 판단을 보조하는 도구여야 합니다. 예측이 결론이 되는 순간, 시스템은 현실을 반영하는 게 아니라 현실을 만들어 버립니다. 마이너리티 리포트가 2002년에 던진 질문은 지금 이 순간에도 유효합니다. 우리가 믿는 데이터와 알고리즘이 실제로 무엇을 가리고 있는지, 한 번쯤 의심해 보시길 권합니다. 지금 운영 중인 예측 시스템이 있다면, 소수 의견부터 다시 꺼내 보는 것도 좋은 시작점이 될 것입니다.

참고: https://youtu.be/ARelER2eAcg?si=Hymar1AaxncgAOmY

yamae_lab

마이너리티 리포트 (예측 알고리즘, 자기실현적 예언, 데이터 왜곡)

예측 알고리즘이 현실을 '만들어 버리는' 순간

소수 의견을 지운 시스템은 왜 무너지는가

데이터 왜곡이 시스템 전체를 삼키는 방식

티스토리툴바

티스토리툴바