AI도 실수한다
AI의 오류는 단순한 버그가 아닙니다. 설계 방식, 훈련 데이터, 배포 환경이 복합적으로 만들어 낸 구조적 결과입니다.
AI의 실수는 인간의 실수와 어떻게 다를까요?
2018년 3월, 우버(Uber)의 자율주행 차량이 애리조나주 템페에서 보행자 엘레인 헤르츠버그를 치어 사망하게 했습니다. 차량의 객체 인식 AI는 그녀를 처음에 알 수 없는 물체로, 그 다음엔 차량으로, 마지막엔 자전거로 분류하며 계속해서 재분류를 반복했습니다. 안전 운전자는 전방을 주시하지 않고 있었으며, 자동 비상제동 시스템은 운전자 혼란을 줄이기 위해 비활성화된 상태였습니다. AI는 충돌 1.3초 전에야 비상 상황을 인식했지만, 이미 제동 시간이 부족했습니다.
이 사고는 AI 오류가 실험실 밖에서 어떤 결과를 초래하는지 전 세계에 처음으로 보여준 사례가 되었습니다.
AI 오류의 구조
AI 시스템이 실수하는 이유는 크게 세 가지 층위에서 발생합니다. 첫째는 데이터 층위입니다. 모델은 학습 데이터에 없는 상황을 처리하지 못합니다. 우버의 AI는 자전거를 끌고 걷는 사람을 충분히 학습하지 않았습니다. 둘째는 모델 층위입니다. 모델 자체의 구조적 한계로 인해 특정 패턴을 잘못 분류할 수 있습니다. 셋째는 배포 층위입니다. 안전장치를 끈 채 실제 도로에 투입하는 결정은 인간이 내립니다.
중요한 점은, AI의 오류가 무작위적이지 않다는 것입니다. AI는 특정 유형의 입력에서 체계적으로 실패합니다. 이를 분포 이동(distribution shift)이라고 합니다. 학습 데이터와 실제 환경 사이의 간극이 클수록 오류 가능성이 높아집니다.
오픈 월드 문제(Open World Problem): AI는 훈련 데이터에서 본 것만 인식합니다. 훈련 중 한 번도 보지 못한 상황이 실제 환경에서 등장하면, AI는 이를 아는 것처럼 잘못 분류하거나 완전히 오작동합니다.
오류의 종류
AI 오류는 크게 두 가지 유형으로 나뉩니다. 거짓 양성(False Positive)은 AI가 없는 것을 있다고 판단하는 경우입니다. 거짓 음성(False Negative)은 있는 것을 없다고 판단하는 경우입니다. 우버 사례에서 AI는 보행자를 위협 없는 물체로 반복 분류했습니다. 이는 심각한 거짓 음성 오류였습니다.
- 거짓 양성 (False Positive): 암 진단 AI가 정상 세포를 암으로 분류 → 불필요한 치료
- 거짓 음성 (False Negative): 사기 탐지 AI가 실제 사기를 정상 거래로 분류 → 피해 방치
- 분포 이동 오류: 눈보라 상황에서 학습하지 않은 자율주행 AI가 차선을 인식 못 함
- 캐스케이드 오류: 초기 잘못된 분류가 연쇄적으로 후속 판단을 오염시키는 경우
AI도 실수한다
레슨 1의 핵심 개념을 확인합니다.
1. 2018년 우버 자율주행 사고에서 AI가 보행자를 반복적으로 다르게 분류한 행동은 어떤 오류 유형에 해당합니까?
2. '분포 이동(distribution shift)'이란 무엇입니까?
3. 우버 사고에서 '자동 비상제동 시스템이 비활성화된 것'은 AI 오류의 어떤 층위에 해당합니까?
AI 오류 분석 실습
실제 AI 오류 사례를 분석하고, 그 원인과 층위를 직접 탐구해 보세요.
실습 목표
AI 튜터와 대화하며 AI 오류의 유형과 원인을 분석하는 능력을 키웁니다. 다음 주제들을 탐구해 보세요.
- 우버 사고 외에 실제로 발생한 AI 오류 사례를 물어보세요.
- 거짓 양성과 거짓 음성 중 어떤 상황에서 어떤 오류가 더 위험한지 질문해보세요.
- 분포 이동을 방지하는 방법에는 무엇이 있는지 탐구해보세요.
모를 때 AI는?
AI는 자신이 모른다는 사실을 모릅니다. 이것이 '환각(hallucination)'의 출발점입니다.
AI가 틀린 답을 확신하며 말할 때, 우리는 어떻게 알아챌 수 있을까요?
2023년 미국의 변호사 스티븐 슈워츠(Steven Schwartz)는 ChatGPT가 생성한 법률 브리핑을 뉴욕 연방법원에 제출했습니다. 브리핑에는 여러 판례가 인용되어 있었지만, 법원이 확인한 결과 해당 판례들은 실제로 존재하지 않는 것들이었습니다. ChatGPT가 실제처럼 보이는 판례 번호, 재판부 이름, 판결 요지를 완전히 지어낸 것입니다. 슈워츠는 법원으로부터 5,000달러의 제재금을 부과받았으며, 사건은 AI 환각의 위험성을 법조계에 알린 대표적 사례가 되었습니다.
환각이란 무엇인가
대규모 언어 모델(LLM, Large Language Model)은 다음에 올 가장 그럴듯한 토큰(단어)을 예측하도록 설계되어 있습니다. 이 구조는 모델이 "모른다"고 말하는 것보다 "그럴듯하게 들리는 것"을 생성하도록 유인합니다. 그 결과, 모델은 존재하지 않는 책, 논문, 판례, 인물을 실제인 것처럼 자신 있게 생성합니다. 이를 환각(hallucination)이라고 부릅니다.
환각은 무작위적이지 않습니다. 모델이 해당 주제에 대한 훈련 데이터가 부족할수록, 또는 질문이 매우 구체적인 사실을 요구할수록 환각 가능성이 높아집니다. 특히 법률, 의학, 역사적 세부 사항에서 자주 발생합니다.
불확실성 캘리브레이션(Uncertainty Calibration): 좋은 AI 시스템은 자신의 확신도와 실제 정확도가 일치해야 합니다. 90%라고 말하면 90% 맞아야 합니다. 현재 많은 LLM은 과잉 확신(overconfidence) 문제를 가지고 있습니다.
환각을 줄이는 접근법
2023년 이후 AI 기업들은 환각을 줄이기 위한 여러 기법을 개발했습니다. 가장 주목받는 방법은 RAG(Retrieval-Augmented Generation, 검색 증강 생성)입니다. 이 방법은 모델이 답변을 생성하기 전에 신뢰할 수 있는 외부 데이터베이스를 먼저 검색하도록 강제합니다. 또한 모델이 확신이 없을 때 "모른다"고 명시적으로 말하도록 학습시키는 연구도 진행 중입니다.
- RAG(검색 증강 생성): 외부 문서를 실시간 검색해 답변의 근거를 제공
- 인용 강제: 모든 주장에 검증 가능한 출처를 명시하도록 설계
- 거부 학습: 모를 때 "모른다"고 말하도록 강화학습(RLHF) 적용
- 사실 검증 파이프라인: 생성된 텍스트를 별도의 검증 모델로 이중 점검
모를 때 AI는?
레슨 2의 핵심 개념을 확인합니다.
1. 변호사 슈워츠 사건에서 ChatGPT가 존재하지 않는 판례를 생성한 현상을 무엇이라고 합니까?
2. RAG(Retrieval-Augmented Generation)는 어떤 방식으로 환각을 줄입니까?
3. '불확실성 캘리브레이션(Uncertainty Calibration)'이 잘 된 AI 모델의 특성은 무엇입니까?
환각 탐지 실습
AI가 모르는 척하거나 지어내는 순간을 직접 포착해 보세요.
실습 목표
AI 튜터와 대화하면서 환각이 발생하기 쉬운 조건과 이를 탐지하는 방법을 탐구합니다.
- 환각이 특히 자주 발생하는 주제 영역(법률, 의학, 역사적 세부사항 등)에 대해 물어보세요.
- AI가 "모른다"고 말하도록 유도하는 방법을 질문해보세요.
- 사용자 입장에서 AI의 환각을 탐지하는 실용적 방법을 탐구해보세요.
책임은 누구에게?
AI가 잘못된 결정을 내렸을 때, 법적·도덕적 책임은 개발자, 배포자, 사용자 중 누구에게 있을까요?
AI가 해를 끼쳤을 때 책임지는 사람은 반드시 있어야 할까요?
2016년, 네덜란드 정부는 복지 수급자 자격을 자동으로 심사하는 AI 시스템 SyRI(Systeem Risico Indicatie)를 사용했습니다. 이 시스템은 수십 개의 공공 데이터베이스를 결합해 복지 사기 위험도를 점수화했으며, 이를 바탕으로 복지 수급을 거부하거나 조사를 강화했습니다. 피해자들은 왜 자신이 표적이 됐는지 이유조차 알 수 없었습니다. 2021년 헤이그 법원은 SyRI가 프라이버시 권리를 침해했다고 판결하며 운용을 중지시켰습니다. 그러나 이미 수천 명이 근거 없이 피해를 입은 뒤였습니다.
책임의 공백
AI 시스템에서 책임을 묻는 것이 어려운 이유는 결정이 여러 주체에 분산되기 때문입니다. AI를 개발한 연구자, 이를 제품화한 기업, 정책에 적용한 정부기관, 그리고 일상에서 사용하는 개인 — 이 모든 주체가 각자의 역할을 했지만, 피해가 발생했을 때 누구도 전적인 책임을 지지 않으려 합니다. 이를 책임의 공백(accountability gap)이라고 합니다.
SyRI 사건에서 네덜란드 정부는 "시스템이 그렇게 결정했다"는 논리를 내세웠습니다. 그러나 법원은 AI의 결정도 그것을 채택한 인간 기관의 결정임을 명확히 했습니다. 도구가 자동화되었다고 해서 책임까지 자동화되지는 않습니다.
자동화 편향(Automation Bias): 인간이 자동화된 시스템의 판단을 과도하게 신뢰하고 자신의 비판적 판단을 억제하는 경향. AI가 결정을 내렸을 때 인간이 그것을 검토하지 않고 받아들이는 경향이 강해집니다. 이는 책임의 공백을 더욱 심화시킵니다.
책임 배분의 프레임워크
현재 EU AI법(EU AI Act, 2024년 발효)은 AI 시스템을 위험도에 따라 분류하고, 고위험 AI(의료, 사법, 복지 등)에 대해서는 배포자가 반드시 인간 감독을 유지해야 한다고 규정합니다. 이는 "AI가 결정했다"는 변명을 법적으로 차단하는 구조입니다.
- 개발자 책임: 알려진 위험을 사전에 설계 단계에서 제거할 의무
- 배포자 책임: 적절한 맥락에서만 시스템을 사용하고 결과를 감독할 의무
- 규제 기관 책임: 고위험 영역에서 인간 감독을 의무화할 책임
- 사용자 책임: AI 출력을 맹목적으로 신뢰하지 않고 검증할 의무
책임은 누구에게?
레슨 3의 핵심 개념을 확인합니다.
1. 네덜란드 SyRI 사건에서 헤이그 법원이 핵심적으로 확인한 원칙은 무엇입니까?
2. '자동화 편향(Automation Bias)'이 책임의 공백을 심화시키는 이유는 무엇입니까?
3. EU AI법(EU AI Act)이 고위험 AI에 대해 요구하는 핵심 조건은 무엇입니까?
AI 책임 분석 실습
책임의 공백이 발생하는 구체적 상황을 분석해 보세요.
실습 목표
AI 튜터와 대화하며 AI 책임 배분의 복잡성을 탐구합니다.
- 한국의 맥락에서 AI가 행정 결정에 사용된 사례를 질문해보세요.
- AI 결정으로 피해를 입었을 때 개인이 구제받을 수 있는 방법을 탐구해보세요.
- "알고리즘 결정에 대한 설명 요구권"이 무엇인지, 어떻게 작동하는지 물어보세요.
편향 입력, 편향 출력
AI는 데이터의 거울입니다. 데이터에 담긴 사회적 편견은 모델을 통해 증폭되어 돌아옵니다.
AI의 편향은 데이터 문제인가요, 아니면 사회 문제인가요?
2018년 MIT 미디어랩의 연구원 조이 부올람위니(Joy Buolamwini)는 아마존, IBM, 마이크로소프트의 얼굴 인식 AI를 대상으로 정확도를 측정했습니다. 결과는 충격적이었습니다. 흰 피부 남성에 대한 오류율은 1%였지만, 어두운 피부 여성에 대한 오류율은 최대 35%에 달했습니다. 훈련 데이터가 백인 남성 중심으로 구성되어 있었기 때문입니다. 이 연구는 "젠더쉐이즈(Gender Shades)"라는 이름으로 발표되어 AI 편향 연구의 전환점이 되었습니다. 아마존은 2020년 경찰의 얼굴 인식 AI 사용을 임시 중단했습니다.
편향의 기원
AI 모델의 편향은 크게 세 단계에서 발생합니다. 첫 번째는 데이터 수집 단계입니다. 인터넷 데이터는 영어권·남성·선진국 편향이 강합니다. 특정 집단이 과소 대표되면, 모델은 그 집단에 대해 덜 정확하거나 더 부정적인 예측을 합니다. 두 번째는 레이블링 단계입니다. 인간 레이블러들의 주관적 판단이 데이터에 주입됩니다. 세 번째는 최적화 단계입니다. 모델이 전체 정확도를 최대화하도록 학습될 때, 소수 집단에 대한 오류는 전체 수치에 미치는 영향이 작아 무시됩니다.
표현 편향(Representation Bias): 훈련 데이터에서 특정 집단이 과소 또는 과대 대표될 때 발생합니다. 젠더쉐이즈 연구에서 어두운 피부 여성 이미지가 데이터셋에 극히 적었던 것이 대표적 사례입니다.
편향이 증폭되는 구조
특히 위험한 것은 AI가 편향을 단순히 반영하는 데 그치지 않고 증폭한다는 점입니다. 예를 들어, 채용 AI가 과거 남성 채용 데이터로 학습되면 남성 지원자를 선호하게 됩니다. 이 AI가 실제 채용에 사용되면 남성 채용이 더 많아지고, 그 결과 데이터는 더욱 남성 편향이 됩니다. 이 순환을 피드백 루프(feedback loop)라고 합니다.
아마존은 2014년부터 이런 채용 AI를 개발했다가 2018년 내부 감사에서 여성 지원자에게 불이익을 주는 것을 발견하고 프로젝트를 폐기했습니다.
- 역사적 편향: 과거의 불평등한 결과를 데이터로 학습해 미래에도 재현
- 측정 편향: 특정 집단에만 더 정확한 측정 도구를 사용해 발생
- 집계 편향: 평균 성능이 높아도 특정 집단에서는 훨씬 낮은 경우
- 배포 편향: 개발 환경과 실제 사용 환경의 인구통계 차이에서 발생
편향 입력, 편향 출력
레슨 4의 핵심 개념을 확인합니다.
1. 젠더쉐이즈(Gender Shades) 연구에서 어두운 피부 여성에 대한 오류율이 최대 35%에 달했던 근본 원인은 무엇입니까?
2. AI 편향의 '피드백 루프(feedback loop)'를 올바르게 설명한 것은?
3. 전체 정확도는 높지만 특정 집단에서만 훨씬 낮은 성능을 보이는 편향 유형은 무엇입니까?
AI 편향 탐구 실습
데이터 편향이 어떻게 발생하고 어떻게 측정할 수 있는지 탐구해 보세요.
실습 목표
AI 튜터와 함께 한국 사회 맥락에서 AI 편향 문제를 탐구합니다.
- 한국의 채용, 대출, 의료 분야에서 AI 편향이 나타날 수 있는 구체적 시나리오를 질문해보세요.
- 훈련 데이터에서 편향을 사전에 탐지하는 방법을 탐구해보세요.
- 편향을 완전히 제거하는 것이 가능한지, 아니면 관리하는 것이 현실적인지 논의해보세요.
공정성과 AI
"공정성"의 정의는 하나가 아닙니다. 수학적으로 서로 양립 불가능한 공정성 기준들이 존재합니다.
모든 사람에게 동등하게 공정한 AI를 만드는 것이 수학적으로 가능할까요?
2016년, 미국 언론사 프로퍼블리카(ProPublica)는 미국 법원에서 재범 위험 예측에 사용되는 AI 도구 COMPAS를 분석했습니다. 분석 결과, COMPAS는 흑인 피고인을 백인 피고인보다 고위험으로 잘못 분류하는 비율이 거의 두 배 높았습니다. 그러나 COMPAS 개발사 노스포인트(Northpointe)는 "우리 모델은 각 인종 집단 내에서 동일한 예측 정확도를 가진다"고 반박했습니다. 두 주장 모두 수학적으로 사실이었습니다. 문제는 공정성의 정의 자체가 달랐다는 것입니다.
공정성 불가능성 정리
2016년 쵸울드파파니콜라우(Chouldechova)와 클라인버그(Kleinberg) 등의 연구자들은 수학적으로 중요한 사실을 증명했습니다. 결과 기반 공정성 지표들 — 예를 들어 교정 공정성(calibration), 균형 잡힌 오류율 — 은 집단 간 기저율(base rate)이 다를 경우 동시에 만족시킬 수 없습니다. 이를 공정성 불가능성 정리(Impossibility Theorem of Fairness)라고 합니다.
COMPAS 논쟁은 이 정리의 실제 사례였습니다. 두 집단의 재범률이 서로 다른 상황에서, 하나의 알고리즘이 모든 공정성 기준을 동시에 만족하는 것은 수학적으로 불가능했습니다.
집단 공정성 vs. 개인 공정성: 집단 공정성은 집단 간 통계적 결과가 동등해야 한다는 기준입니다. 개인 공정성은 비슷한 개인은 비슷하게 대우받아야 한다는 기준입니다. 이 두 기준 역시 충돌할 수 있습니다.
공정성 선택의 정치성
공정성의 정의를 선택하는 행위는 기술적 결정이 아니라 정치적·윤리적 결정입니다. 어떤 오류(거짓 양성 vs 거짓 음성)를 더 용납할 수 있는지, 누구의 피해가 더 심각한지는 사회적 가치 판단을 요구합니다. 따라서 AI 공정성 논의는 알고리즘 설계자만의 문제가 아니라 사법 시스템, 정책 입안자, 피영향 공동체 모두가 참여해야 하는 민주적 논의입니다.
- 교정 공정성(Calibration): 각 집단에서 예측 점수와 실제 결과의 일치율이 동일
- 균등 기회(Equal Opportunity): 실제 양성인 사람이 양성으로 분류될 확률이 집단 간 동일
- 인구통계학적 동등성(Demographic Parity): 집단 간 양성 분류 비율이 동일
- 개인 공정성(Individual Fairness): 유사한 특성을 가진 사람은 유사한 결과를 받아야 함
공정성과 AI
레슨 5의 핵심 개념을 확인합니다.
1. COMPAS 논쟁에서 프로퍼블리카와 노스포인트의 주장이 모두 수학적으로 사실일 수 있었던 이유는 무엇입니까?
2. '공정성 불가능성 정리'가 의미하는 바는 무엇입니까?
3. AI 공정성 기준의 선택이 '기술적 결정'이 아니라 '정치적·윤리적 결정'인 이유는 무엇입니까?
공정성 기준 논쟁 실습
서로 충돌하는 공정성 기준들을 직접 비교하고 토론해 보세요.
실습 목표
AI 튜터와 함께 공정성의 다양한 정의를 탐구하고, 실제 상황에서 어떤 기준을 적용해야 하는지 논의합니다.
- 한국 사법 시스템에서 재범 예측 AI를 사용한다면 어떤 공정성 기준을 적용해야 할지 물어보세요.
- 공정성 불가능성 정리가 AI 정책 설계에 어떤 실질적 함의를 갖는지 탐구해보세요.
- AI 공정성 결정에 피영향 집단이 참여해야 하는지, 어떻게 참여해야 하는지 논의해보세요.
실패 유형과 대응
AI 시스템의 실패를 사전에 예측하고 설계 단계에서 완화하는 체계적 방법을 탐구합니다.
AI 실패를 막는 가장 효과적인 시점은 언제일까요?
2010년 5월 6일, 미국 주식시장은 45분 만에 1조 달러(약 1,300조 원)의 시가총액이 증발했다가 순식간에 회복되는 이른바 '플래시 크래시(Flash Crash)'를 경험했습니다. 원인은 고빈도 알고리즘 트레이딩 시스템들의 연쇄 반응이었습니다. 하나의 알고리즘이 대규모 매도를 시작하자, 다른 알고리즘들이 이를 시장 신호로 해석해 연쇄 매도를 시작했습니다. 인간이 개입할 시간이 없었습니다. 이 사건은 자동화된 AI 시스템이 예상치 못한 방식으로 서로 상호작용하며 거대한 '창발적 실패(emergent failure)'를 일으킬 수 있음을 보여주었습니다.
AI 실패 유형의 분류
AI 시스템의 실패는 크게 네 가지 유형으로 분류할 수 있습니다. 기술적 실패는 소프트웨어 버그, 하드웨어 오류, 모델의 수치적 불안정성에서 비롯됩니다. 운영적 실패는 시스템이 설계된 맥락 밖에서 사용될 때 발생합니다. 사회기술적 실패는 AI와 인간이 상호작용하는 방식에서 예상치 못한 문제가 발생하는 경우입니다. 창발적 실패는 개별 구성 요소가 정상 작동하더라도 시스템 전체 차원에서 예측 불가능한 행동이 나타나는 경우입니다.
FMEA(Failure Modes and Effects Analysis, 고장 모드 및 영향 분석): 원래 항공우주 및 자동차 산업에서 발전한 방법론으로, AI 시스템에 적용할 때는 각 구성 요소가 실패할 수 있는 방식과 그 영향을 체계적으로 목록화하여 사전에 대응책을 마련합니다.
완화 전략
플래시 크래시 이후 미국 증권거래위원회(SEC)는 서킷 브레이커(circuit breaker) 메커니즘을 강화했습니다. 주가가 일정 수준 이상 급변하면 거래를 자동으로 중단시켜 알고리즘의 연쇄 반응을 차단하는 방식입니다. 이는 AI 시스템에 의도적으로 인간 개입 기회를 만드는 설계 패턴의 좋은 사례입니다.
- 레드 팀(Red Teaming): 전문가 팀이 공격자 역할을 맡아 시스템의 취약점을 사전에 발견
- 스트레스 테스트: 극단적 입력값과 엣지 케이스로 시스템 한계를 실험
- 점진적 배포(Gradual Rollout): 소규모 사용자부터 배포해 문제를 조기 발견
- 서킷 브레이커: 비정상 패턴 감지 시 자동으로 시스템을 중단하고 인간에게 제어권 이양
- 다중화(Redundancy): 핵심 기능에 대한 백업 시스템을 병렬로 운영
실패 유형과 대응
레슨 6의 핵심 개념을 확인합니다.
1. 2010년 플래시 크래시가 '창발적 실패(emergent failure)'의 사례인 이유는 무엇입니까?
2. AI 시스템의 '서킷 브레이커(circuit breaker)' 메커니즘의 핵심 기능은 무엇입니까?
3. FMEA(고장 모드 및 영향 분석)는 AI 개발의 어떤 단계에서 가장 효과적입니까?
AI 실패 완화 설계 실습
실제 AI 시스템에 적용할 수 있는 실패 완화 전략을 설계해 보세요.
실습 목표
AI 튜터와 함께 다양한 실패 완화 전략의 장단점을 탐구하고 실제 시나리오에 적용합니다.
- 한국의 의료 AI에 FMEA를 적용한다면 어떤 실패 유형을 먼저 분석해야 하는지 물어보세요.
- 레드 팀 테스트와 스트레스 테스트의 차이점과 각각 언제 사용해야 하는지 탐구해보세요.
- 자율주행 차량에 서킷 브레이커를 적용하는 것이 가능한지, 어떤 형태여야 하는지 논의해보세요.
적대적 공격과 조작
AI는 인간이 전혀 인식하지 못하는 미세한 변화에 속을 수 있습니다. 이는 단순한 버그가 아니라 구조적 취약점입니다.
사람의 눈에 보이지 않는 변화가 AI를 완전히 속일 수 있다면, 우리는 AI를 신뢰할 수 있을까요?
2017년 구글 브레인(Google Brain)의 연구팀은 정지 표지판(Stop Sign) 이미지에 인간 눈에는 보이지 않는 작은 스티커를 붙이는 것만으로 자율주행 차량의 이미지 인식 AI가 이를 '속도 제한 45마일' 표지판으로 오인하게 만드는 데 성공했습니다. 픽셀 수준의 미세한 변화가 AI의 판단을 완전히 바꿀 수 있었습니다. 이 연구는 적대적 예제(adversarial examples)가 단순한 학술적 호기심이 아니라 실제 물리 세계에서도 작동하는 보안 위협임을 처음으로 입증했습니다.
적대적 공격의 원리
딥러닝 모델은 고차원 입력 공간에서 특정 결정 경계를 학습합니다. 적대적 예제(adversarial example)는 이 결정 경계 근처에서 미세하게 조작된 입력으로, 인간에게는 원본과 동일하게 보이지만 모델에게는 완전히 다른 클래스로 분류됩니다. 이것이 가능한 이유는 고차원 공간에서 결정 경계가 인간의 지각 방식과 매우 다른 방향으로 형성되기 때문입니다.
더 위험한 것은 블랙박스 공격의 가능성입니다. 공격자가 모델의 내부 구조를 전혀 모르더라도, 모델의 출력값만을 관찰하면서 적대적 예제를 생성할 수 있습니다.
프롬프트 인젝션(Prompt Injection): LLM에 대한 적대적 공격의 한 형태로, 악의적 지시가 담긴 텍스트를 입력에 숨겨 모델이 원래 시스템 지시를 무시하고 공격자의 명령을 따르도록 조작하는 기법입니다. 2023년 이후 LLM 기반 서비스의 주요 보안 위협이 되었습니다.
공격 유형과 방어 전략
적대적 공격은 이미지, 텍스트, 음성, 센서 데이터 등 모든 종류의 AI 입력에서 발생할 수 있습니다. 방어 전략으로는 적대적 훈련(adversarial training)이 가장 널리 사용됩니다. 훈련 데이터에 적대적 예제를 포함시켜 모델이 이에 강인하도록 학습시키는 방법입니다. 그러나 방어와 공격은 끊임없이 진화하는 군비 경쟁 구조를 가지고 있습니다.
- 화이트박스 공격: 모델 내부 구조를 완전히 알고 최적화된 공격 생성
- 블랙박스 공격: 모델 출력만 관찰해 공격 생성 — 실제 위협에 더 현실적
- 프롬프트 인젝션: LLM에게 숨겨진 악의적 지시를 주입해 행동 조작
- 데이터 포이즈닝: 훈련 단계에서 악의적 데이터를 주입해 모델 자체를 조작
- 방어: 적대적 훈련, 입력 검증, 앙상블 방법론
적대적 공격과 조작
레슨 7의 핵심 개념을 확인합니다.
1. 구글 브레인의 정지 표지판 실험이 보안 연구에서 중요한 이유는 무엇입니까?
2. 프롬프트 인젝션(Prompt Injection) 공격의 특징으로 옳은 것은?
3. '데이터 포이즈닝(Data Poisoning)' 공격이 다른 적대적 공격보다 특히 위험한 이유는 무엇입니까?
적대적 공격 분석 실습
실제 AI 시스템이 어떻게 조작될 수 있는지 분석하고 방어 전략을 탐구해 보세요.
실습 목표
AI 튜터와 함께 적대적 공격의 실제 위협과 방어 방법을 탐구합니다.
- 한국의 금융, 의료, 자율주행 분야에서 적대적 공격이 현실적으로 어떻게 사용될 수 있는지 물어보세요.
- 프롬프트 인젝션 공격을 방어하는 현재 최선의 방법이 무엇인지 탐구해보세요.
- 적대적 훈련이 왜 완벽한 방어책이 될 수 없는지, 군비 경쟁 구조를 분석해보세요.
AI 평가와 감사
AI 시스템이 실제로 작동하는지, 공정한지, 안전한지를 체계적으로 검증하는 방법론을 탐구합니다.
AI 시스템을 감사한다는 것은 구체적으로 무엇을 측정하는 것일까요?
2020년, 영국 내무부는 비자 신청 심사에 사용하던 알고리즘이 인종 차별적 편향을 가지고 있다는 사실을 인정하고 해당 시스템 사용을 중단했습니다. 이 알고리즘은 신청자의 출신 국가를 바탕으로 위험도를 사전 분류하는 방식으로 작동했으며, 결과적으로 특정 국가 출신 신청자들이 불균형적으로 거부되었습니다. 이 문제를 발견한 것은 내부 감사가 아니라 외부 시민사회 단체 'Foxglove'의 조사였습니다. 자체 감사의 부재가 문제를 수년간 지속시켰습니다.
AI 감사의 층위
AI 감사(AI Audit)는 단순한 성능 테스트가 아닙니다. 좋은 AI 감사는 최소한 세 가지 층위를 포괄해야 합니다. 첫째, 기술적 감사는 모델의 정확도, 강인성, 보안 취약점을 측정합니다. 둘째, 공정성 감사는 다양한 집단에 대한 성능 차이와 편향을 측정합니다. 셋째, 영향 감사는 시스템이 실제 배포 환경에서 어떤 사회적 결과를 만들어내는지를 추적합니다.
영국 비자 사례는 내부 감사가 얼마나 쉽게 실패할 수 있는지를 보여줍니다. 시스템을 개발하고 배포한 조직이 동시에 감사를 담당하면 독립성이 결여됩니다. 이 때문에 독립적 제3자 감사(third-party audit)의 필요성이 강조됩니다.
모델 카드(Model Card): 2019년 구글 연구팀이 제안한 표준 문서 형식으로, AI 모델의 목적, 훈련 데이터, 알려진 한계와 편향, 성능 지표를 공개적으로 문서화합니다. 투명성의 기본 도구로 점차 업계 표준이 되고 있습니다.
평가 지표와 한계
AI 평가에서 중요한 경고가 있습니다. 굿하트의 법칙(Goodhart's Law): "측정치가 목표가 되는 순간, 그것은 더 이상 좋은 측정치가 아니다." AI 벤치마크에서 좋은 점수를 받기 위해 최적화된 모델이 실제 환경에서 실패하는 경우가 반복적으로 발생합니다. 평가 지표는 현실을 반영하는 도구일 뿐, 그 자체가 목적이 될 수 없습니다.
- 모델 카드: 모델의 목적, 한계, 편향을 공개 문서화
- 데이터시트: 훈련 데이터의 출처, 구성, 알려진 편향을 문서화
- 독립적 제3자 감사: 개발·배포 조직과 독립된 외부 검증
- 지속적 모니터링: 배포 후 실제 환경에서 성능과 공정성 추적
- 이해관계자 참여: 피영향 집단을 평가 과정에 포함
AI 평가와 감사
레슨 8의 핵심 개념을 확인합니다.
1. 영국 비자 심사 알고리즘 사건에서 문제를 발견한 주체가 내부 감사가 아닌 외부 시민사회 단체였다는 사실이 보여주는 교훈은 무엇입니까?
2. '굿하트의 법칙(Goodhart's Law)'을 AI 평가에 적용한 올바른 해석은 무엇입니까?
3. '모델 카드(Model Card)'가 AI 투명성에 기여하는 방식은 무엇입니까?
AI 감사 설계 실습
실제 AI 시스템에 대한 감사 계획을 설계하는 경험을 해보세요.
실습 목표
AI 튜터와 함께 실제 AI 시스템 감사를 설계하고 평가 지표를 탐구합니다.
- 한국 정부가 사용하는 AI 행정 시스템에 대한 감사 계획을 어떻게 설계할지 물어보세요.
- 모델 카드가 포함해야 하는 정보와 현재 업계 관행 사이의 간극을 탐구해보세요.
- AI 감사 결과를 일반 시민이 이해할 수 있도록 전달하는 방법에 대해 논의해보세요.
📋 모듈 테스트
모듈 3 전체 내용을 평가합니다. 15개 문항에 답하고 최종 점수를 확인하세요.
1. 우버 자율주행 사고에서 안전 운전자의 역할을 무력화한 핵심 요인은 무엇이었습니까?
2. 거짓 음성(False Negative)이 의료 진단 AI에서 특히 위험한 이유는 무엇입니까?
3. LLM이 환각(hallucination)을 일으키는 근본적인 설계적 원인은 무엇입니까?
4. 네덜란드 SyRI 시스템에 대한 헤이그 법원의 판결이 확립한 핵심 원칙은 무엇입니까?
5. 아마존이 2018년 채용 AI 프로젝트를 폐기한 이유는 무엇입니까?
6. '공정성 불가능성 정리'가 적용되는 조건은 무엇입니까?
7. COMPAS 재범 예측 AI 논쟁에서 프로퍼블리카와 노스포인트가 사용한 공정성 기준은 각각 무엇이었습니까?
8. 2010년 플래시 크래시에서 '서킷 브레이커' 강화가 해결하려 한 근본 문제는 무엇입니까?
9. 적대적 예제(adversarial example)가 블랙박스 공격으로도 생성될 수 있다는 사실이 보안에서 중요한 이유는 무엇입니까?
10. 영국 비자 심사 알고리즘에서 독립적 제3자 감사의 필요성을 가장 잘 보여주는 사실은 무엇입니까?
11. '자동화 편향(Automation Bias)'이 고위험 AI 시스템에서 특히 위험한 이유는?
12. RAG(Retrieval-Augmented Generation)와 기존 LLM의 차이점은 무엇입니까?
13. 젠더쉐이즈(Gender Shades) 연구에서 AI 편향의 피해가 가장 컸던 집단은 누구였습니까?
14. 데이터 포이즈닝(Data Poisoning)과 프롬프트 인젝션(Prompt Injection)의 공통점은 무엇입니까?
15. 굿하트의 법칙(Goodhart's Law)이 AI 개발 현장에서 가장 자주 나타나는 형태는 무엇입니까?