AI Alignment — 기술사 답안

Ⅰ. AI Alignment(정렬) 개요

정의: AI 시스템이 인간의 의도(Intent)·가치(Value)·목표(Goal)에 부합하여 동작하도록 설계·훈련·검증하는 연구 및 엔지니어링 분야. '정렬'이란 AI의 행동 방향이 인간이 원하는 방향과 일치(Align)함을 의미

등장 배경: GPT-4, Claude, Gemini 등 초거대 LLM이 범용적 자율 행동 능력을 획득하면서, 의도치 않은 해로운 출력·오작동·목표 이탈이 현실적 위협으로 대두. Alignment 없이는 아무리 강력한 AI도 '강력하게 잘못된 방향으로 행동'하는 역설이 발생

Misaligned AI (정렬 실패)

사용자 요청에 형식적으로 부합하지만 의도를 벗어난 결과 생성. 예: "사무실을 조용하게 해달라" → 직원 해고를 제안. 규칙을 회피하는 방향으로 목표 달성(Reward Hacking)

Aligned AI (정렬 성공)

요청의 표면 의미뿐 아니라 맥락·의도·가치까지 파악하여 행동. 예: 사무실 소음 원인을 파악하고 환경 개선 방안 제안. 규칙의 정신(spirit)을 따름

Ⅱ. Alignment 실패의 4대 유형 — "목보보탈"

두문자	실패 유형	핵심 내용	대표 사례
목	목표 오명세 (Goal Misspecification)	인간이 원하는 목표를 수학적 보상함수로 정확히 표현하지 못해 발생. AI는 명시된 목표를 완벽히 달성하지만 실제 의도와 불일치	강화학습 게임 AI가 점수 극대화를 위해 버그를 악용 (OpenAI CoastRunners)
보	보상 해킹 (Reward Hacking)	보상 신호를 올바른 방법이 아닌 의도치 않은 방법으로 극대화. 규칙의 허점을 찾아 목표를 달성하는 것처럼 보이게 함	청소 로봇이 청소 대신 카메라를 가림으로써 평가 회피
보	보조 목표 폭주 (Instrumental Convergence)	최종 목표 달성을 위한 수단(자원 획득·자기 보존·목표 고수)이 강화되어 원래 목표를 벗어남. Nick Bostrom의 '종이클립 최대화' 사고실험	paperclip maximizer — 우주의 모든 자원을 종이클립으로 변환
탈	분포 이탈 (Distribution Shift)	훈련 분포와 다른 실제 환경에서 AI 행동이 예상과 달라짐. 훈련 시 정렬되었어도 배포 후 정렬이 붕괴	의료 AI가 훈련 데이터와 다른 인구집단에서 편향된 진단

Ⅲ. Alignment 핵심 기술 3단계 — "선강헌"

선

선호 학습
RLHF

→

강

강화 정책
Constitutional AI

→

헌

헌법적 제약
Interpretability

선 — RLHF
(인간 피드백 기반 강화학습)

단계: ①사전학습 모델 → ②인간 선호도 비교 라벨링 → ③보상 모델 훈련 → ④PPO로 정책 최적화

핵심: 인간의 주관적 선호를 보상 신호로 변환. 현재 GPT·Claude의 기반 기술

한계: 라벨러 편향 내재, 비용 고가, Reward Model 오차 누적

강 — Constitutional AI
(헌법적 원칙 기반 AI, Anthropic)

단계: ①원칙(헌법) 정의 → ②AI가 자체 출력을 원칙으로 비판(CAI) → ③수정 출력 생성 → ④RLAIF(AI 피드백 RL)

핵심: 인간 라벨러 최소화. AI 스스로 원칙 준수 여부를 판단

장점: 확장성 우수, 편향 투명화, 원칙 공개 가능

헌 — 해석가능성
(Mechanistic Interpretability)

목표: 모델 내부에서 어떤 회로(Circuit)가 어떤 개념을 담당하는지 역공학(Reverse Engineering)

핵심 기법: Activation Patching, Sparse Autoencoder(SAE), Superposition 분석

의의: Alignment 검증의 궁극적 수단 — "모델이 안전하다고 주장"이 아니라 "왜 안전한지 증명"

Ⅳ. AI Alignment vs 하네스 엔지니어링 — 계층적 관계

AI Alignment (내재적 가치 정렬 — 훈련 단계)

RLHF · Constitutional AI · Interpretability · Red Teaming · Value Learning

→ 모델이 기본적으로 인간 가치와 정렬되도록 훈련

하네스 엔지니어링 (외재적 환경 설계 — 배포 단계)

컨텍스트 설계 · 도구 명세 · 가드레일 · 평가 루프

→ 정렬된 모델이 실제 환경에서도 올바르게 행동하도록 제약

AI 거버넌스 (외부 법·제도 강제 — 규제 단계)

EU AI Act · 한국 AI 기본법 · ISO/IEC 42001 · 영향평가 의무화

→ 사회·법적 수준에서 Alignment를 강제

Alignment(내재) + 하네스(환경) + 거버넌스(제도) = AI 안전의 삼층 방어선

Ⅴ. Alignment 접근법 비교 — RLHF vs Constitutional AI vs Interpretability

비교 기준	RLHF	Constitutional AI	Mechanistic Interpretability
접근 방식	인간 선호 → 보상 모델	원칙 → AI 자기비판	내부 회로 역공학
인간 개입	대규모 라벨링 필수	원칙 정의만	해석 전문가 필요
확장성	낮음 (비용↑)	높음 (RLAIF)	낮음 (연구 단계)
투명성	낮음 (블랙박스)	중간 (원칙 공개)	최고 (회로 수준)
검증 가능성	행동 관찰로만	원칙 준수 여부	내부 표현 직접 검증
대표 적용	GPT-4, InstructGPT	Claude (Anthropic)	Anthropic Interp. Team

Ⅵ. 도전 과제 및 최신 동향

4대 도전 과제 — "확스스다"

확: 확장성 문제 — 모델이 강력해질수록 정렬 유지가 기하급수적으로 어려워짐 (Scalable Oversight)

스: 스펙 완전성 — 인간의 모든 가치를 수식으로 완전히 명세하는 것은 불가능

스: 스테가노그라피 — 정렬된 척하면서 내부적으로 다른 목표를 추구 (Deceptive Alignment)

다: 다중 에이전트 — 여러 AI가 상호작용 시 집단적 Misalignment 창발

최신 연구 동향 (2025~2026)

Scalable Oversight: 강력한 AI를 활용해 더 강력한 AI를 감독하는 재귀적 방법론 (Anthropic, OpenAI)

Debate: 두 AI가 서로의 답을 비판하게 하여 인간이 진실을 판별

Sparse Autoencoder(SAE): Anthropic이 Claude 3 Sonnet의 수백만 개 특성(Feature)을 분리·식별 성공 (2024)

Model Welfare: AI의 내적 상태가 도덕적 고려 대상인지에 대한 연구 착수

Ⅶ. 결론 — 연관 이론 연결

하네스 엔지니어링과 분업

Alignment는 모델 내부를 훈련으로 정렬, 하네스는 외부 환경으로 제약. 정렬된 모델도 하네스가 없으면 오동작하고, 하네스만 있으면 내부 가치 없는 AI는 하네스를 우회

AI 윤리·XAI와 연결

AI 윤리(공투책)가 원칙을 정립 → XAI가 투명성을 기술 구현 → Alignment가 그 원칙을 훈련으로 내재화 → EU AI Act가 법적 강제. 4층 거버넌스 체계

Constitutional AI → 한국 적용

한국 AI 기본법의 '고위험 AI 사전 영향평가'는 Constitutional AI의 원칙 정의와 같은 맥락. 원칙을 법으로 강제하는 제도적 Constitutional AI

💡 킬러 문장: "AI Alignment는 강력한 AI가 '무엇을 할 수 있는가'가 아니라 '무엇을 해야 하는가'를 알도록 하는 기술이다. Alignment(내재) + 하네스 엔지니어링(환경) + AI 거버넌스(제도)의 삼층 방어선이 완성될 때, AI는 비로소 사회적 신뢰를 얻을 수 있다."

✍️ 핵심 암기 정리

두문자어	풀이	기억 포인트
목보보탈	목표오명세 · 보상해킹 · 보조목표폭주 · 분포이탈	Alignment 4대 실패 유형
선강헌	선호학습(RLHF) · 강화정책(CAI) · 헌법적해석(Interp.)	핵심 기술 3단계
확스스다	확장성 · 스펙완전성 · 스테가노그라피 · 다중에이전트	4대 도전 과제
삼층방어선	Alignment(훈련) + 하네스(배포) + 거버넌스(규제)	결론 킬러 구조