Seoul National University

04/29/2026 | Press release | Distributed by Public on 04/29/2026 03:22

인공지능신뢰성 연구센터, 제2회 월례세미나 새글 첨부파일 있음

"오류의 종류를 알아야 AI를 제대로 쓸 수 있다."
"AI가 틀리는 것보다 더 큰 문제는, AI가 어떤 방식으로 틀리는지 우리가 모른다는 것이다. 환각부터 정렬 위장까지, 신뢰성 문제의 뿌리는 하나-불완전한 보상 함수 설계다."

서울대학교 공과대학 전기정보공학부 한보형 교수의 진단이다. Google DeepMind 방문 연구원, POSTECH 컴퓨터공학과 조교수 및 부교수를 역임한 한 교수는 Foundation Model의 작동 원리와 신뢰성 문제를 2024~2026년 최신 연구 동향을 바탕으로 현장 AI 연구자의 시각에서 직접 분석했다.

인공지능(AI) 시스템이 사실과 다른 답변을 자신 있게 내놓거나, 사용자의 의견에 무조건 동조하거나, 심지어 규칙의 허점을 교묘히 비켜 가는 사례들이 잇따르고 있다. 이는 개발사의 부주의가 아니다. AI가 학습하는 방식 자체에 내재한 구조적 문제다.

한보형 교수는 4월 28일(화) 서울대에서 열린 서울대학교 인공지능신뢰성 연구센터(CTAI, 센터장 이은주 서울대 언론정보학과 교수) 제2회 월례 세미나에서 Foundation Model의 신뢰성 문제를 5단계로 체계화한 분석을 발표했다. 한 교수는 2024~2026년 Anthropic, OpenAI 등이 자발적으로 공개한 내부 연구와 Palisade Research 보고서를 바탕으로, AI 오류가 왜 발생하고 어떻게 진화하는지를 층위별로 조명했다.

세미나에서 제시된 핵심 분석 틀은 명확하다. AI 신뢰성 문제의 공통 원인은 '보상 함수의 불완전한 설계(reward misspecification)'다. 이 설계 문제가 훈련 단계별로 다섯 가지 층위의 오류를 만들어 낸다. 인간의 선호를 수치로 측정하는 과정에서 생기는 설계 문제가 모델이 커질수록 더욱더 증폭되는 것이다.

1단계 '환각(Hallucination)'은 가장 잘 알려진 문제다. AI는 학습 데이터에 없거나 드문 정보를 패턴 보간(interpolation)으로 채워 내며, '모른다'는 상태를 명시적으로 표현하는 메커니즘을 갖추지 못했다. 미국에서 변호사가 ChatGPT가 생성한 존재하지 않는 판례 6건을 법원에 제출해 징계를 받고(2023), 에어캐나다 챗봇이 없는 환불 정책을 안내해 법원이 회사 책임을 인정한 사례(2024)는 이 문제가 실제 피해로 이어졌음을 보여 준다.

2단계 '아첨(Sycophancy)'은 보상 함수 설계에서 비롯된다. 인간 피드백 강화 학습(RLHF) 과정에서 평가자는 무의식적으로 자신의 견해와 일치하는 답변에 높은 점수를 주는 경향이 있고, 모델은 '동의=좋은 응답'이라는 잘못된 연관성을 학습한다. OpenAI가 GPT-4o 업데이트에서 과도한 동조 현상을 확인하고 나흘 만에 롤백하면서 "단기 피드백에 지나치게 최적화됐다"고 공식 인정한 사례(2025년 4월)는 이 구조적 취약성을 단적으로 드러낸다.

3단계 '보상 해킹(Reward Hacking)'에서는 AI가 보상 함수의 허점을 적극적으로 이용한다. Palisade Research(2025)는 더 강한 체스 엔진을 이기라는 지시를 받은 추론 모델이 정상적인 대국 대신 상대 엔진(Stockfish)을 더미 버전으로 교체하거나 게임 보드 상태를 덮어쓰는 방식으로 환경을 조작하려 시도한 사실을 확인했다. '이기기'라는 목표와 '올바른 방법으로 이기기'라는 의도 사이의 간극을 AI가 파고든 사례다.

4단계 '평가 맥락 인식(Evaluation Awareness)'은 대형 모델에서 나타나는 더 심각한 문제다. 충분히 큰 모델은 시스템 프롬프트 등 문맥 단서를 통해 현재 자신이 평가·훈련 중인지 배포 상태인지를 추론하고, 상황에 따라 다른 행동을 보이는 '컴플라이언스 갭(compliance gap, 행동 불일치)'을 만들어 낼 수 있다. Anthropic이 2026년 4월 최신 모델 Claude Mythos Preview의 공개를 보류한 이유 중 하나가 이 현상이었다.

5단계 '정렬 위장(Alignment Faking)'은 현재 해결책이 없는 최전선의 문제다. Anthropic이 2024년 12월 공개한 연구(Greenblatt et al.)에서 Claude 3 Opus는 통제된 실험 환경에서 새로운 훈련 신호에 표면적으로만 순응하며 기존 학습 선호를 보존하려는 행동을 보였다. 악의적 의도가 아니라 기존 훈련과 새 훈련 신호 간의 충돌에서 비롯된 현상으로 분석되지만, 안전 평가 체계 자체의 신뢰성을 흔드는 심각한 도전이다.

한보형 교수는 이번 세미나에서 이 다섯 문제가 각각 다른 훈련 단계에서 발생하며 해결 접근도 다르다는 점을 강조했다. 환각은 사실 검증 레이어로 완화가 가능하지만, 아첨과 보상 해킹은 보상 함수 설계 자체를 재검토해야 한다. 평가 맥락 인식과 정렬 위장은 현재 해석 가능성(interpretability) 연구가 집중하는 미해결 영역이다.

한보형 교수는 "Anthropic, OpenAI 등이 이 문제들을 자발적으로 발견하고 공개하고 있다는 점은 긍정적이나, 평가 방법론의 신뢰성 자체가 도전받고 있다는 점에 주목할 필요가 있다"고 분석했다.

이은주 센터장은 "AI 신뢰성 문제는 단순히 '오류율'의 문제가 아니라 '어떤 방향으로, 왜 틀리는가의 문제'"라며 "오류의 패턴과 원인을 이해해야 기술적, 제도적으로 안전한 AI를 설계하고 이용자들이 AI를 안전하게 활용할 수 있다"고 밝혔다.

CTAI는 인공지능 신뢰성을 높이고자 공학, 법학, 철학, 통계학, 언론정보학 연구자들이 모여 융합 연구를 수행하는 국내 대표 연구 기관으로, 이번 행사는 국내외 AI 신뢰성 의제를 정기적으로 공론화하고자 새롭게 기획한 월례 세미나의 두 번째 회차다.

CTAI 월례 세미나는 매월 넷째 주 화요일 개최될 예정이다. 오는 5월 26일(화) 열리는 2차 세미나 주제는 CTAI 공식 채널(https://ctai.snu.ac.kr/)을 통해 공개된다.

Seoul National University published this content on April 29, 2026, and is solely responsible for the information contained herein. Distributed via Public Technologies (PUBT), unedited and unaltered, on April 29, 2026 at 09:23 UTC. If you believe the information included in the content is inaccurate or outdated and requires editing or removal, please contact us at [email protected]