지능과 판단을 분리할 수 없음에 대한 불가능성: AI 정렬을 위한 필터링의 계산적 불가능성

발행일: 2026년 3월 3일 오전 12시 00분

대형 언어 모델(Large Language Models, LLMs)의 대규모 배포가 증가함에 따라 그들이 해로운 콘텐츠를 생성하는 데 잘못 사용될 수 있다는 우려가 있습니다. 저희 연구는 안전하지 않은 정보 생성을 방지하기 위한 필터링에 초점을 맞추었습니다. 입력 프롬프트가 모델에 도달하기 전에 필터링하고, 생성 후 출력을 필터링하는 것이 두 가지 자연스러운 개입 지점입니다. 저희의 주요 결과는 입력 프롬프트와 출력을 필터링하는 계산적 도전 과제를 보여줍니다. 먼저, 효율적인 프롬프트 필터가 없는 LLMs가 존재함을 보여줍니다: 적대적 프롬프트가 있어서 어떤 지능적인 필터도 입력이나 출력을 완전히 필터링하지 못하는 경우가 있습니다. 이에 대해 더 자세히 탐구하여, 효율적인 출력 필터가 없는 LLMs도 존재함을 보여줍니다. 이러한 결과들은 안전한 LLMs를 설계하고 실현하기 위한 중요한 도전 과제를 제시합니다.

출처: Apple

요약번역: 미주투데이 서현진 기자