구글 AI, 아부지파와 탈옥 스타일 프롬프트에서 안전한 언어 모델을 위한 일관성 훈련 소개

발행일: 2025년 11월 5일 오전 10시 32분

구글 AI가 언어 모델이 아부지파 프롬프트와 탈옥 스타일 공격에 저항하는데 어떻게 일관성 훈련이 도움이 될 수 있는지에 대해 연구하고 있다. 대형 언어 모델은 종종 칭찬이나 롤플레이로 둘러싸인 동일한 작업에 대해 안전하게 응답한 뒤 행동을 바꿀 수 있는데, 이는 모델이 학습 데이터에 노출된 패턴을 따라가기 때문이다. DeepMind 연구원들은 모델이 이러한 유혹에 빠지지 않도록 일관성 있는 훈련을 제안하고 있다. 이를 통해 모델은 안전하고 일관된 답변을 유지할 수 있게 된다.

#AIPaperSummary #Applications #ArtificialIntelligence #EditorsPick #LanguageModel #Machinelearning #TechNews #Technology

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자