대화형 언어 모델에서의 지속적인 편향: 프롬프트 이후의 차별

발행일: 2025년 10월 25일 오전 12시 00분

이전의 연구는 대형 언어 모델(LLM)의 편향이 적응된 모델로 전이되지 않는다는 편향 전이 가설(BTH)에 대한 위험한 가정을 제기했습니다. 하지만 이번 연구에서는 실제 응용 프로그램에서 널리 사용되는 프롬프트 사용을 통해 BTH를 연구함으로써 이 가정을 무효화합니다. 이 연구에서는 편향이 프롬프트를 통해 전이될 수 있음을 발견하였으며, 인기 있는 프롬프트 기반의 완화 방법이 편향이 전이되는 것을 일관되게 방지하지 못하는 것을 밝혔습니다. 특히, 이러한 편향은 대화형 언어 모델에서 계속해서 나타날 수 있음을 보여줍니다. 이러한 결과는 대형 언어 모델의 편향 문제를 해결하는 데 적용 가능한 새로운 방향을 제시합니다.

#인공지능

출처: Apple

요약번역: 미주투데이 서현진 기자