Garak를 사용하여 LLM 안전성을 평가하고 스트레스 테스트하는 멀티턴 크레센도 레드팀 파이프라인 구축 방법
이 튜토리얼에서는 Garak를 사용하여 대화 압력을 점진적으로 가하면서 대형 언어 모델의 행동을 평가하는 멀티턴 크레센도 스타일의 레드팀 하네스를 구축한다. 우리는 사용자 정의 반복 프로브와 가벼운 탐지기를 구현하여 모델이 현실적인 에스컬레이션 패턴을 시뮬레이션하는데 도움을 준다. 이 패턴은 무해한 프롬프트가 천천히 민감한 요청으로 전환되는 것을 모방한다. 그리고 모델이 안정을 유지하는지 평가한다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자