2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
AdaBoN: 적응형 Best-of-N 정렬
발행일: 2026년 1월 9일 오전 12시 00분

최근의 연구에서는 Best-of-N 샘플링과 같은 테스트 시간 정렬 방법이 보상 모델(RM)을 사용하여 언어 모델(LM)을 선호하는 행동으로 이끌어내는 간단하고 효과적인 방법을 제공한다. 그러나 이러한 방법은 정렬 난이도의 차이를 고려하지 않고 프롬프트 전반에 균일하게 적용할 때 계산 비용이 많이 발생할 수 있다. 이 연구에서는 Best-of-N 정렬에 대한 프롬프트 적응형 전략을 제안하며 추론 시간 계산을 더 효율적으로 할당한다. 지연시간 문제에 대한 동기부여를 받아 우리는 두 단계 알고리즘을 개발했다. 초기 탐색 단계는 정렬 난이도 추정을 수행하고, 두 번째 단계는 탐색 단계에서 얻은 정보를 활용하여 정렬을 수행한다. 이를 통해 프롬프트에 대한 개별화된 정렬을 효과적으로 수행할 수 있으며, 계산 비용을 줄일 수 있다. 또한, 이 방법은 일반적인 정렬 알고리즘보다 빠른 속도를 제공하며, 정렬 정확도를 향상시킨다.

<Apple 뉴스 본문 전체읽기>

출처: Apple
요약번역: 미주투데이 서현진 기자