AI2 연구진, 다양한 차원에서 평가를 향상시키는 ‘유동 벤치마킹’을 도입해 벤치마킹 게임을 바꾸고 있음
AI2 연구진은 Allen Institute for Artificial Intelligence (Ai2), 워싱턴 대학 및 CMU의 연구진으로 구성되어 있습니다. 이 연구진은 새로운 유동 벤치마킹 방법을 소개했습니다. 이 방법은 적응형 LLM 평가 방법으로, 정적 정확도를 2개 매개변수 IRT 능력 추정 및 Fisher 정보 기반 항목 선택으로 대체합니다. 이 방법은 모델의 현재 능력에 대해 가장 정보가 풍부한 질문만 하므로 더 부드러운 훈련 곡선을 제공하고 벤치마킹을 지연시킵니다. 이로써 모델의 성능을 여러 차원에서 향상시킬 수 있게 되었습니다. 이러한 연구 결과는 AI 기술 발전에 새로운 가능성을 제시하고 있습니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자