OpenAI, GDPval 소개: AI의 실제 경제적 가치 작업 측정하는 새평가 스위트
OpenAI가 GDPval을 소개했다. 이 새로운 평가 스위트는 AI 모델이 44가지 직업과 9개의 GDP 지배적 미국 부문에서 어떻게 수행되는지를 측정하도록 디자인되었다. GDPval은 학술적 벤치마크와는 달리 진짜 작업물인 프레젠테이션, 스프레드시트, 간단한 보고서, CAD 아티팩트, 오디오/비디오 등을 직업 전문가들이 눈가리개를 쓰고 짝지어 비교하는 방식으로 평가된다. OpenAI는 또한 220가지 작업의 “골드” 하위 집합을 공개했다. 이러한 노력은 AI 모델의 실제 성능을 측정하고 더 나은 결과를 이끌어내기 위한 것이다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자