OpenAI, 생명과학 연구 평가를 위한 750개 작업 벤치마크 LifeSciBench 발표
OpenAI는 생명과학 연구의 실제 적용 가능성을 평가하기 위해 750개의 전문가 작성 작업으로 구성된 LifeSciBench를 발표했습니다. 이 벤치마크는 173명의 박사 과학자들이 참여하여 19,020개의 평가 기준을 마련하였으며, AI 모델의 단순한 기억력뿐만 아니라 추론과 결정 능력을 평가합니다. 현재 가장 우수한 모델인 GPT-Rosalind는 36.1%의 성공률을 기록하며, 여전히 개선의 여지가 많음을 보여주고 있습니다. 이 연구는 AI가 생명과학 분야에서 실제 문제를 해결하는 데 얼마나 효과적인지를 평가하는 중요한 기준이 될 것으로 기대됩니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자