StepFun AI가 Step-Audio 2 Mini를 공개: GPT-4o-Audio를 능가하는 오픈 소스 8B Speech-to-Speech AI 모델

발행일: 2025년 9월 1일 오전 2시 55분

StepFun AI 팀은 Step-Audio 2 Mini를 발표했습니다. 이 모델은 8B 파라미터 음성 대 음성 대형 오디오 언어 모델(LALM)로, 표현력이 풍부하고 현실적이며 실시간 오디오 상호 작용을 제공합니다. Apache 2.0 라이선스로 공개된 이 오픈 소스 모델은 음성 인식, 오디오 이해, 음성 대화 벤치마크 등에서 최첨단 성능을 달성하여, GPT-4o-Audio와 같은 상용 시스템을 능가했습니다. 이 모델은 향상된 음성 기술을 통해 음성 인식 및 대화 기능을 향상시키고, 사용자 경험을 향상시키는 데 기여할 것으로 기대됩니다.

#AI논문요약 #기술 #음성인공지능 #인공지능 #테크뉴스

출처: Mark Tech Post

요약번역: 미주투데이 김지호 기자