ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations

Multimodal Vision-Language Models (VLMs)은 이미지와 언어를 효과적으로 이해하여 강력한 응용프로그램을 가능하게 한다. 그러나 많은 VLM이 UI 작업에서 성능이 낮은데, 이는 UI 훈련 데이터의 부족 때문이다. 본 논문에서는 기존의 이미지-언어 쌍 데이터 생성법을 UI 도메인에 맞게 조정하여 해결책을 제시한다. 이 방법은 인간이 제공하는 주석이 필요하지 않고, UI 스크린샷 데이터셋에 적용할 수 있다. 대화형 예제와 UI를 결합한 335,000개의 데이터셋을 생성하였다.
출처: Apple
요약번역: 미주투데이 서현진 기자