대형 언어 모델(LLM)은 수학, 논리, 기획, 코딩 등의 추론 작업에서 상당한 주목을 받았다. 그러나 이러한 모델을 실제 상황에 적용할 때 중요한 도전 과제가 발생한다. 현재의 구현은 대부분 필요한 모든 정보가 명확하게 제공된다는 가정 하에 작동하지만, 현실은 종종 불완전하거나 모호한 상황을 제시한다.
최신뉴스 전체보기
Microsoft Research가 MMInference를 소개하여 장문 맥락 비전-언어 모델의 사전 채우기 속도를 가속화했다. 이는 로봇공학, 자율 주행, 의료 분야에서 특히 성능을 향상시키는데 도움이 된다.
최근 대형 언어 모델의 발전으로 소프트웨어 코드를 생성, 수정, 이해하는 AI 기반 코딩 에이전트 개발이 가능해졌으나, 이러한 시스템의 평가는 주로 파이썬에 국한된 합성 또는 범위가 제한된 벤치마크로 제한되어 있습니다. AWS가 SWE-PolyBench를 소개하며 이 문제에 대처하고 있습니다.

대부분의 대형 언어 모델(LLMs)은 감독된 데이터 파이프라인에 근본적으로 의존하고 있지만, Tsinghua 대학과 상해 AI 연구소 연구진은 테스트 시간 강화 학습(TTRL)을 도입하여 레이블이 없는 데이터를 사용하여 자가 진화 언어 모델을 가능하게 했다. 이는 감독 없이 학습이 가능한 새로운 방법이다.
VoltAgent는 TypeScript 기반의 오픈 소스 프레임워크로, 모듈화된 빌딩 블록과 자율적인 에이전트를 위한 추상화를 제공하여 AI 주도 애플리케이션의 생성을 간소화합니다. 대규모 언어 모델 (LLMs), 도구 통합 및 상태 관리와 같은 복잡성을 다루기 위해 핵심 엔진을 제공합니다.

물리적 환경에서 신뢰성 있는 지능 시스템을 설계하는 것은 AI의 어려운 과제 중 하나이다. 기존 AI 시스템은 높은 수준의 표현에 의존하는 반면, 실제 세계는 잡음이 많고 예측할 수 없으며 추상화에 저항한다. 물리 지능 연구팀은 이러한 문제를 해결하기 위해 새로운 AI 프레임워크인 π-0.5를 소개했다.

인공지능을 활용한 재활용 로봇이 색상, 질감, 모양 및 로고의 패턴을 인식하여 재활용물을 분류하는 방법을 학습하고 있습니다.
Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.
구글이 Gemini API를 통해 접근 가능한 AI 모델인 Gemini 2.5 Flash를 소개했다. Gemini 2.0 Flash의 기초를 바탕으로 하면서 추론 능력을 향상시키고 속도와 비용 효율성에 중점을 둔다. Gemini의 주요 기능 중 하나는 조정 가능한 사고 예산과 하이브리드 추론이다.












