
OpenAI는 심포니를 공개했습니다. 이는 구조화된 ‘실행’을 통해 자율 AI 코딩 에이전트를 관리하기 위한 오픈 소스 프레임워크로, 이 프로젝트는 이슈 트래커를 LLM 기반 에이전트에 연결하여 소프트웨어 개발 작업을 자동화하는 시스템을 제공합니다. 시스템 아키텍처는 Elixir 및 BEAM을 사용합니다.

OpenAI는 심포니를 공개했습니다. 이는 구조화된 ‘실행’을 통해 자율 AI 코딩 에이전트를 관리하기 위한 오픈 소스 프레임워크로, 이 프로젝트는 이슈 트래커를 LLM 기반 에이전트에 연결하여 소프트웨어 개발 작업을 자동화하는 시스템을 제공합니다. 시스템 아키텍처는 Elixir 및 BEAM을 사용합니다.

Anthropic사는 Claude 4.6 Sonnet을 발표하여 개발자와 데이터 과학자가 복잡한 논리를 다루는 방식을 변화시키고, 내부 코드 실행을 통해 실시간으로 사실을 확인하는 기능을 갖춘 Improved Web Search를 함께 선보였다.

Nous Research는 NousCoder-14B를 소개했는데, 이는 Qwen3-14B에서 강화학습을 통해 후훈련된 경쟁 프로그래밍 모델이다. LiveCodeBench v6 벤치마크에서 Pass@1 정확도가 67.87%로, Qwen3-14B의 7.08% 높았다.
Zlab Princeton 연구진이 대형 언어 모델을 위한 주요 가지치기 알고리즘을 하나로 통합한 LLM-Pruning Collection을 발표했다. 이 프레임워크는 블록 수준, 레이어 수준 및 가중치 수준 가지치기 방법을 일관된 훈련 및 평가 스택에서 GPU 및 CPU에서 비교하기 쉽게 만든다.

알리바바 통이 연구소는 MAI-UI를 발표했다. MCP 도구 사용, 에이전트 사용자 상호작용, 장치-클라우드 협업, 온라인 강화학습을 기반으로 한 MAI-UI는 일반 GUI 기반 및 모바일 GUI 탐색에서 최첨단 결과를 달성했다. Gemini-2.5-Pro, Seed1.8 및 UI-Tars-2를 능가하며 초기 GUI 에이전트가 종종 무시하는 세 가지 특정 간극을 대상으로 한다.

메타 AI 연구원들이 소개한 매트릭스는 현대 AI 모델을 위해 합성 데이터를 신선하고 다양하게 유지하는 방법을 제시하는데, 단일 조율 파이프라인을 병목 현상으로 만들지 않고, 분산된 대기열을 통해 메시지로 직렬화된 제어와 데이터 흐름을 구현한 분산 프레임워크이다.
음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.
AI2가 공개한 OLMoASR은 OpenAI의 Whisper와 경쟁하는 오픈 ASR 모델 스위트로, 모델 가중치 외에도 훈련 데이터 식별자, 필터링 단계, 훈련 레시피, 벤치마크 스크립트를 공개하여 ASR 분야에서 이례적으로 투명한 움직임을 보이고 있다.
Google이 Datalog를 확장한 새 오픈소스 프로그래밍 언어 ‘Mangle’을 소개했다. Go 라이브러리로 구현된 Mangle은 여러 다른 소스에 퍼져있는 데이터에 대한 쿼리 및 추론 작업을 간단하게 만들기 위해 설계되었다. 이 릴리스는 개발자와 보안 분야에서 점점 더 커지는 도전에 대응한다.
NVIDIA의 최신 릴리스인 Llama Nemotron Super v1.5은 추론 및 에이전틱 작업에 특히 뛰어난 성능과 사용성을 제공하여 모델이 어디까지 이끌 수 있는지에 대한 경계를 넘는 AI 발전을 이끌고 있다.

NVIDIA의 Audio Flamingo 3 (AF3)은 기계가 소리를 이해하고 추론하는 방식에 큰 발전을 이끌어냈다. 이전 모델들은 음성을 전사하거나 오디오 클립을 분류할 수는 있었지만, AF3는 음성, 주변 소리 등을 인간과 유사한 맥락에서 해석하는 능력을 갖췄다.

인셉션 랩스가 개발한 머큐리는 자동 코드 생성을 위한 확산 기반 언어 모델로, 기존의 자기 회귀 방식보다 빠른 속도로 작동한다. 이는 소프트웨어 개발 분야에서 혁신을 가져올 것으로 기대된다.

UC 버클리가 AI 도구의 확장된 기능과 대규모 소프트웨어 시스템에 대한 의존도 증가로 AI 분야에서 사이버보안이 중요해지면서 CyberGym을 소개했다. 새로운 프레임워크는 대규모 코드베이스에서 AI 에이전트를 평가하여 보안 측면에서 새로운 차원을 제공한다.

VeBrain은 로봇 팔과 다리로 등장하는 기계들이 주변 환경을 인식하고 상황을 해석하며 의미 있는 조치를 취할 수 있도록하는 ML 모델의 통합을 통해 로봇 공학 분야를 발전시키고 자율적인 기계로 나아가고 있다.

알케미스트는 텍스트-이미지(T2I) 생성 분야에서 일관된 출력 품질을 달성하는데 도움을 주는 감독 미세 조정 데이터셋으로, 대규모 사전 훈련만으로는 높은 품질과 정렬을 달성하기 어렵다는 도전에 대응한다. DALL-E 3, Imagen 3, Stable Diffusion 3과 같은 모델의 발전에도 불구하고, 미학적 및 정렬 측면에서 일관된 출력 품질을 달성하는 것은 여전히 과제다.

AI는 언어 처리, 수학, 코드 생성 분야에서 발전했지만 물리적 환경으로 확장하는 것은 여전히 어렵다. 물리 AI는 동적인 실제 환경에서 지각, 이해, 행동하는 시스템을 개발하여 이 간극을 줄이려고 한다. 텍스트나 기호를 처리하는 기존 AI와 달리 물리 AI는 주로 비디오와 같은 감각적 입력과 상호작용한다.

조지아텍과 스탠포드 대학 연구진이 MLE 작업의 자동화를 탐구하고, AI 에이전트를 활용하여 엔드 투 엔드 워크플로우를 효율적으로 조율하는 데 어려움을 겪는 과제를 처리하는 것을 연구했다.

OpenAI가 262명 의사와 협력하여 개발한 HealthBench는 대형 언어 모델의 성능과 안전성을 현실적인 의료 시나리오에서 측정하는 오픈소스 평가 프레임워크이다. 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다.

구글이 연례 I/O 개발자 컨퍼런스 직전에 플래그십 AI 모델인 Gemini 2.5 Pro (I/O 에디션)의 초기 미리보기를 공개했다. 이번 버전은 코딩 정확도, 웹 애플리케이션 생성, 비디오 이해 등에서 상당한 향상을 이루었으며, GPT-4 Turbo를 앞서는 성능을 보여주고 있다.