
구글이 Gemini Embedding 2를 발표했다. 이 모델은 텍스트 뿐만 아니라 이미지, 비디오, 오디오, 문서 등을 임베딩 공간으로 가져와 AI 개발자가 고차원 저장 및 교차 모달 검색 도전에 대처할 수 있도록 설계되었다.

구글이 Gemini Embedding 2를 발표했다. 이 모델은 텍스트 뿐만 아니라 이미지, 비디오, 오디오, 문서 등을 임베딩 공간으로 가져와 AI 개발자가 고차원 저장 및 교차 모달 검색 도전에 대처할 수 있도록 설계되었다.
FireRedTeam은 FireRed-OCR-2B를 발표했는데, 이 모델은 문서 구문 분석을 처리하기 위해 설계되었고, LVLM에서 발생하는 ‘구조적 환각’을 해결하는 데 사용된다.
구글이 Nano-Banana 2를 공개했다. 이 모델은 고급 주제 일관성과 초당 하위 4K 이미지 합성 성능을 특징으로 한다. 기술적으로는 Gemini 3.1 Flash Image로 지칭되며, 장치 내에서 완전히 유지되는 고품질 하위 초 이미지 합성을 지향한다.

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

Mistral AI가 새로운 Voxtral Transcribe 2 패밀리를 출시했다. 이 제품은 일괄 및 실시간 사용 사례로 깔끔하게 분리되는 2개 모델을 제공하며 비용, 지연 시간 및 배포 제약 조건을 고려하고 있다.

Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.

Black Forest Labs가 FLUX.2 [klein]을 출시했다. 이 모델은 대화형 시각 인텔리전스에 초점을 맞춘 소형 이미지 모델로, 텍스트에서 이미지로, 이미지에서 이미지로의 통합 아키텍처와 로컬 GPU부터 클라우드 API까지의 배포 옵션을 제공한다.

Google AI가 Gemma 3 기반의 55개 언어를 지원하는 오픈 기계 번역 모델인 TranslateGemma를 출시했다. 4B, 12B, 27B 파라미터 크기로 출시되었으며, 모바일부터 노트북, 단일 H100 GPU나 TPU 인스턴스까지 다양한 디바이스에서 동작 가능하다.

InstaDeep의 NTv3는 지역 모티프를 메가베이스 규모의 조절 가능한 시퀀스 생성과 함께 연결하는 모델로, 표현 학습, 기능적 트랙 및 유전체 주석 예측을 통합한다.
OpenAI가 GPT-5.2를 소개했다. ChatGPT 및 API에서 사용 가능한 이 모델은 전문 업무 및 장기 에이전트에 적합하며 3가지 변형이 있다. ChatGPT에서는 ChatGPT-5.2 Instant, Thinking, Pro을 사용할 수 있고, API에서는 gpt-5.2-chat-latest, gpt-5.2, gpt-5.2-pro이다.

NVIDIA 연구진이 ToolOrchestra를 발표했습니다. 이는 각 작업 단계마다 올바른 모델 또는 도구를 선택하는 AI 시스템을 어떻게 학습시킬 수 있는지에 대한 혁신적인 방법입니다.

Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.

구글 딥마인드는 복잡한 3D 게임 세계 안에서 얼마나 멀리 진화한 에이전트가 갈 수 있는지 테스트하기 위해 SIMA 2를 출시했다. SIMA 2는 이전의 명령 따르기 에이전트를 업그레이드하여 목표에 대한 추론, 계획 설명, 다양한 환경에서의 자가 플레이로부터 개선하는 제네시스 시스템을 도입했다.

Cerebras가 MiniMax-M2-REAP-162B-A10B를 발표했다. 이 모델은 MiniMax-M2에서 파생된 압축된 희소 Mixture-of-Experts (SMoE) 인과 언어 모델로, Router 가중 전문가 활성화 가지치기(REAP) 방법을 사용하여 전문가를 가지치기하고 코딩 에이전트 및 도구와 같은 배포 중심 워크로드의 메모리를 줄였다.
Generalist AI가 GEN-θ를 공개했습니다. 이 모델은 시뮬레이션에 의존하지 않고 혼돈스러운 로봇 데이터로부터 물리적 기술을 학습할 수 있는 싱글 모델을 어떻게 구축할 수 있는지 보여줍니다. GEN-θ는 인터넷 비디오나 시뮬레이션 대신에 고품질 원시 물리적 상호작용 데이터로 직접 훈련된 신체 기반 모델의 가족입니다.
Anthrogen은 Odyssey를 소개했는데, 이는 시퀀스 및 구조 생성, 단백질 편집, 조건부 설계를 위한 단백질 언어 모델로 1.2B에서 102B 파라미터의 범위를 갖추고 있다. 이 모델을 실제 단백질 설계 작업을 위한 전방향, 멀티모달 모델로 소개하며 API가 조기 액세스 중이라고 밝혔다.
NVIDIA AI가 강화 학습 사전 학습(RLP)을 소개했습니다. 이는 후속 학습이 아닌 사전 학습 단계에서 강화 학습을 적용하는 교육 목표입니다. 강화 학습을 다음 토큰 예측 전에 샘플링된 작업으로 취급하고 정보 획득에 대한 보상으로 보상합니다.
ServiceNow의 연구팀이 DRBench를 공개했다. 이는 공개 웹과 기업 내부 데이터를 종합적으로 활용해 보고서 작성을 요구하는 기업과제에 대한 “심층 연구” 에이전트를 평가하기 위한 벤치마크 및 실행 환경이다. DRBench는 기업 스타일의 다양한 워크플로우를 구현하여 에이전트가 파일, 이메일, 채팅 로그, 클라우드 저장소를 검색, 필터링 및 속성을 할 수 있도록 한다.
Meta AI가 Agents Research Environments (ARE)와 Gaia2를 소개했는데, ARE는 에이전트 작업을 만들고 실행하기 위한 모듈화된 시뮬레이션 스택이고, Gaia2는 GAIA의 후속 벤치마크로 동적인, 쓰기가능한 환경에서 에이전트를 평가한다. ARE은 응용 프로그램, 환경, 이벤트, 알림 및 시나리오에 대한 추상화를 제공하며, Gaia2는 ARE 상에서 실행되며 탐색 및 실행 이외의 능력에 초점을 맞춘다.
Neuphonic이 NeuTTS Air를 공개했는데, 이는 748M 파라미터(큐윈2 아키텍처)를 갖춘 오픈소스 텍스트 음성 변환 모델로, 클라우드 의존성 없이 CPU에서 실시간으로 실행될 수 있다. Apache-2.0 라이선스 하에 제공되며, 러너블 데모와 함께 제공된다.
알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.
OpenAI가 Pro 사용자를 위해 맞춤형 일일 브리핑을 제공하는 ChatGPT Pulse를 선보였다. 이 기능은 사용자의 채팅, 명시적 피드백, 캘린더/이메일과 같은 연결된 앱에서 정보를 수집하여 사용자 맞춤형 카드를 제공하며, ChatGPT를 요청 중심 도구에서 맥락을 이해하는 어시스턴트로 변화시킨다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.
AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.
알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.
Microsoft AI 연구소가 MAI-Voice-1과 MAI-1-Preview를 공식 발표하며 인공지능 연구 및 개발 노력의 새로운 단계를 마련했다. MAI-Voice-1과 MAI-1-Preview 모델은 음성 합성과 일반적인 언어 이해에 각각 고유한 역할을 지원한다.
2025년 8월 알리바바의 Qwen Team이 출시한 Qwen-Image-Edit는 20B-파라미터 Qwen-Image를 기반으로 고급 편집 기능을 제공한다. 이 모델은 시맨틱 편집(스타일 전이 및 새로운 시각 합성)과 외관 편집에서 뛰어나다.
NVIDIA가 유럽어용 Granary라는 최대 규모의 오픈소스 음성 데이터셋과 Canary-1b-v2, Parakeet-tdt-0.6b-v3 두 첨단 모델을 발표했다. 이는 특히 소수 언어에 대한 자동 음성 인식 및 음성 번역 분야에서 액세스 가능하고 고품질의 자원에 새 기준을 제시한다.

구글 딥마인드가 최근 발표한 GenAI 프로세서는 가벼운 오픈소스 파이썬 라이브러리로, 실시간 다중 모달 콘텐츠를 포함한 생성 AI 워크플로우의 조율을 간소화하는 데 사용된다. 이 라이브러리는 고급 AI 파이프라인을 구축하기 위한 고청량, 비동기 스트림 프레임워크를 제공한다.

신체화된 AI 에이전트는 물리적 또는 가상 형태로 존재하며 주변 환경과 상호 작용할 수 있는 시스템이다. 이들은 세계를 지각하고 의미 있는 행동을 취한다. 최근의 발전은 신체화가 된 AI 에이전트의 물리적 상호작용, 인간 신뢰, 인간과 유사한 학습을 향상시킨다.

Mistral AI가 All Hands AI와 협력하여 Devstral 2507 레이블 하에 개발자 중심 대형 언어 모델의 업데이트 버전을 출시했다. Devstral Small 1.1과 Devstral Medium 2507 두 모델은 대규모 소프트웨어 저장소에서 에이전트 기반 코드 추론, 프로그램 합성, 구조화된 작업 실행을 지원하기 위해 설계되었으며 성능에 최적화되어 있다.

바이트댄스가 대형 언어 모델(LLM)을 활용한 일반 목적 소프트웨어 엔지니어링 에이전트 ‘Trae Agent’를 공식 출시했다. 복잡한 프로그래밍 작업을 자연어 프롬프트를 통해 실행할 수 있는 Trae Agent는 뛰어난 성능과 확장성을 제공하는 명령줄 인터페이스(CLI)를 제공하여 개발자들이 소프트웨어와 상호 작용하는 방식을 새롭게 정의한다.

연구원들이 OctoThinker를 제안하여 강화 학습을 통한 복잡한 추론 작업에 대한 LLM의 발전을 제안했다. CoT 프롬프팅과 대규모 강화 학습을 결합한 LLM은 Deepseek-R1-Zero와 같은 모델이 기본 모델에 직접 RL을 적용함으로써 강한 추론 능력을 보여주었다.

수학 문제 해결과 상징적 추론과 같은 분야에서 확장 가능한 추론 모델의 필요성이 높아지고 있다. 이러한 모델은 다단계 계산과 논리적 추론을 수행하도록 설계되어 종종 인간의 추론 과정을 모방한 솔루션을 생성한다. 이 글에서는 효율적인 수학 및 논리 추론을 위한 사후 훈련 강화 학습 기술인 Polaris-4B와 Polaris-7B에 대해 소개한다.

Embodied AI의 3D 환경을 확장하는 과제. 현실적이고 정확한 3D 환경은 Embodied AI의 교육과 평가에 중요하다. 현재의 방법은 비용이 많이 들고 현실감이 부족해 확장성과 일반화를 제한한다. EmbodiedGen은 이러한 문제를 해결하기 위해 개발되었다.

AI 필름 제작자와 첨단 생성 비디오 모델이 협력하여 국내 TV 광고를 제작하고, 제작 비용을 95% 절감했다. 광고와 AI 분야에 있어서 의미 있는 순간.

Anthropic이 새로운 언어 모델인 클로드 오퍼스 4와 클로드 소넷 4를 출시했다. 이 업데이트는 클로드 모델 패밀리의 기술적 세련성을 대폭 향상시켰는데, 특히 구조화된 추론, 소프트웨어 엔지니어링 및 자율 에이전트 행동과 관련된 영역에서 주목할만한 발전을 이루었다.

언어 모델의 구조적 트레이드오프를 다루는 기술. 트랜스포머 아키텍처의 성능과 효율성을 균형 있게 유지하면서 장문맥 시나리오에서의 계산 복잡성을 줄이는 방법에 대한 논의.

기존 생성 모델은 대규모 고품질 데이터셋에 의존하는데, Meta AI가 발표한 역순 샘플링 기술은 이를 극복하고 데이터 부족 상황에서도 보상 주도적 생성 모델링을 가능하게 합니다.

구글이 NotebookLM 모바일 앱을 출시했다. 이 앱은 사용자의 포켓으로 맞춤 학습과 콘텐츠 통합을 제공하며 이동성, 문맥 인식 및 상호 작용 기능을 결합한 새로운 기능을 소개했다.

연구는 강화 학습이 LLM의 추론 능력을 향상시킬 수 있다는 최근 발전을 기반으로, 오디오 LLMs를 개선하는 것을 목표로 한다. MMAU 벤치마크는 소리, 음성에 관한 객관식 질문을 포함한 데이터셋으로 이 모델들을 평가하는 데 사용된다.

텍스트에서 오디오 생성 기술이 음악 제작, 게임, 가상 경험 등에서 혁신적인 방법으로 부각되고 있으며, 이 기술은 일반적으로 확산 또는 정류된 플로우와 같은 가우시안 플로우 기반 기법을 활용하여 구조화된 오디오로의 점진적인 전환 단계를 모델링한다.

소프트웨어 문제의 정확한 위치를 식별하는 것은 개발 생애주기에서 가장 인력 집약적인 작업 중 하나이다. 자동화된 패치 생성과 코드 어시스턴트의 발전에도 불구하고, 코드베이스에서 변경이 필요한 위치를 파악하는 프로세스는 종종 수정 방법보다 더 많은 시간을 소비한다.

NVIDIA AI는 오디오 확산 모델을 도입하여 텍스트에서 3D 및 이미지 편집을 지원한 Score Distillation Sampling (SDS)을 활용해 오디오 합성 및 소스 분리 작업을 효율적으로 수행한다. 특별한 데이터셋이 필요하지 않고 명시적이고 해석 가능한 매개변수를 조정할 수 있는 모델이 필요한데, 이를 통해 음악, 효과음 등의 고품질 소리를 생성할 수 있다.

바이트댄스가 DeerFlow를 공개했는데, 이는 대형 언어 모델(Large Language Models)의 기능을 도메인별 도구와 통합하여 복잡한 연구 워크플로우를 향상시키는 오픈소스 멀티 에이전트 프레임워크이다. DeerFlow는 LangChain과 LangGraph 위에 구축되어 정보 검색부터 다중 모달 콘텐츠 생성까지 협력적인 인간 중심 환경에서 고급 연구 작업을 자동화하는 구조화된, 확장 가능한 플랫폼을 제공한다.

기업 환경에서의 언어 처리는 점점 다양한 소스에서 정보를 종합해야 하는 문제에 직면하고 있습니다. 최근 대형 언어 모델의 발전은 놀라운 능력을 제공하지만, 매우 높은 비용, 하드웨어 업그레이드 요구와 같은 부작용도 동반됩니다.

Ming-Lite-Uni는 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 이해하고 생성하는 멀티모달 AI 시스템을 구축하는 데 사용되는 오픈소스 프레임워크이다. 이는 다양한 상호작용 형식을 통해 보다 원활한 인간-인공지능 커뮤니케이션을 가능하게 한다.
대형 언어 모델의 사전 훈련 효율과 일반화는 기본 훈련 말뭉치의 품질과 다양성에 크게 영향을 받는다. 전통적인 데이터 정제 파이프라인은 종종 품질 필터링 다음에 도메인 균형을 적용하여 품질과 다양성을 분리된 목표로 취급한다. 이러한 순차적 최적화는 이러한 요소들 간의 복잡한 상호 의존성을 간과한다. 고품질 데이터셋은 종종…
Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.
Firecrawl Playground은 사용자 친화적 인터페이스로 웹 데이터 추출 및 스트리밍을 간소화하며, 개발자와 데이터 전문가들이 다양한 추출 방법을 통해 API 응답을 탐색하고 미리 볼 수 있게 합니다.