
Liquid AI가 LocalCowork를 발표했는데, 이는 LFM2-24B-A2B를 활용한 모델로, 기업 워크플로우를 기기 내에서 완전히 실행할 수 있도록 해준다. API 호출과 데이터 이탈을 없애 프라이버시에 민감한 환경에서 사용된다.

Liquid AI가 LocalCowork를 발표했는데, 이는 LFM2-24B-A2B를 활용한 모델로, 기업 워크플로우를 기기 내에서 완전히 실행할 수 있도록 해준다. API 호출과 데이터 이탈을 없애 프라이버시에 민감한 환경에서 사용된다.
구글 워크스페이스 API를 애플리케이션과 데이터 파이프라인에 통합하는 것은 REST 엔드포인트, 페이지네이션, OAuth 2.0 흐름을 처리하는 보일러플레이트 코드를 작성해야 하는데, 구글 AI 팀이 ‘gws’ CLI 도구를 공개했다. 이 오픈소스 도구는 Google Workspace를 위한 통합된 동적 명령줄 인터페이스를 제공한다.

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 ‘에이전틱’ AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

Mistral AI가 최신 OCR 서비스인 Mistral OCR 3를 출시했다. 이 모델은 PDF 및 기타 문서에서 교차된 텍스트와 이미지를 추출하고 구조를 보존하는 데 사용되며, 1,000 페이지 당 $2의 저렴한 가격에 이를 수행한다.
Microsoft이 VibeVoice-Realtime-0.5B를 발표했다. 실시간 텍스트 음성 변환 모델은 에이전트 스타일 애플리케이션과 실시간 데이터 내레이션을 위해 설계되었으며, 약 300ms 안에 청취 가능한 음성을 생성할 수 있다.

Moonshot AI와 Tsinghua 대학의 연구진은 대규모 추론 모델에 대한 강화 학습이 매우 긴, 매우 느린 롤아웃에 멈추지 않도록하고 GPU가 under used 상태에서 어떻게 유지할 수 있는지에 대한 새로운 온라인 콘텍스트 학습 시스템 ‘Seer’를 소개했다.

Meta AI 팀이 Meta Segment Anything Model 3 또는 SAM 3을 공개했다. SAM 3은 간단한 프롬프트를 사용하여 대규모 이미지 및 비디오 컬렉션에서 모든 개념의 인스턴스를 신뢰성 있게 찾고 세분화하고 추적하는 데 사용되는 통합 기본 모델이다.
Zhipu AI가 GLM-4.6을 출시했다. 이 모델은 에이전틱 워크플로, 장기 맥락 추론, 실용적 코딩 작업에 초점을 맞추고 있으며, 입력 창을 20만 토큰으로 확장하고 12만 8천 토큰의 최대 출력을 제공한다. 이번 업데이트는 실용적 작업에서 효율적인 토큰 사용을 목표로 하며 로컬 배포를 위한 오픈 가중치도 함께 제공된다.
Sakana AI가 과학 및 공학 문제를 위해 프로그램을 진화시키기 위해 대형 언어 모델(LLMs)을 사용하는 오픈 소스 프레임워크인 ShinkaEvolve를 공개했다. 평균적인 해를 얻기 위해 필요한 평가 횟수를 현저히 줄이면서 새로운 SOTA를 보고했다.
구글은 “Chrome DevTools MCP”의 공개 미리보기를 출시했는데, 이는 AI 코딩 에이전트가 실제 Chrome 인스턴스를 제어하고 검사할 수 있는 Model Context Protocol (MCP) 서버로, 성능 추적 기록, DOM 및 CSS 검사, JavaScript 실행, 콘솔 출력 읽기, 사용자 흐름 자동화 등이 가능하다.
알리바바의 큐윈 팀이 새로운 Qwen3-Next-80B-A3B 모델을 위한 FP8-양자화된 체크포인트를 공개했으며, Instruct 및 Thinking 두 가지 후 학습 변형으로 고성능 추론을 위해 설계되었습니다. 이 FP8 레포지토리는 BF16 릴리스를 반영하지만 “미세한 FP8” 가중치와 sglang 및 vLLM 신변 배포 노트가 포장되어 있습니다.
Qwen이 Qwen3-ASR-Toolkit을 출시했습니다. 이는 Qwen3-ASR-Flash API의 3분/10MB 제한을 우회하기 위해 VAD 인식 청킹, 병렬 API 호출, FFmpeg를 통한 자동 재샘플링/포맷 정규화를 수행하여 안정적이고 시간 기준의 전사 파이프라인을 제공합니다. Python ≥3.8이 필요하며, 설치 방법은 공식 사이트에서 확인할 수 있습니다.
IBM이 그래나이트 독링 258M을 공개했다. 이는 엔드 투 엔드 문서 변환을 위해 설계된 오픈소스 비전-언어 모델로, 레이아웃-정확한 추출을 목표로 함. 테이블, 코드, 수식, 목록, 캡션 및 읽기 순서를 처리하여 손실이 적은 Markdown이 아닌 구조화된 기계 판독 가능한 표현을 출력함.
LangExtract는 구글 AI의 새로운 오픈 소스 파이썬 라이브러리로, 비구조화된 텍스트 문서에서 의미 있는 정보를 추출하는 것을 목표로 한다. 이 라이브러리는 Gemini와 같은 LLMs를 사용하여 이러한 과제를 직접 해결한다.

OpenAI가 에이전트 SDK를 사용하여 도메인에 특화된 인공지능(AI) 에이전트를 구축하는 방법을 보여주는 새로운 다중 에이전트 고객 서비스 데모를 GitHub에 공개했습니다. 항공사 고객 서비스 챗봇 모델인 이 프로젝트는 다양한 여행 관련 쿼리를 처리할 수 있으며 요청을 전문 에이전트로 동적으로 라우팅합니다. Python 백엔드와 Next.js 프론트엔드로 구축되었습니다.

LLM으로 구동되는 AI 에이전트는 CRM과 같은 복잡한 비즈니스 업무를 처리하는 데 큰 잠재력을 보여준다. 그러나 실제 세계에서의 효과를 평가하는 것은 공개적이고 현실적인 비즈니스 데이터의 부족으로 어렵다. 기존의 벤치마크는 종종 간단한 일회성 상호작용이나 고객 서비스와 같은 좁은 응용에 초점을 맞추어 실제 업무를 놓치고 있다.

AWS가 Strands Agents SDK를 오픈 소스로 공개하여, AI 에이전트 개발을 다양한 분야에서 더 접근 가능하고 적응 가능하도록 만들었습니다. 모델 주도적 접근을 통해 복잡성을 추상화하여 지능적인 에이전트를 구축, 조정, 배포하는 작업을 쉽게 만들어줍니다.
Nari Labs가 Apache 2.0 라이센스로 1.6조 파라미터 TTS 모델 ‘Dia’를 공개하여 사용자 기기에서 리얼타임 음성 복제 및 표현력 있는 음성 합성을 가능케 함.