
OpenAI가 Codex Security를 소개했습니다. 이는 코드베이스를 분석하여 취약점을 확인하고 개발자가 수정 전에 검토할 수 있는 보안 에이전트입니다. 제품은 ChatGPT Enterprise, Business 및 Edu 고객을 대상으로 연구 미리보기로 롤아웃 중입니다.

OpenAI가 Codex Security를 소개했습니다. 이는 코드베이스를 분석하여 취약점을 확인하고 개발자가 수정 전에 검토할 수 있는 보안 에이전트입니다. 제품은 ChatGPT Enterprise, Business 및 Edu 고객을 대상으로 연구 미리보기로 롤아웃 중입니다.
구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.

Liquid AI가 LocalCowork를 발표했는데, 이는 LFM2-24B-A2B를 활용한 모델로, 기업 워크플로우를 기기 내에서 완전히 실행할 수 있도록 해준다. API 호출과 데이터 이탈을 없애 프라이버시에 민감한 환경에서 사용된다.
본 튜토리얼에서는 Tree-of-Thoughts(TOT) 다중 분기 추론 에이전트를 처음부터 구축한다. 선형 사고 체인 대신에 여러 추론 분기를 생성하고 각 분기를 휴리스틱 평가 함수로 점수를 매기며 약한 후보를 제거하고 가장 강력한 경로만 계속 확장하는 시스템을 설계한다.
이 튜토리얼에서는 EverMem-스타일의 영구적인 에이전트 OS를 구축하는 방법에 대해 알아본다. FAISS를 사용하여 짧은 기간의 대화적 맥락과 장기 기억 벡터를 결합하여 각 응답 생성 전 관련 과거 정보를 회상할 수 있게 한다. 의미 기억과 함께 SQLite에 구조화된 레코드를 저장하여 타임스탬프, 중요도 점수, 메모리 신호(선호도 등)와 같은 메타데이터를 영속화한다.
NullClaw는 Raw Zig로 완전한 스택 AI 에이전트 프레임워크를 구현하여 Python이나 Go와 같은 고수준 관리 언어에 의존하는 기존의 프레임워크와는 달리 런타임, 가상 머신, 가비지 컬렉터를 통해 상당한 오버헤드를 제거하고 있다.
이 튜토리얼에서는 LangGraph와 Pydantic을 활용한 고급 멀티 에이전트 통신 시스템을 구축한다. 공유 상태를 통해 에이전트들이 직접 호출하는 대신 통신할 수 있는 엄격한 ACP 스타일의 메시지 스키마를 정의하여 모듈화, 추적성, 그리고 생산용 오케스트레이션을 가능하게 한다. 세 가지 특수화된 에이전트를 구현한다.
본 튜토리얼에서는 오픈 소스 instruct 모델을 활용하여 계층적 플래너 에이전트를 구축한다. 이 구조화된 다중 에이전트 아키텍처에는 플래너 에이전트, 실행자 에이전트 및 집계자 에이전트가 포함되어 있으며 각 구성 요소가 복잡한 작업을 해결하는 데 특화된 역할을 수행한다. 플래너 에이전트를 사용하여 고수준 목표를 실행 가능한 단계로 분해한다.

Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.

Microsoft의 연구진은 CORPGEN을 소개했는데, 이는 계층적 계획과 메모리를 활용하여 자율형 디지털 직원을 통해 현실적인 조직 업무의 복잡성을 관리하는 데 사용되는 아키텍처에 중립적인 프레임워크이다. 기존의 AI 에이전트는 단일 작업에 대해 평가되지만, 실제 기업 환경에서는 복잡한 종속성을 가진 여러 작업을 동시에 처리해야 한다.
Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 ‘일시적 에이전트’에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.
Tailscale과 LM Studio가 LM Link를 소개했다. 이는 개인 GPU 하드웨어 자산에 암호화된 포인트 투 포인트 액세스를 제공하며, AI 개발자들에게 생산성을 높여준다.

최근 ETH 취리히 연구에서, AI의 ‘Context Engineering’이 중요한데 AGENTS.md 파일이 너무 상세해서 코딩 에이전트가 실패하는 것으로 밝혀졌다. 산업 리더들은 AGENTS.md를 코딩 에이전트의 최종 설정 지점으로 손꼽았는데, 이 파일이 복잡한 코드베이스를 안내하는데 있어 중요한 역할을 한다.

알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.

최근의 언어 모델은 대규모 문맥 창으로 한 번에 처리할 수 있는 정보량을 크게 증가시켰다. 수십만 개 또는 수백만 개의 토큰을 처리할 수 있는 모델들이 등장함에 따라 검색 보완 생성(RAG)은 더 이상 필요하지 않다고 가정하기 쉽지만, 선택적 검색이 모든 데이터를 프롬프트에 넣는 것보다 더 효율적이고 신뢰할 수 있다.
오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 ‘Shin Megami Boson’이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.

Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 ‘거친 계곡’을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.

구글 딥마인드가 음악 분야에서도 창의적 AI의 한계를 넓혔다. Lyria 3은 사진과 텍스트를 이용해 사용자 맞춤 트랙을 생성하는 고급 음악 생성 모델로, 복잡한 오디오 파형과 창의적 의도를 다루는데 큰 전환점을 제공한다.
구글이 투명 디스플레이를 위한 인터페이스 구축을 탐구한 결과물인 ‘Jetpack Compose Glimmer’를 소개했다. 이는 픽셀이 아닌 빛을 활용한 디자인 시스템으로, AI 안경을 위해 특별히 개발되었다.

Cohere AI Labs가 Tiny Aya를 발표했습니다. Tiny Aya는 70개 언어를 지원하며 3.35B-파라미터 아키텍처를 사용하여 최신 번역 및 생성 기능을 제공합니다. 이 릴리스에는 Tiny Aya Base(사전 훈련), Tiny Aya Global(균형 조정된 지시) 등 5가지 모델이 포함되어 있습니다.
Cloudflare가 Agents SDK v0.5.0을 출시했다. 새로운 버전은 상태 없는 서버리스 함수의 한계를 해결하고, 엣지 추론 성능을 최적화하기 위해 Rust 기반 Infire 엔진을 도입했다. 이를 통해 세션 컨텍스트를 다시 구축할 필요 없이 수직 통합된 실행 레이어를 제공하여 지연 시간과 토큰 소비를 줄였다.
구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, ‘에이전틱 웹’이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.
이 튜토리얼에서는 단기적인 채팅 상호작용을 넘어 지속적으로 학습하는 완전한 상태 기반 개인 튜터 에이전트를 구축한다. 사용자 선호도를 유지하고 학습의 약한 영역을 추적하며 응답 시 필요한 과거 콘텍스트만 선택적으로 회상하도록 시스템을 설계한다. 견고한 저장, 의미 검색 및 적응적 프롬프팅을 결합함으로써 우리는 어떻게 상태 기반 튜터 에이전트를 설계하는지 보여준다.
Moonshot AI가 OpenClaw 프레임워크의 기능을 브라우저로 직접 제공하기 시작했다. 새로운 Kimi Claw는 kimi.com에서 네이티브로 제공되며 개발자와 데이터 과학자에게 지속적인 24/7 AI 에이전트 환경을 제공한다. 이 업데이트로 프로젝트가 로컬 설정에서 클라우드 네이티브 강자로 이동했다.
nineninesix.ai 팀이 출시한 ‘Kani-TTS-2’는 효율성을 중시하는 새로운 오픈 소스 음성 생성 모델로, 작은 용량으로 고품질 음성 합성을 제공하며 음성 복제 기능을 지원한다.

OpenClaw는 자체 호스팅되는 개인 AI 어시스턴트로, WhatsApp, Telegram, Slack, Discord 등 기존에 사용하는 앱을 통해 통신합니다. 질문에 답변하고 작업을 자동화하며 파일 및 서비스와 상호 작용하며 지원되는 기기에서 말하거나 청취할 수 있습니다.
이 튜토리얼에서는, 에이전트를 위한 자기 조직화 메모리 시스템을 구축하는 방법에 대해 알아본다. 이 시스템은 대화 내용을 단순히 저장하는 것을 넘어 상호작용을 지속적이고 의미 있는 지식 단위로 구조화한다. 추론과 메모리 관리가 명확히 분리되어 있어 정보를 추출, 압축, 정리하는 전용 구성 요소를 허용한다.

Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.
이 튜토리얼에서는 Atomic-Agents 주변에 고급, end-to-end 학습 파이프라인을 구축하는 방법을 소개합니다. Typed 에이전트 인터페이스, 구조화된 프롬프팅, 프로젝트 문서에 기반을 둔 콤팩트한 검색 레이어를 함께 연결하여 실제 문서를 기반으로 출력을 정립하는 방법을 시연하고 있습니다. 또한 검색 계획을 수립하고 관련 컨텍스트를 검색하고 이를 동적으로 응답 에이전트에 삽입하고 상호 작용 루프를 실행하는 방법을 보여줍니다.
구글 리서치가 Natively Adaptive Interfaces (NAI)를 통해 접근성 있는 소프트웨어 구축 방법을 제안했습니다. NAI는 다중 모달 AI 에이전트가 주 사용자 인터페이스가 되어 응용 프로그램을 실시간으로 사용자의 능력과 문맥에 맞게 적응시키는 에이전틱 프레임워크입니다.
이 튜토리얼에서는 단일 프롬프트 호출이 아닌 프로덕션급 연구 및 추론 시스템처럼 행동하는 고급 에이전틱 AI 워크플로우를 구축한다. 웹 소스를 비동기적으로 수집하여 출처 추적 청크로 분할한 후 TF-IDF(희소)와 OpenAI 임베딩(밀집)을 활용한 하이브리드 검색을 수행하고 결과를 퓨전시켜 더 높은 검색률을 달성한다.

Anthropic사는 Claude Opus 4.6을 출시했다. 이 모델은 장기적인 콘텍스트 추론, 에이전트식 코딩 및 고가치 지식 작업에 중점을 둔 최신 모델이다. 이 모델은 클로드 API 및 주요 클라우드 제공업체에서 이용 가능하다.

NVIDIA가 VibeTensor를 공개했는데, 이는 딥러닝을 위한 오픈소스 연구 시스템 소프트웨어 스택이다. VibeTensor는 LLM 기반 코딩 에이전트에 의해 고수준의 인간 안내 아래 생성되었다. 이 시스템은 코딩 에이전트가 Python과 JavaScript API에서 C++ 런타임 구성 요소 및 CUDA 메모리 관리까지 포괄하는 일관된 딥러닝 런타임을 생성할 수 있는지에 대한 구체적인 질문을 제기한다.

구글의 Gemini 3 플래시에서 새로운 에이전틱 비전 기능인 Agentic Vision이 소개되었습니다. 기존의 이미지 처리 모델들과는 달리 이 기능은 이미지 이해를 더 활발하게 수행하며 시각적 기반의 액티브 루프로 작동합니다.
이 튜토리얼에서는 고정된 오프라인 데이터로만 학습하는 안전 중요한 강화 학습 파이프라인을 구축한다. 사용자 정책에서 행동 데이터셋을 생성하고, d3rlpy를 사용하여 행동 복제 기준선과 보수적인 Q-Learning 에이전트를 모두 훈련시킨다.

Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.

Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.

AI2가 SERA(Soft Verified Efficient Repository Agents)를 소개했다. SERA는 감독 학습과 합성 경로만 사용하여 훨씬 큰 폐쇄 시스템과 맞추기 위해 개발된 코딩 에이전트 패밀리다. SERA는 AI2의 오픈 코딩 에이전트 시리즈의 첫 번째 릴리스이며, 주요 모델인 SERA-32B는…

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.
이 튜토리얼에서는 Haystack이 고급, 에이전트형 AI 시스템을 구축하는 방법을 보여줍니다. 완전히 실행 가능한 상태에서 장난감 예제를 훨씬 뛰어넘는 시스템을 설계하는 방법을 설명하며, 오케스트레이션, 상태 기반 의사 결정, 도구 실행 및 구조화된 제어 흐름을 강조하는 일관된, 끝까지 완성된 설정에 초점을 맞춥니다.
Clawdbot은 오픈 소스 개인용 AI 어시스턴트로, 대규모 언어 모델을 Anthropic 및 OpenAI와 연결하여 메시징 앱, 파일, 쉘, 브라우저, 스마트 홈 기기와 연동하면서 조정 계층을 사용자가 제어합니다.
StepFun은 웹 검색을 실제 연구 워크플로우로 변환하는데 목표를 둔 32B 파라미터 엔드 투 엔드 심층 연구 에이전트 Step-DeepResearch를 소개했다. 모델은 Qwen2.5 32B-Base 위에 구축되었으며 장기적인 추론, 도구 사용 및 구조화된 보고를 통한 웹 검색을 연구로 전환한다.
GitHub이 Copilot CLI를 구동하는 내부 에이전트 실행 환경을 공개하고 프로그래밍 가능한 SDK로 제공했다. Copilot-SDK를 통해 다른 앱에도 동일한 실행 환경을 임베드하여 에이전트가 도구를 실행하고 파일 편집, 명령 실행이 가능해졌다.
이 튜토리얼에서는 토큰 사용, 지연 및 도구 호출 예산과 같은 실제 제약 조건에 대해 결과 품질을 균형 있게 고려하는 비용 인식적인 계획 에이전트를 구축한다. 에이전트는 여러 후보 작업을 생성하고 예상 비용과 이익을 평가한 후, 엄격한 예산 내에서 가치를 극대화하는 실행 계획을 선택하도록 설계된다.

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.
이 튜토리얼에서는 매니저나 감독 없이 두 피어 에이전트가 직접 협상하여 작동하는 반중앙집중형 Anemoi-스타일 다중 에이전트 시스템이 어떻게 작동하는지 보여줍니다. 우리는 드래프터와 크리틱이 피어 투 피어 피드백을 통해 출력물을 반복적으로 개선하고, 조정 오버헤드를 줄이면서 품질을 유지하는 방법을 보여줍니다. 우리는 이 패턴을 Colab에서 LangGraph를 사용해 끝에서 끝으로 구현합니다.

Zhipu AI가 GLM-4.7-Flash를 발표했다. 이 모델은 로컬에서 실행하기에 실용적이며 강력한 코딩 및 추론 성능을 원하는 개발자들을 대상으로 한다. 30B-A3B MoE 모델로, 30B 클래스에서 가장 강력한 모델로 경량 배포를 위해 설계되었다.
이 튜토리얼에서는 현대적인 저지연 대화 시스템이 실시간으로 작동하는 방식을 모방하는 완전한 스트리밍 음성 에이전트를 구축합니다. 청크화된 오디오 입력 및 스트리밍 음성 인식부터 점진적 언어 모델 추론 및 스트리밍된 텍스트 음성 출력까지의 파이프라인을 시뮬레이션하며 각 단계에서 명시적으로 지연 시간을 추적합니다.
Vercel이 AI 코딩 에이전트를 위한 패키지 매니저 ‘Agent Skills’를 출시했다. React와 Next.js 성능, 웹 디자인 검토, Vercel에서 배포 가능한 기능을 중점으로 하며, npm과 유사한 명령어로 스킬을 설치할 수 있다.
이 튜토리얼에서는 자율적이고 요원형 AI 시스템이 의료 수익주기 관리(RCM) 내에서 미리 승인 워크플로우를 시뮬레이션하는 방법을 보여줍니다. 에이전트가 수술 주문을 지속적으로 모니터링하고 필요한 임상 문서를 수집하며, 사전 승인 요청을 지불자 시스템에 제출하고, 상태를 추적하며 거부에 지능적으로 응답하는 방법을 보여줍니다.

Transformers는 주의와 전문가 혼합을 사용하여 연산을 확장하지만, 지식 조회를 수행할 수 있는 기본 방법이 부족하다. DeepSeek의 새로운 Engram 모듈은 MoE와 함께 작동하는 조건부 메모리 축을 추가하여 이 간극을 정확히 겨냥한다.

Anthropic사가 클로드 macOS 데스크톱 앱 내에서 연구 미리보기로 이용 가능한 Cowork를 출시했다. Cowork는 코딩이 필요 없는 작업을 위해 로컬 파일에서 에이전트 워크플로를 실행하는 기능이다. Cowork는 클로드 데스크톱 앱의 전용 모드로 작동하며 파일 시스템 수준에서 실행된다.
SETA는 터미널 에이전트를 위한 강화 학습 툴킷 및 환경 스택으로, 400가지 태스크와 CAMEL 툴킷을 제공한다. CAMEL AI 및 Eigent AI 연구팀이 개발한 이 프로젝트는 구조화된 툴킷, 합성 RL 환경 및 평가에 초점을 맞추고 있다.

NVIDIA가 저지연 음성 에이전트와 라이브 자막을 위해 특별히 제작된 새로운 영어 전사 모델(Nemotron Speech ASR)을 공개했다. 이 모델은 FastConformer 인코더와 RNNT 디코더를 결합한 캐시 인식 아키텍처로 최적화되어 현대 NVIDIA GPU에서 스트리밍 및 배치 작업에 튜닝되었다.

Marktechpost가 AI2025Dev를 출시했습니다. 이는 2025년 분석 플랫폼으로, AI 활동을 쿼리 가능한 데이터셋으로 변환하여 모델 출시, 공개 정도, 교육 규모, 벤치마크 성능, 생태계 참여자를 아우릅니다.

Recursive Language Models는 대규모 언어 모델에서 일반적으로 발생하는 문맥 길이, 정확도 및 비용 사이의 상충 관계를 깨려고 한다. RLM은 모델이 하나의 거대한 프롬프트를 한 번에 읽도록 강요하는 대신, 프롬프트를 외부 환경으로 취급하고 모델이 코드로 어떻게 조사할지 결정한 다음 재귀적으로 호출한다.
LLMRouter는 일리노이스 대학교 어바나 샴페인 캠퍼스의 U Lab에서 개발된 오픈 소스 라우팅 라이브러리로, 각 쿼리에 대해 작업 복잡성, 품질 목표 및 비용을 기반으로 모델을 선택하여 모델 선택을 시스템 문제로 취급합니다.
CAMEL 프레임워크를 사용하여 고급 다중 에이전트 연구 워크플로우를 구축하는 튜토리얼. Planner, Researcher, Writer, Critic, Finalizer와 같은 에이전트들이 협력하여 고수준 주제를 다듬어 근거 있는 연구 요약으로 변환하는 과정을 다룸. OpenAI API를 안전하게 통합하고 에이전트 상호작용을 프로그래밍적으로 조정하며 가벼운 지속적 기억을 추가함.

NVIDIA AI 연구팀은 NitroGen을 발표했는데, 이는 일반 게임 에이전트를 위한 오픈 비전 액션 기반 모델로, 인터넷 비디오를 통해 픽셀과 게임패드 액션을 직접 학습하여 상용 게임을 플레이하는 방법을 익힙니다. NitroGen은 1,000개 이상의 게임에서 40,000시간의 게임 플레이로 훈련되었으며, 오픈 데이터셋과 유니버설 시뮬레이터를 제공합니다.

Liquid AI가 LFM2-2.6B-Exp를 소개했는데, 기존 LFM2 스택 위에 순수 보강 학습으로 훈련된 실험적인 체크포인트이다. 목표는 소형 3B 클래스 모델의 명령 따르기, 지식 과제 및 수학을 개선하는 것이며 여전히 장치 및 엣지 배포를 대상으로 한다.
구글이 FunctionGemma를 출시했다. Gemma 3 270M 모델을 기반으로 훈련된 이 모델은 함수 호출을 위해 특별히 설계되었고 자연어를 실행 가능한 API 액션으로 매핑하는 엣지 에이전트로 작동한다.
사용자 이탈 위험을 사전에 식별하고 개인화된 재참여 이메일을 작성하여 이탈을 방지하는 에이전트를 만드는 방법에 대한 튜토리얼. 이탈이 발생하기를 기다리는 것이 아니라 사용자의 비활동을 관찰하고 행동 패턴을 분석하여 인센티브를 계획하고 Gemini를 사용해 인간이 이해할 수 있는 이메일 초안을 생성하는 방법에 초점.
구글 딥마인드 연구원들이 Gemma Scope 2를 소개했다. 이는 Gemma 3 언어 모델이 270M에서 27B 파라미터에 이르는 모든 레이어에서 정보를 처리하고 표현하는 방법을 노출하는 해석성 도구 모음이다. 주요 목표는 AI 안전 및 정렬 팀들이 모델 동작을 내부 기능으로 역추적할 수 있는 실용적인 방법을 제공하는 것이다.
SmolAgents와 지역 Qwen 모델을 활용하여 완전 자율형 플리트 분석 에이전트를 만드는 과정을 안내하는 튜토리얼. 외부 API 호출 없이 유지보수 위험을 추론, 분석, 시각화하는 방법을 살펴봄.

NVIDIA가 Nemotron 3 패밀리를 발표했는데, 이는 agentic AI를 위한 완전한 스택으로, 모델 가중치, 데이터셋 및 강화 학습 도구를 포함한다. 이 패밀리는 Nano, Super, Ultra 세 가지 크기로 나뉘어 있으며, 긴 문맥 추론과 추론 비용에 엄격한 제어가 필요한 다중 에이전트 시스템을 대상으로 한다.
이 튜토리얼에서는 프롬프트를 정적 텍스트가 아닌 조정 가능한 매개변수로 취급하여 전통적인 프롬프트 제작에서 더 체계적이고 프로그래밍 가능한 방식으로 전환합니다. Gemini 2.0 Flash 주변의 최적화 루프를 구축하여 가장 강력한 프롬프트 구성을 자동으로 선택하는 효과적인 방법을 제시합니다.
Unsloth와 NVIDIA는 RTX 데스크탑부터 DGX Spark까지 NVIDIA RTX AI PC를 사용하여 인기 있는 AI 모델을 빠르게 Fine-tuning하여 코딩, 창의적 작업 및 복잡한 업무에 맞는 맞춤형 어시스턴트를 구축할 수 있습니다.
이 튜토리얼에서는 Gemini Flash 모델을 사용하여 협업하는 작은 but 강력한 두 에이전트 CrewAI 시스템을 구축하는 방법을 구현합니다. 환경을 설정하고 안전하게 인증하고 특수 에이전트를 정의하며 연구에서 구조화된 작성으로 흐르는 작업을 조정합니다.

Thinking Machines Lab은 Tinker 훈련 API를 일반적으로 사용 가능하게 하고, Kimi K2 Thinking 추론 모델 지원, OpenAI 호환 샘플링, Qwen3-VL 비전 언어 모델을 통한 이미지 입력을 추가했습니다. AI 엔지니어들에게는 분산 훈련을 구축하지 않고도 선두 모델을 세밀하게 조정할 수 있는 실용적인 방법으로 변모시켰습니다.
본 튜토리얼에서는 Gemini를 사용하여 의미 라우팅, 상징적 가드레일 및 자가 교정 루프로 구동되는 완전한 에이전트 AI 조율 파이프라인을 설계하고 실행하는 방법을 탐구합니다. 에이전트 구조, 작업 디스패치, 제약 조항 강제 및 깔끔하고 모듈식 아키텍처를 사용하여 출력을 정제하는 방법을 살펴봅니다.
CopilotKit은 AI 동료 및 앱 내 에이전트를 직접 구축하기 위한 오픈 소스 프레임워크입니다. 팀들은 에이전트 그래프를 강력한 사용자 인터페이스로 변환하기 위해 여전히 사용자 정의 코드를 작성해야 했는데, CopilotKit은 이를 해결합니다.

Mistral AI가 소프트웨어 엔지니어링 에이전트를 위한 다음 세대 코딩 모델인 Devstral 2 및 터미널 또는 Agent Communication Protocol을 지원하는 IDE 내에서 실행되는 오픈 소스 명령줄 코딩 도우미인 Mistral Vibe CLI를 소개했습니다.

Lux는 느린 수동 클릭 작업을 신뢰할 수 있는 자동화 시스템으로 전환하는 최신 컴퓨터 사용 에이전트의 예시로, OpenAGI Foundation 팀이 발표한 Lux는 실제 데스크탑에서 작동하는 Foundation 모델이다.
TinyLlama를 활용해 효율적인 매니저-에이전트 아키텍처를 통해 특화된 AI 에이전트 팀을 로컬에서 오케스트레이션하는 방법을 탐구합니다. 외부 API에 의존하지 않고 구조화된 작업 분해, 에이전트 간 협업, 자율 추론 루프를 구축하는 과정을 transformers 라이브러리를 통해 진행합니다.

대형 언어 모델 에이전트들은 모든 것을 저장하기 시작했지만, 테스트 시 경험을 통해 정책을 개선할 수 있을까? 일리노이 대학과 구글 딥마인드의 연구진은 Evo-Memory를 제안하며 이 문제에 대처한다. Evo-Memory는 경험 재사용을 위한 스트리밍 벤치마크 및 에이전트 프레임워크를 평가한다.

DeepSeek 연구팀이 DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale을 소개했다. 이 모델들은 에이전트를 위한 고품질 추론, 장문맥, 에이전트 워크플로우를 지향하며 열린 가중치와 제품 API를 갖췄다.

MiniMax-M2는 AI 코딩 환경을 혁신하며, 고성능이 높은 비용이나 레이턴시로 이어지는 문제를 해결한다. 이 기사는 MiniMax-M2에 대한 기술적 개요를 제공한다.

OceanBase가 AI를 위해 고안된 오픈소스 데이터베이스인 seekdb를 출시했다. seekdb는 다양한 데이터 모델과 AI 에이전트를 위한 하이브리드 검색 기능을 제공하며, Apache 2.0 라이센스로 제공된다.

UNC-Chapel Hill, Salesforce Research 및 Stanford University의 연구자들이 소개한 ‘Agent0’는 외부 데이터 없이 고성능 에이전트를 다단계 공진을 통해 진화시키는 완전 자율형 프레임워크이다.
이 튜토리얼에서는 상호 작용, 피드백 및 계층적 의사 결정을 통해 그리드 월드를 탐색하는 다중 에이전트 시스템을 학습하는 미니 강화 학습 설정을 코딩합니다. Action Agent, Tool Agent 및 Supervisor 세 가지 에이전트 역할을 결합하여 간단한 휴리스틱, 분석을 관찰할 수 있습니다.

OpenAI가 GPT-5.1-Codex-Max를 소개했다. 이 모델은 수백만 토큰과 멀티 시간대 세션을 거치는 장기 소프트웨어 엔지니어링 작업을 위해 설계되었다. CLI, IDE 확장, 클라우드 통합 및 코드 리뷰 등에서 사용 가능하며 API 액세스도 곧 예정되어 있다.

Meta AI가 DreamGym을 소개했다. DreamGym은 강화 학습을 위한 텍스트 경험 합성기로, 대형 언어 모델 에이전트를 위해 설계되었다. 강화 학습에서 실제 상호작용이 필요한데 이를 해결하기 위해 DreamGym이 개발되었다.

MCP에서 발생하는 일반적인 보안 취약점에 대해 살펴보는 인터뷰 시리즈. MCP는 LLM이 외부 도구 및 데이터 소스와 안전하게 상호 작용할 수 있도록 설계된 프레임워크인데, 모델이 컨텍스트에 액세스하는 방법에 구조와 투명성을 제공하지만 동시에 새로운 보안 위험을 도입한다.

MBZUAI의 연구진이 PAN이라는 새로운 모델을 소개했다. 이 모델은 시간이 지남에 따라 도착하는 작업에 따라 지속되는 내부 세계 상태를 유지하지 않는 대부분의 텍스트에서 비디오 모델과는 달리, 상호작용 가능한 일반적인 세계 모델로 작용하도록 설계되었다.
2025년에는 AI 에이전트를 구축하는 것은 대부분 에이전트 아키텍처를 선택하는 것을 의미하며, 인식, 기억, 학습, 계획 및 행동이 어떻게 구성되고 조정되는지에 대한 것이다. 이 비교 기사는 계층적, 스왐, 메타 러닝, 모듈러, 진화적인 5가지 구조를 살펴본다.
Moonshot AI의 Kosong은 에이전트 애플리케이션을 위한 LLM 추상화 계층으로, 메시지 구조, 비동기 도구 조정, 플러그인형 채팅을 통합해 유지보수 가능한 스택을 제공한다.

ML Foundations 연구팀이 소개한 Gelato-30B-A3B는 그래픽 사용자 인터페이스를 위한 최첨단 그라운딩 모델로, AI 에이전트에게 명확한 화면 요소를 찾아 클릭하도록 가르치는 것에 대한 문제를 해결한다.

Edison Scientific이 만든 Kosmos는 데이터세트와 자연어 목표를 받아들여 반복적인 데이터 분석, 문헌 검색, 가설 생성을 수행하고 결과를 완전히 인용된 과학 보고서로 합성하는 자율 발견 시스템이다.
이 튜토리얼에서는 신경 메모리 에이전트가 과거 경험을 잊지 않고 계속 학습하는 방법을 탐구합니다. 우리는 경험 재생과 메타-러닝을 통합한 메모리 보강 신경망을 설계하여 새로운 작업에 빠르게 적응하면서 이전 지식을 유지하는 방법을 보여줍니다. PyTorch에서 이 방법을 구현함으로써 콘텐츠 기반 메모리를 어떻게 활용하는지를 시연합니다.

StepFun AI가 공개한 Step-Audio-EditX는 3B 파라미터 LLM 기반 오디오 모델로, 표현력 있는 음성 편집을 파형 수준 신호 처리 작업이 아닌 토큰 수준 텍스트 작업으로 변환시킴. 개발자들이 제어 가능한 TTS에 관심을 갖는 이유에 대해 설명.
Anthropic의 ‘code execution with MCP’ 패턴은 MCP 도구를 코드 수준 시스템으로 전환하여 대규모 워크플로우의 토큰 소모, 지연 및 비용 한계를 개선한다.
구글이 Go용 에이전트 개발 킷인 ADK Go를 출시했다. Go 개발자들은 기존의 Python과 Java를 지원하는 프레임워크로 AI 에이전트를 구축할 수 있게 되었으며, 익숙한 Go 도구 체인 내에서 모든 것을 유지할 수 있다.
이 튜토리얼에서는 전사체, 단백체, 대사체를 포함한 통합 옴익스 데이터를 해석하여 주요 생물학적 통찰을 발견하는 고급 다중 에이전트 파이프라인을 구축합니다. 실제 생물학적 추세를 모방하는 일관된 합성 데이터 세트를 생성하고, 통계 분석, 네트워크 추론, 경로 풍부화, 약물 재활용을 위해 설계된 에이전트를 단계별로 진행합니다.

구글 연구원들이 DS STAR(Data Science Agent via Iterative Planning and Verification)를 소개했다. 이는 엔드 투 엔드 데이터 과학 질문을 실행 가능한 Python 코드로 변환하는 멀티 에이전트 프레임워크이다.

CMU 연구진은 프로액티브 및 개인화된 LLM 에이전트를 훈련시키기 위해 PPP와 UserVille을 소개했다. 기존 LLM 에이전트들은 과제 성공을 극대화하기 위해 조정되어 있지만 사용자에게 언제 질문할지, 상호작용 선호도를 어떻게 존중할지 신중하게 이유를 생각하지 않는다. 이에 대한 해결책을 모색하고 있다.
Anyscale과 NovaSky 팀이 SkyRL tx v0.1.0을 출시했다. 이 엔진은 AI 팀이 자체 인프라에서 대형 언어 모델에 대한 Tinker 스타일 강화 학습을 단일 통합 엔진을 사용하여 실행할 수 있게 해준다.

Postman이 AI-ready API를 구축하기 위한 포괄적인 체크리스트와 개발자 가이드를 발표했는데, 가장 간단한 진실을 강조했다: 가장 강력한 AI 모델조차도 받는 데이터만큼 좋다. 엔드포인트가 일관성 없거나 명확하지 않거나 신뢰할 수 없으면 모델은 나쁜 입력을 수정하는 데 시간을 낭비한다.
이 튜토리얼에서는 다양한 종류의 에이전트 AI 시스템을 실제 기업 소프트웨어 과제에서 평가하기 위한 포괄적인 벤치마킹 프레임워크를 개발한다. 데이터 변환, API 통합, 워크플로 자동화, 성능 최적화 등 다양한 도전 과제를 설계하고, 규칙 기반, LLM 기반, 하이브리드 에이전트를 포함한 다양한 에이전트가 이러한 작업들에서 어떻게 수행되는지 평가한다.