
오픈에이아이가 GPT-5.3-Codex를 소개했다. 이 모델은 코딩 및 컴퓨터 작업을 다루는 새로운 코딩 모델로, GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 및 전문 지식 능력을 결합하여 단일 시스템으로 운영되며 25% 빠르다.

오픈에이아이가 GPT-5.3-Codex를 소개했다. 이 모델은 코딩 및 컴퓨터 작업을 다루는 새로운 코딩 모델로, GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 및 전문 지식 능력을 결합하여 단일 시스템으로 운영되며 25% 빠르다.
본 튜토리얼에서는 에이전틱 사고 체인 가지치기 프레임워크를 구현하여 병렬로 다중 추론 경로를 생성하고 합의 신호 및 조기 중지를 사용하여 동적으로 줄입니다. 불필요한 토큰 사용을 줄이고 답변 정확도를 유지하면서 추론 효율성을 향상시키는 데 초점을 맞추며, 자기 일관성 및 가벼운 그래프 기반 합의가 효율적인 프록시 역할을 할 수 있다는 것을 입증합니다.

NVIDIA는 NVFP4 형식의 4비트에서 30B 매개변수 추론 모델을 실행하는 Nemotron-Nano-3-30B-A3B-NVFP4를 출시했다. 이 모델은 NVFP4 배포를 위해 특별히 설계된 Quantization Aware Distillation(QAD)과 혼합 Mamba2 Transformer Mixture of Experts 아키텍처를 결합하며 BF16 기준과 정확도를 유지한다.

이 연구는 LLM 에이전트를 위해 장기 기억에 저장할 내용, 단기 기억에 유지할 내용, 버릴 내용을 스스로 결정하는 방법을 설계하는 방법에 대해 다루고 있습니다. 이 연구에서는 텍스트 생성과 동일한 액션 공간을 통해 두 유형의 기억을 관리하는 단일 정책을 학습할 수 있는지에 대해 탐구하고 있습니다.

MiniMax가 M2 모델의 향상된 버전인 MiniMax M2.1을 출시했다. 이 모델은 다중 코딩 언어 지원, API 통합, 구조화된 코딩을 위한 개선된 도구 등의 기능을 제공하며 낮은 비용으로 빠른 실행 속도를 자랑한다.

Anthropic이 새로운 오픈 소스 에이전틱 프레임워크 ‘Bloom’을 출시했다. 이 프레임워크는 전방위 인공지능 모델의 자동 행동 평가를 위한 것으로, 연구자가 지정한 행동을 측정하여 현실적인 시나리오에서 얼마나 자주 강도 있게 나타나는지 측정한다. ‘Bloom’의 등장은 안전 및 정렬을 위한 행동 평가가 설계 및 유지에 비용이 많이 드는 문제를 해결한다.
이 튜토리얼에서는 자체 추론 깊이를 조절하는 고급 메타-인지 제어 에이전트를 구축한다. 빠른 휴리스틱부터 심층적인 사고 연쇄, 정확한 도구 형식의 문제 해결까지 추론을 스펙트럼으로 취급하고, 각 작업에 대해 사용할 모드를 결정하기 위해 신경 메타-컨트롤러를 훈련시킨다.
이 튜토리얼에서는 환경 내에서의 행동 뿐만 아니라 자체 교육 전략을 선택하는 방법을 학습하는 고급 에이전트형 딥 강화 학습 시스템을 구축한다. Dueling Double DQN 학습자를 설계하고 어려움이 증가하는 커리큘럼을 도입하며 학습 중에 적응하는 여러 탐험 모드를 통합한다.

구글 딥마인드는 복잡한 3D 게임 세계 안에서 얼마나 멀리 진화한 에이전트가 갈 수 있는지 테스트하기 위해 SIMA 2를 출시했다. SIMA 2는 이전의 명령 따르기 에이전트를 업그레이드하여 목표에 대한 추론, 계획 설명, 다양한 환경에서의 자가 플레이로부터 개선하는 제네시스 시스템을 도입했다.
이 튜토리얼에서는 외부 조율이 아닌 에이전트가 단일 신경 모델 내에서 계획, 메모리 및 도구 사용을 내재화하는 방법을 탐색한다. 우리는 콤팩트한 모델 내이티브 에이전트를 디자인하여 산술 추론 작업을 강화 학습을 통해 수행하는 방법을 학습한다.

미니맥스팀이 코딩과 에이전트 워크플로에 최적화된 전문가 모델인 MiniMax-M2를 공개했다. 이 모델은 최대 모델 비용의 일부분으로 오랜 기간 동안 MCP, 쉘, 브라우저, 검색 및 코드 작업을 지원한다.
PokeeResearch-7B는 7B 파라미터 딥 리서치 에이전트로, 쿼리를 분해하고 검색 및 읽기 호출을 실행하며 후보 답변을 확인한 후 여러 리서치 스레드를 최종 응답으로 합성하는 기능을 제공한다. 에이전트는 연구 및 검증 루프를 실행한다.
ServiceNow의 연구팀이 DRBench를 공개했다. 이는 공개 웹과 기업 내부 데이터를 종합적으로 활용해 보고서 작성을 요구하는 기업과제에 대한 “심층 연구” 에이전트를 평가하기 위한 벤치마크 및 실행 환경이다. DRBench는 기업 스타일의 다양한 워크플로우를 구현하여 에이전트가 파일, 이메일, 채팅 로그, 클라우드 저장소를 검색, 필터링 및 속성을 할 수 있도록 한다.
이 튜토리얼에서는 Darts 라이브러리와 가벼운 HuggingFace 모델을 결합하여 시계열 예측을 자율적으로 처리하는 고급 에이전틱 AI 시스템을 구축한다. 데이터의 패턴을 분석한 후 적절한 예측 모델을 선택하고 예측을 생성하는 주기적 작업을 수행하는 에이전트를 설계한다.
Sakana AI가 과학 및 공학 문제를 위해 프로그램을 진화시키기 위해 대형 언어 모델(LLMs)을 사용하는 오픈 소스 프레임워크인 ShinkaEvolve를 공개했다. 평균적인 해를 얻기 위해 필요한 평가 횟수를 현저히 줄이면서 새로운 SOTA를 보고했다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.
알리바바의 통이 랩이 통이-딥리서치-30B-A3B를 오픈소스로 공개했다. 이 모델은 웹 도구를 활용한 장기, 심층 정보탐색을 위해 구축된 에이전트 특화 대형 언어 모델로, 약 30.5B의 총 파라미터와 토큰당 약 3-3.3B의 활성 파라미터를 사용하여 강력한 추론 성능을 유지하면서 고 처리량을 가능케 한다. ReAct 스타일 하의 멀티턴 연구 워크플로우를 대상으로 한다.
의료 인공지능 분야에서 AI의 역할이 증가하고 있으며, 생물학적 문제를 해결하고 환자 데이터를 해석하는 등 복잡한 작업을 수행할 수 있는 에이전트에 대한 수요가 급증하고 있다.
알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.
Zhipu AI가 공개한 GLM-4.5 시리즈는 통합된 에이전틱 능력과 오픈 액세스에 높은 기준을 제시하여 추론과의 간극을 줄이고 있다. GLM-4.5 및 GLM-4.5-Air은 인공지능 기반 모델의 경관을 빠르게 변화시키고 있다.
GitHub의 새로운 도구인 Spark는 전체 스택 지능형 애플리케이션을 빌드하고 배포하는 방식을 혁신하고자 만들어졌다. Spark를 사용하면 Copilot Pro+ 구독자를 대상으로 한 공개 미리보기에서 아이디어부터 완전히 배포된 앱까지 몇 분만에 구현할 수 있으며, 자연어 프롬프트를 사용하여 전통적인 방식 없이 작업할 수 있다.
WrenAI는 Canner가 개발한 오픈 소스 Generative Business Intelligence (GenBI) 에이전트로, 구조화된 데이터와 자연어 상호작용을 가능케 하는 것을 목표로 한다. SQL 작성 없이 데이터 쿼리, 분석, 시각화를 위한 도구를 제공하며, 모든 기능과 통합은 공식 문서와 최신 릴리스에 대해 검증된다.

LLM 기반 에이전트의 장기 추론 및 개인화를 강화하기 위해 모듈식 멀티 에이전트 메모리 시스템인 MIRIX가 소개되었다. 이 시스템은 사용자별 정보를 지속적으로 저장, 회상하고 추론하는 능력을 향상시켜 LLM 기반 에이전트들이 단일 프롬프트 이상의 컨텍스트를 구축할 수 있도록 도와준다.

2025년 현재 가장 핫한 20가지 에이전틱 인공지능 도구와 에이전트 소개. 이 포스트는 MarkTechPost에 실렸으며, AI 개발자들에게 영향을 미치는 도구와 플랫폼을 살펴볼 수 있다.

Google의 Gemini 모델과 Pandas의 유연성을 결합하여 타이타닉 데이터셋을 분석하는 방법을 학습합니다. ChatGoogleGenerativeAI 클라이언트와 LangChain의 Pandas DataFrame 에이전트를 결합하여 자연어 쿼리를 해석하는 상호작용 가능한 “에이전트”를 설정합니다.

IBM 컨설팅의 최근 화이트페이퍼는 금융 서비스 부문에 미치는 자율적 인공지능 에이전트의 영향을 개요로 제시하며, 이러한 AI 시스템이 금융 기관의 운영 방식을 근본적으로 재구성할 수 있는 방법을 설명합니다.

대형 언어 모델(Large language models, LLM)이 상호작용 환경에서 자율 에이전트로 훈련받을 때 중요한 도전에 직면하고 있다. 순차적 의사 결정, 교차 턴 메모리 유지, 환경적 피드백에 대한 적응 등이 필요한데, 이는 효과적인 계획 보조자, 로봇 응용 프로그램, 경험을 통해 자가 개선할 수 있는 지도 에이전트 개발에 중요하다. 이에 연구진은 StarPO-S와 RAGEN을 도입하여 이러한 도전을 대응하고 있다.
Xata Agent는 PostgreSQL 데이터베이스를 위한 사이트 신뢰성 엔지니어로 구축된 오픈 소스 AI 어시스턴트입니다. 느린 쿼리, CPU 및 메모리 스파이크, 비정상적인 연결 수 등의 신호를 지속적으로 모니터링하여 장애로 확대되기 전에 문제를 감지합니다.