
현재의 로봇 정책은 주로 한 번의 관찰 또는 매우 짧은 역사에 기반하며, 장기 과제에 부족함이 있습니다. 이를 해결하기 위해 Physical Intelligence, Stanford, UC Berkeley, MIT의 연구진이 개발한 멀티 스케일 메모리 시스템은 복잡한 작업에 필요한 15분간의 컨텍스트를 제공합니다.

현재의 로봇 정책은 주로 한 번의 관찰 또는 매우 짧은 역사에 기반하며, 장기 과제에 부족함이 있습니다. 이를 해결하기 위해 Physical Intelligence, Stanford, UC Berkeley, MIT의 연구진이 개발한 멀티 스케일 메모리 시스템은 복잡한 작업에 필요한 15분간의 컨텍스트를 제공합니다.
최신 LangChain 에이전트 API를 사용하여 물류 디스패치 센터를 위한 생산 스타일의 경로 최적화 에이전트를 구축하는 튜토리얼. 에이전트가 추측하는 대신 거리, 도착 예정 시간 및 최적 경로를 신뢰성 있게 계산하고 결과를 구조화하여 하류 시스템에서 직접 사용할 수 있게 함.

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 ‘에이전틱’ AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

Exa AI가 Exa Instant를 소개했습니다. 이는 실시간 에이전틱 워크플로우에서 발생하는 병목 현상을 제거하기 위해 설계된 서브-200ms 신경 검색 엔진입니다. 대형 언어 모델(Large Language Models, LLMs) 분야에서 속도는 정확성이 해결된 후 유일하게 중요한 기능입니다.

구글이 제미니 3 딥띵크의 주요 업데이트를 발표했다. 이 업데이트는 현대 과학, 연구 및 공학을 가속화하기 위해 특별히 설계되었다. 이번 업데이트는 인류의 전문가 개입이 필요했던 문제를 내부 확인을 사용해 해결하는 ‘추론 모드’로의 전환을 대표한다.

로봇들이 GPT-3 시대로 진입하고 있습니다. 연구자들은 오랫동안 로봇을 대규모 언어 모델 (LLM)을 구동하는 자기 회귀(AR) 모델을 사용하여 훈련하려고 노력해왔습니다. 모델이 문장에서 다음 단어를 예측할 수 있다면 로봇 팔의 다음 움직임도 예측할 수 있어야 합니다. 그러나 기술적 한계가 있었습니다.

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

대부분의 AI 응용 프로그램은 여전히 모델을 챗박스로 보여줍니다. 그 인터페이스는 단순하지만, 에이전트가 실제로 하는 작업을 숨깁니다. 생성 UI는 채팅 상자뿐만 아니라 테이블, 차트, 양식 및 진행 표시기와 같은 실제 인터페이스 요소를 에이전트가 제어하도록 하는 것입니다.

알리바바의 Qwen3-Max-Thinking은 파라미터 규모를 확장하는 것뿐만 아니라, 추론 방식을 변화시키며 생각의 깊이에 대한 명시적 제어와 검색, 메모리, 코드 실행을 위한 내장 도구를 갖추고 있습니다. 이 모델은 36조 토큰에 사전 훈련된 1조 파라미터 MoE 플래그십 LLM으로, 데이터 및 배포 측면에서 Qwen3-Max-Thinking은 […]

구글의 Universal Commerce Protocol (UCP)는 AI 상거래 에이전트가 제품 링크를 보내는 것을 넘어 채팅 내에서 믿을 수 있는 구매를 완료할 수 있는 오픈 표준이다. 이는 AI 에이전트와 상인 시스템이 공유된 언어를 갖게 함으로써 쇼핑 질의가 제품 발견부터 구매까지 이동할 수 있게 한다.
LangGraph와 OpenAI 모델을 사용하여 간단한 계획자, 실행자 루프를 넘어진정한 고급 에이전틱 AI 시스템을 구축하는 튜토리얼. 에이전트가 빠른 논리와 심층적 추론 사이에 동적으로 선택하는 적응적 규의, 원자적 지식을 저장하고 관련 경험을 자동으로 연결하는 Zettelkasten 스타일의 에이전틱 메모리 그래프, 그리고 통제된 도구 사용을 구현.

알리바바 통이 연구소는 MAI-UI를 발표했다. MCP 도구 사용, 에이전트 사용자 상호작용, 장치-클라우드 협업, 온라인 강화학습을 기반으로 한 MAI-UI는 일반 GUI 기반 및 모바일 GUI 탐색에서 최첨단 결과를 달성했다. Gemini-2.5-Pro, Seed1.8 및 UI-Tars-2를 능가하며 초기 GUI 에이전트가 종종 무시하는 세 가지 특정 간극을 대상으로 한다.
PydanticAI를 사용하여 계약 중심 에이전틱 의사 결정 시스템을 설계하는 방법을 소개하는 튜토리얼. 구조화된 스키마를 협상 불가능한 거버넌스 계약으로 취급하여 정책 준수, 위험 평가, 확신 보정 및 실행 가능한 다음 단계를 에이전트의 출력 스키마에 직접 인코딩하는 방법을 보여준다.
본 튜토리얼에서는 Gemini를 활용하여 자동 의료 증거 수집 및 사전 승인을 위한 기능적인 의료 에이전트를 어떻게 조율하는지에 대해 설명합니다. 모델을 안전하게 구성하는 것부터 현실적인 외부 도구를 구축하고 구조화된 JSON을 통해 완전히 추론, 행동 및 응답하는 지능적인 에이전트 루프를 구성하는 각 구성 요소를 단계별로 안내합니다.
Griptape와 가벼운 Hugging Face 모델을 사용하여 로컬, API 없이 에이전틱 스토리텔링 시스템을 만드는 튜토리얼. 에이전트 생성, 허구의 세계 생성, 캐릭터 디자인, 일관된 단편 소설 생성을 위한 다단계 워크플로 설계 방법을 소개. 모듈식 코드 조각으로 구현을 나눠 설명.
이 튜토리얼에서는 환경과 상호작용을 통해 지능적 에이전트가 단계적으로 절차적 메모리를 형성하는 방법을 탐구합니다. 스킬이 뉴럴 모듈처럼 작동하도록 설계하여 행동 시퀀스를 저장하고 상황에 맞는 임베딩을 전달하며, 새로운 상황에서 유사성에 따라 검색됩니다.
이 튜토리얼에서는 제어 평면 디자인 패턴을 사용하여 고급 에이전틱 AI를 구축하고 구현할 때 각 구성 요소를 단계별로 안내합니다. 제어 평면을 중앙 조정기로 취급하여 도구를 조정하고 안전 규칙을 관리하며 추론 루프를 구조화합니다. 또한 작은 검색 시스템을 설정합니다.
이 튜토리얼에서는 문헌 말뭉치를 로드하고 검색 및 LLM 모듈을 구성하고 논문을 검색하고 가설을 생성하고 실험을 설계하며 구조화된 보고서를 생성하는 에이전트를 조립하여 과학적 발견 에이전트를 구축하는 방법을 설명합니다.

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.
이 튜토리얼에서는 Instructor 라이브러리를 사용하여 구조화된 출력물을 생성하고 복잡한 도구 호출을 신뢰성 있게 조정하는 오프라인 멀티스텝 추론 에이전트를 구축하는 방법을 탐구합니다. 올바른 도구 선택, 입력 유효성 검사, 다단계 워크플로 계획, 오류 복구를 할 수 있는 에이전트를 설계합니다.
이 튜토리얼에서는 다양한 작업에서 여러 추론 전략을 평가하여 에이전틱 구성 요소를 체계적으로 벤치마킹하는 방법을 탐구합니다. 각기 다른 아키텍처인 직접방식, 사고연쇄방식, ReAct, Reflexion 등이 어려움이 증가하는 문제에 직면했을 때 어떻게 행동하고, 정확도, 효율성, 대기 시간, 도구 사용 패턴을 측정합니다.

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.
2025년에는 OpenAI의 ChatGPT Atlas, Microsoft Edge의 Copilot Mode, The Browser Company의 Dia, Perplexity의 Comet이 에이전틱 AI 브라우저 시장을 주도하고 있습니다. 각각이 자율성, 기억, 개인 정보 보호 등 다른 디자인 선택을 하고 있습니다. 이 기사는 그들의 아키텍처를 비교합니다.
이 튜토리얼에서는 메모리를 핵심 능력으로 활용하여 단일 상호작용을 넘어선 에이전틱 시스템을 구축하는 방법을 탐색합니다. 에피소딕 메모리를 설계하고 경험을 저장하며 의미론적 메모리를 활용하여 장기적인 패턴을 파악함으로써 에이전트가 여러 세션을 통해 행동을 발전시킬 수 있습니다.
Python을 사용하여 실험 설계 및 실행을 위한 지능적 에이전트인 Wet-Lab 프로토콜 플래너 및 검증기를 구축하는 튜토리얼. Salesforce의 CodeGen-350M-mono 모델을 자연어 추론에 통합하고 ProtocolParser를 사용하여 구조화된 데이터 추출.
이 튜토리얼에서는 우리에게 기억하고 배우며 시간이 지남에 따라 적응하는 지능적 에이전트를 구축하는 방법을 탐구합니다. 우리는 단순한 규칙 기반 논리를 사용하여 지속 메모리 및 개인화 시스템을 구현하고, 현대적인 에이전틱 AI 프레임워크가 맥락 정보를 저장하고 호출하는 방식을 시뮬레이션합니다.
이 튜토리얼에서는 로컬 오픈웨이트 모델을 사용하여 추론, 계획 및 가상 작업을 수행할 수 있는 고급 컴퓨터 사용 에이전트를 처음부터 구축합니다. 미니어처 시뮬레이션 데스크톱을 만들고 도구 인터페이스를 갖추며 환경을 분석하고 클릭 또는 타이핑과 같은 작업을 결정하고 실행할 수 있는 지능적인 에이전트를 설계합니다.
본 튜토리얼에서는 Colab에서 손쉽게 실행되는 강력한 기업용 AI 어시스턴트를 구축하는 방법을 살펴봅니다. FAISS를 사용하여 문서 검색 및 FLAN-T5를 사용하여 텍스트 생성을 위해 검색 보강 생성 (RAG)을 통합하는 것으로 시작하며, 기업 정책인 데이터 마스킹, 접근 제한 등을 포함시킵니다.
VISTA는 추론 중에 텍스트에서 비디오 생성을 개선하는 다중 에이전트 프레임워크로, 구조화된 프롬프트를 장면으로 계획하고 최고의 후보를 선택하기 위해 페어와이즈 토너먼트를 실행하며 시각, 음향, 문맥에 걸쳐 특화된 심사위원을 활용하고 깊은 사고 프롬프팅 에이전트로 프롬프트를 다시 작성합니다.
Qualifire AI가 Rogue를 공개했는데, 이는 AI 에이전트의 성능을 평가하는 파이썬 프레임워크로, 기존 QA 방법론의 한계를 극복하고 개발팀이 믿고 릴리스를 관리할 수 있도록 도와준다.
이 튜토리얼에서는 AI가 한계에 도달했을 때 숙련된 인간이 원할하게 대신하는 고객 서비스 자동화의 중요한 구성 요소인 인간 인계를 구현할 것이다. AI 파워된 보험 에이전트를 위한 인간 인계 시스템을 Parlant를 사용하여 구현하고, Streamlit 기반의 인터페이스를 만드는 방법을 배울 수 있다.
모델 콘텍스트 프로토콜(MCP)은 AI 클라이언트가 서버에 연결하는 방식을 형식화하는 오픈 JSON-RPC 기반 표준이다. MCP는 에이전트/도구 상호작용을 명시적이고 감사 가능하게 만들어 보안 작업에 가치를 제공한다.
Zhipu AI가 GLM-4.6을 출시했다. 이 모델은 에이전틱 워크플로, 장기 맥락 추론, 실용적 코딩 작업에 초점을 맞추고 있으며, 입력 창을 20만 토큰으로 확장하고 12만 8천 토큰의 최대 출력을 제공한다. 이번 업데이트는 실용적 작업에서 효율적인 토큰 사용을 목표로 하며 로컬 배포를 위한 오픈 가중치도 함께 제공된다.
이 튜토리얼에서는 CrewAI와 Google Gemini 모델을 활용하여 고급 감독자 에이전트 프레임워크의 설계와 구현 방법을 안내합니다. 연구자, 분석가, 작가, 리뷰어 등 특수 에이전트들을 감독하고 조정하는 감독자 에이전트를 구축하며 구조화된 작업 구성, 계층적 워크플로우 등을 결합합니다.
알리바바가 Qwen3-Max를 발표했는데, 이는 조합 전문가(MoE) 모델로, Qwen Chat 및 알리바바 클라우드의 Model Studio API를 통해 즉시 공개되었다. Qwen의 2025년 출시 일정을 미리보기에서 생산까지 이동시키며, Qwen3-Max-Instruct와 Qwen3-Max-Thinking 두 가지 변형에 초점을 맞추고 있다.
UTCP는 AI 에이전트와 애플리케이션이 추가 래퍼 서버 없이도 도구를 찾고 호출할 수 있는 가벼우면서 안전하고 확장 가능한 방법이다. 전통적인 툴 통합 솔루션의 문제와 UTCP의 주요 기능에 대해 설명한다.
본 튜토리얼에서는 EasyOCR, OpenCV, Pillow을 사용하여 Google Colab에서 고급 OCR AI 에이전트를 구축한다. GPU 가속을 사용하여 완전 오프라인으로 실행되며, 이미지 전처리 파이프라인을 포함하여 인식 정확도를 향상시킨다. OCR 이외에도 결과를 신뢰도에 따라 필터링하고 텍스트 통계를 생성한다.
이 튜토리얼에서는 채팅 뿐만 아니라 기억도 할 수 있는 고급 AI 에이전트를 구축하는 방법을 안내합니다. 경량 LLM, FAISS 벡터 검색 및 요약 메커니즘을 결합하여 단기 및 장기 메모리를 만드는 방법을 보여줍니다. 임베딩 및 자동 압축된 사실들과 함께 작동하여 […]
대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.
최근 대형 언어 모델 판단력을 갖춘 AI 에이전트의 발전으로, 임상 대화, 진단 및 치료 계획이 가능해졌습니다. 그러나 개별 진단과 치료 권고는 규제가 엄격하며, 중요한 환자와 직면한 결정에 대한 책임은 라이선스를 받은 임상 의사만이 가질 수 있습니다. 전통적인 의료는 종종 계층적 감독을 사용하며, 경험 많은 의사가 임상 의사의 의사결정을 검토합니다.
Zhipu AI가 ComputerRL을 소개했다. 본 프레임워크는 에이전트에게 복잡한 디지털 작업 환경을 탐색하고 조작할 능력을 부여하는 것을 목표로 한다. 이 혁신은 AI 에이전트 개발에서 핵심적인 도전 과제를 해결하는데, 즉 컴퓨터 에이전트와 인간이 디자인한 GUI 간의 연결 부재를 해소한다.
금융 시장에서 인공지능(AI) 사용이 급증하고 있으며, 블랙록 연구팀은 투자 연구를 위해 알파에이전트를 제안했다. 알파에이전트 프레임워크는 다중 에이전트 시스템의 파워를 활용하여 투자 결과를 개선하고 인지 편향을 줄이며 의사 결정을 강화한다.
이 튜토리얼에서는 Google의 무료 Gemini 모델을 활용한 고급 LangGraph 멀티 에이전트 시스템을 구축하는 방법에 대해 설명합니다. 필요한 라이브러리 및 LangGraph, LangChain-Google-GenAI, LangChain-Core의 설치부터 구조화된 상태 정의, 연구 및 분석 도구 시뮬레이션, 세 가지 특수 에이전트(연구, 분석, 보고)의 연결까지 단계별로 안내합니다.
MCP는 대형 언어 모델 및 다른 AI 응용 프로그램을 필요로 하는 시스템 및 데이터와 연결하는 데 필수적인 표준이 되어왔다. 2025년에는 널리 채택되어 기업, 개발자 및 최종 사용자가 AI 기반 자동화, 지식 검색 및 실시간 의사 결정을 경험하는 방식을 혁신하고 있다.
실제 세계에서 자율적으로 생각하고 배우고 행동할 수 있는 AI 시스템을 만들기 위해 필요한 7가지 핵심 레이어에 대한 포괄적인 프레임워크 소개.
NVIDIA의 최신 릴리스인 Llama Nemotron Super v1.5은 추론 및 에이전틱 작업에 특히 뛰어난 성능과 사용성을 제공하여 모델이 어디까지 이끌 수 있는지에 대한 경계를 넘는 AI 발전을 이끌고 있다.

AI 에이전트는 환경을 인식하고 데이터를 해석하며 목표를 달성하기 위해 행동을 실행하는 자율 소프트웨어 시스템이다. 전통적인 자동화와는 달리, AI 에이전트는 의사 결정, 학습, 메모리, 다단계 계획 능력을 통합하여 복잡한 실제 과제에 적합하다.

구글은 Gemini 2.5 Pro, 딥 서치, 그리고 강력한 새로운 에이전틱 기능을 도입하며 검색과 상호작용하는 방식을 변화시키고, 검색 엔진을 보다 똑똑하고 맥락에 맞게 만들고 있다. 이러한 기능들은 현재 미국 사용자에게만 제한되어 있지만, 구글 검색 방식에 대대적인 변화를 암시한다.

구글은 MCP 툴박스를 발표했는데, 이는 GenAI Toolbox의 일환으로 SQL 데이터베이스를 AI 에이전트에 통합하는 것을 간소화하는 데 목적을 둔 오픈 소스 모듈이다. 이 릴리스는 언어 모델이 외부 시스템과 상호 작용할 수 있게 하는 표준화된 접근 방식인 모델 컨텍스트 프로토콜(MCP)을 발전시키기 위한 구글의 전략의 일환이다.

희귀병은 전 세계 4억 명을 영향을 미치며, 7,000가지 이상의 질병 중 80% 이상이 유전적 원인을 가지고 있다. 이러한 희귀병의 진단은 어려운데, DeepRare는 AI 기술을 활용하여 임상 의사 결정을 개선하고 환자의 진단 과정을 단축시키는 첫 번째 시스템이다.

이 튜토리얼은 용량 제약이 있는 사용자들을 위해 설계된 울트라-라이트 Mistral Devstral 가이드를 제공하며, 제한된 저장 공간과 메모리 환경에서 Mistral과 같은 대형 언어 모델을 실행하는 것이 어려울 수 있지만, 이 튜토리얼은 강력한 devstral-small 모델을 배포하는 방법을 보여준다.

이 튜토리얼에서는 LangChain, Google Gemini API 및 고급 도구 모음의 기능을 결합하여 스마트 AI 어시스턴트를 만드는 강력하고 인터랙티브한 Streamlit 애플리케이션을 구축할 것이다. Streamlit의 직관적 인터페이스를 사용하여 웹 검색, 위키피디아 콘텐츠 가져오기, 계산 수행, 키 기억 등을 수행할 수있는 채팅 기반 시스템을 만들 것이다.

이 튜토리얼에서는 구글의 첨단 Gemini API를 사용하여 정교한 자기 발전형 AI 에이전트를 만드는 방법을 살펴볼 것이다. 이 자기 발전형 에이전트는 자율적인 문제 해결을 보여주며 성능을 동적으로 평가하고 성공과 실패로부터 학습하여 반성적 분석과 자가 수정을 통해 지속적으로 능력을 향상시킨다. 이 튜토리얼은 구조화된 코드 구현을 안내하며 메모리 관리 및 기타 메커니즘에 대해 상세히 다룬다.

구글 딥마인드는 알고리즘 설계와 과학적 발견을 위해 제미니 기술을 활용한 코딩 AI 에이전트 알파이볼브를 소개했다. 전통적인 방법으로는 전문가 직관과 수동 반복에 의존하는 이러한 과정이 대규모 언어 모델(LLMs)을 활용함으로써 가속화되고 있다.

AI 에이전트들은 주로 백엔드 작업을 자동화하는데 집중해왔지만, 상호작용적인 AI 애플리케이션이 늘어남에 따라 사용자와 상호작용하는 에이전트의 필요성이 대두되었다. AG-UI 프로토콜은 이러한 문제를 해결하기 위해 개발된 오픈, 가벼운, 이벤트 기반 프로토콜이다.

바이트댄스가 DeerFlow를 공개했는데, 이는 대형 언어 모델(Large Language Models)의 기능을 도메인별 도구와 통합하여 복잡한 연구 워크플로우를 향상시키는 오픈소스 멀티 에이전트 프레임워크이다. DeerFlow는 LangChain과 LangGraph 위에 구축되어 정보 검색부터 다중 모달 콘텐츠 생성까지 협력적인 인간 중심 환경에서 고급 연구 작업을 자동화하는 구조화된, 확장 가능한 플랫폼을 제공한다.

구글이 AI 에이전트 시스템 개발 전문가를 위한 76페이지 화이트페이퍼를 발표했다. 에이전트 평가, 다중 에이전트 협업, RAG의 진화 등에 중점을 두고 에이전트를 대규모로 운영하는 데 초점을 맞췄다.
마이크로소프트의 AI 레드 팀이 에이전틱 아키텍처의 고장 모드에 대한 상세한 분류 체계를 발표했다. 이 보고서는 탄탄한 에이전틱 시스템을 설계하고 유지하려는 실무자들에게 중요한 기초 자료를 제공한다.
씨티은행의 최신 ‘에이전틱 AI 금융 및 ‘나를 대신해 해라’ 경제’ 보고서에서는 금융 서비스에서 진행 중인 중요한 패러다임 변화를 탐구한다. 이 보고서는 룰 기반 지침에 의존하는 기존 AI 시스템과는 다르게, 에이전틱 AI는 자율성을 갖추어 직접적인 인간 개입 없이 미리 예방적으로 행동하고 의사 결정을 내리며 다단계 워크플로우를 실행한다.
Anthropic사가 Claude Code를 사용한 코딩 에이전트 개발을 위한 상세한 가이드를 발표했다. Claude Code는 개발자 중심의 명령줄 인터페이스로, Claude 언어 모델을 일상적인 프로그래밍 작업에 통합하는 데 사용된다.