
Liquid AI가 LocalCowork를 발표했는데, 이는 LFM2-24B-A2B를 활용한 모델로, 기업 워크플로우를 기기 내에서 완전히 실행할 수 있도록 해준다. API 호출과 데이터 이탈을 없애 프라이버시에 민감한 환경에서 사용된다.

Liquid AI가 LocalCowork를 발표했는데, 이는 LFM2-24B-A2B를 활용한 모델로, 기업 워크플로우를 기기 내에서 완전히 실행할 수 있도록 해준다. API 호출과 데이터 이탈을 없애 프라이버시에 민감한 환경에서 사용된다.
구글 워크스페이스 API를 애플리케이션과 데이터 파이프라인에 통합하는 것은 REST 엔드포인트, 페이지네이션, OAuth 2.0 흐름을 처리하는 보일러플레이트 코드를 작성해야 하는데, 구글 AI 팀이 ‘gws’ CLI 도구를 공개했다. 이 오픈소스 도구는 Google Workspace를 위한 통합된 동적 명령줄 인터페이스를 제공한다.

OpenAI는 심포니를 공개했습니다. 이는 구조화된 ‘실행’을 통해 자율 AI 코딩 에이전트를 관리하기 위한 오픈 소스 프레임워크로, 이 프로젝트는 이슈 트래커를 LLM 기반 에이전트에 연결하여 소프트웨어 개발 작업을 자동화하는 시스템을 제공합니다. 시스템 아키텍처는 Elixir 및 BEAM을 사용합니다.

알리바바가 오픈소스 도구인 OpenSandbox를 출시했습니다. 이 도구는 AI 에이전트에 안전하고 격리된 환경을 제공하여 코드 실행, 웹 브라우징, 모델 훈련을 가능하게 합니다. Apache 2.0 라이선스 하에 공개된 OpenSandbox는 AI 에이전트 스택의 ‘실행 레이어’를 표준화하고 여러 프로그래밍 언어에서 작동하는 통일된 API를 제공합니다.
최신 LangChain 에이전트 API를 사용하여 물류 디스패치 센터를 위한 생산 스타일의 경로 최적화 에이전트를 구축하는 튜토리얼. 에이전트가 추측하는 대신 거리, 도착 예정 시간 및 최적 경로를 신뢰성 있게 계산하고 결과를 구조화하여 하류 시스템에서 직접 사용할 수 있게 함.
본 튜토리얼에서는 간단한 채팅 상호작용을 넘어 다단계 연구 문제를 해결하는 “스위스 아미 나이프” 연구 에이전트를 구축한다. 최신 기술을 활용하여 모던 에이전트가 추론, 확인 및 보고서 작성을 어떻게 수행하는지 보여준다.

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 ‘에이전틱’ AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

Anthropic사는 Claude 4.6 Sonnet을 발표하여 개발자와 데이터 과학자가 복잡한 논리를 다루는 방식을 변화시키고, 내부 코드 실행을 통해 실시간으로 사실을 확인하는 기능을 갖춘 Improved Web Search를 함께 선보였다.
Agoda가 APIAgent를 공개했다. 이 도구는 어떤 REST 또는 GraphQL API든 Model Context Protocol (MCP)로 변환할 수 있도록 설계되었다. AI 에이전트를 구축하는 것은 중요한 과제이지만, 데이터와의 효율적인 소통이 큰 병목 현상이다.
구글은 AI 에이전트를 위한 Chrome을 플레이그라운드로 전환하고, 기존의 웹사이트 스크린샷 촬영 방식보다 빠르고 효율적인 WebMCP를 소개했다. 이를 통해 AI 에이전트가 웹사이트와 직접적이고 구조화된 상호작용을 가능하게 한다.

구글 딥마인드팀이 알레테이아를 소개했다. 알레테이아는 대회 수준의 수학과 전문 연구 사이의 간극을 메우는 특수 AI 에이전트로, 2025년 국제 수학 올림피아드(IMO)에서 금메달 수준의 성과를 거두었으며, 자연 언어로 솔루션을 반복적으로 생성, 검증 및 수정하여 연구문학을 탐색하고 장기적인 증명을 구성한다.

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

구글이 제미니 3 딥띵크의 주요 업데이트를 발표했다. 이 업데이트는 현대 과학, 연구 및 공학을 가속화하기 위해 특별히 설계되었다. 이번 업데이트는 인류의 전문가 개입이 필요했던 문제를 내부 확인을 사용해 해결하는 ‘추론 모드’로의 전환을 대표한다.

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.
구글이 Conductor를 소개했다. 이는 AI 코드 생성을 구조화된 컨텍스트 중심 워크플로로 변환하는 Gemini CLI용 오픈 소스 미리보기 확장판이다. Conductor는 제품 지식, 기술 결정 및 작업 계획을 저장하고, 이를 레포지토리 내부의 버전 관리된 Markdown으로 관리한 후, Gemini 에이전트를 이러한 파일에서 구동시킨다.
AI 에이전트를 위한 메모리 엔지니어링 레이어를 구축하는 튜토리얼. 단기 작업 컨텍스트를 장기 벡터 메모리와 서사적 추적으로 분리하고, 임베딩 및 FAISS를 사용하여 의미론적 저장을 구현하며 성공적인 경험을 재사용할 수 있도록 왜 실패했는지를 기록하는 서사 기억을 추가한다.

대부분의 AI 응용 프로그램은 여전히 모델을 챗박스로 보여줍니다. 그 인터페이스는 단순하지만, 에이전트가 실제로 하는 작업을 숨깁니다. 생성 UI는 채팅 상자뿐만 아니라 테이블, 차트, 양식 및 진행 표시기와 같은 실제 인터페이스 요소를 에이전트가 제어하도록 하는 것입니다.

Microsoft이 VibeVoice-ASR을 발표했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 사용자 지정 핫워드를 지원한다.

구글의 Universal Commerce Protocol (UCP)는 AI 상거래 에이전트가 제품 링크를 보내는 것을 넘어 채팅 내에서 믿을 수 있는 구매를 완료할 수 있는 오픈 표준이다. 이는 AI 에이전트와 상인 시스템이 공유된 언어를 갖게 함으로써 쇼핑 질의가 제품 발견부터 구매까지 이동할 수 있게 한다.

메타와 하버드 연구자들이 공개한 ‘컨퓨시우스 코드 에이전트’는 산업 규모 소프트웨어 저장소와 긴 코드베이스용으로 설계된 오픈 소스 AI 소프트웨어 엔지니어로, 중간 규모 언어 모델이 에이전트 구조와 도구 스택으로 이동함에 따라 혁신이 얼마나 발전할 수 있는지 보여줍니다.
LangGraph와 OpenAI 모델을 사용하여 간단한 계획자, 실행자 루프를 넘어진정한 고급 에이전틱 AI 시스템을 구축하는 튜토리얼. 에이전트가 빠른 논리와 심층적 추론 사이에 동적으로 선택하는 적응적 규의, 원자적 지식을 저장하고 관련 경험을 자동으로 연결하는 Zettelkasten 스타일의 에이전틱 메모리 그래프, 그리고 통제된 도구 사용을 구현.
이 튜토리얼에서는 AgentScope를 사용하여 고급 Multi-Agent 사고 대응 시스템을 구축한다. 각각 라우팅, 진단, 분석, 작성 및 검토와 같이 명확히 정의된 역할을 가진 여러 ReAct 에이전트를 조율하고 구조화된 라우팅과 공유 메시지 허브를 통해 이들을 연결한다. OpenAI 모델 통합, 가벼운 도구 호출 및 간단한 내부 런북을 통합한다.
이 튜토리얼에서는 Colab에서 실행되는 OpenAI Swarm을 사용하여 고급이면서 실용적인 멀티 에이전트 시스템을 구축합니다. 트리아지 에이전트, SRE 에이전트, 통신 에이전트 및 비평가와 같은 전문 에이전트를 조율하여 실제 제품 사고 시나리오를 협력적으로 처리하는 방법을 설명합니다.

알리바바 통이 연구소는 MAI-UI를 발표했다. MCP 도구 사용, 에이전트 사용자 상호작용, 장치-클라우드 협업, 온라인 강화학습을 기반으로 한 MAI-UI는 일반 GUI 기반 및 모바일 GUI 탐색에서 최첨단 결과를 달성했다. Gemini-2.5-Pro, Seed1.8 및 UI-Tars-2를 능가하며 초기 GUI 에이전트가 종종 무시하는 세 가지 특정 간극을 대상으로 한다.

스탠포드, 하버드, UC의 최신 연구 논문인 ‘의지 있는 AI의 적응’에서는 대부분의 ‘의지 있는 AI’ 시스템이 신뢰할 수 없는 도구 사용, 약한 장기 계획, 부족한 일반화 등에 여전히 어려움을 겪고 있다고 설명하고 있다.
Griptape와 가벼운 Hugging Face 모델을 사용하여 로컬, API 없이 에이전틱 스토리텔링 시스템을 만드는 튜토리얼. 에이전트 생성, 허구의 세계 생성, 캐릭터 디자인, 일관된 단편 소설 생성을 위한 다단계 워크플로 설계 방법을 소개. 모듈식 코드 조각으로 구현을 나눠 설명.
OpenAI가 GPT-5.2를 소개했다. ChatGPT 및 API에서 사용 가능한 이 모델은 전문 업무 및 장기 에이전트에 적합하며 3가지 변형이 있다. ChatGPT에서는 ChatGPT-5.2 Instant, Thinking, Pro을 사용할 수 있고, API에서는 gpt-5.2-chat-latest, gpt-5.2, gpt-5.2-pro이다.
이 튜토리얼은 어떻게 사전에 어떻게 생각할지 결정하는 메타 추론 에이전트를 구축하는 방법에 대해 시작합니다. 모든 쿼리에 동일한 추론 프로세스를 적용하는 대신 복잡성을 평가하고 빠른 휴리스틱, 심층적인 사고 연쇄, 또는 도구 기반 계산 중에서 선택하고 실시간으로 행동을 적응시키는 시스템을 설계합니다.
이 튜토리얼에서는 문헌 말뭉치를 로드하고 검색 및 LLM 모듈을 구성하고 논문을 검색하고 가설을 생성하고 실험을 설계하며 구조화된 보고서를 생성하는 에이전트를 조립하여 과학적 발견 에이전트를 구축하는 방법을 설명합니다.
이 튜토리얼에서는 심볼릭 추론의 강점을 신경 학습과 결합하여 강력한 하이브리드 에이전트를 구축하는 방법을 보여줍니다. 우리는 구조, 규칙 및 목표 지향적 행동을 위해 고전적 계획을 사용하는 신경 기호 아키텍처를 만드는 데 초점을 맞추고, 신경망이 인식 및 행동 정제를 처리하도록합니다.

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.
이 튜토리얼에서는 Instructor 라이브러리를 사용하여 구조화된 출력물을 생성하고 복잡한 도구 호출을 신뢰성 있게 조정하는 오프라인 멀티스텝 추론 에이전트를 구축하는 방법을 탐구합니다. 올바른 도구 선택, 입력 유효성 검사, 다단계 워크플로 계획, 오류 복구를 할 수 있는 에이전트를 설계합니다.
구글이 Gemini 3 위에 위치한 에이전트 개발 플랫폼인 안티그래비티를 소개했다. 자동 완성 레이어뿐만 아니라 편집기, 터미널, 브라우저 등 여러 환경에서 복잡한 소프트웨어 작업을 기획, 실행, 설명하는 IDE로 안티그래비티는 2025년 11월 18일 Gemini 3와 함께 출시되었다.

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.
2025년에는 OpenAI의 ChatGPT Atlas, Microsoft Edge의 Copilot Mode, The Browser Company의 Dia, Perplexity의 Comet이 에이전틱 AI 브라우저 시장을 주도하고 있습니다. 각각이 자율성, 기억, 개인 정보 보호 등 다른 디자인 선택을 하고 있습니다. 이 기사는 그들의 아키텍처를 비교합니다.
이 튜토리얼에서는 메모리를 핵심 능력으로 활용하여 단일 상호작용을 넘어선 에이전틱 시스템을 구축하는 방법을 탐색합니다. 에피소딕 메모리를 설계하고 경험을 저장하며 의미론적 메모리를 활용하여 장기적인 패턴을 파악함으로써 에이전트가 여러 세션을 통해 행동을 발전시킬 수 있습니다.
Python을 사용하여 실험 설계 및 실행을 위한 지능적 에이전트인 Wet-Lab 프로토콜 플래너 및 검증기를 구축하는 튜토리얼. Salesforce의 CodeGen-350M-mono 모델을 자연어 추론에 통합하고 ProtocolParser를 사용하여 구조화된 데이터 추출.
이 튜토리얼에서는 우리에게 기억하고 배우며 시간이 지남에 따라 적응하는 지능적 에이전트를 구축하는 방법을 탐구합니다. 우리는 단순한 규칙 기반 논리를 사용하여 지속 메모리 및 개인화 시스템을 구현하고, 현대적인 에이전틱 AI 프레임워크가 맥락 정보를 저장하고 호출하는 방식을 시뮬레이션합니다.

Salesforce AI 연구팀이 WALT(웹 에이전트가 배우는 도구) 프레임워크를 소개했다. 이 프레임워크는 웹사이트의 잠재적 기능을 재사용 가능한 호출 가능한 도구로 역공학화한다. 이를 통해 브라우저 자동화를 클릭 체인이 아닌 호출 가능한 도구 중심으로 재구성하며, 에이전트는 검색, 필터링, 정렬, 댓글 작성, 목록 생성과 같은 작업을 호출한다.
이 튜토리얼에서는 uAgents 프레임워크를 사용하여 작은 기능의 다중 에이전트 시스템을 구축하는 방법을 탐구합니다. 디렉토리, 판매자 및 구매자 세 가지 에이전트를 설정하여 실제 마켓플레이스 상호 작용을 시뮬레이션하도록 잘 정의된 메시지 프로토콜을 통해 통신합니다.
본 튜토리얼에서는 Colab에서 손쉽게 실행되는 강력한 기업용 AI 어시스턴트를 구축하는 방법을 살펴봅니다. FAISS를 사용하여 문서 검색 및 FLAN-T5를 사용하여 텍스트 생성을 위해 검색 보강 생성 (RAG)을 통합하는 것으로 시작하며, 기업 정책인 데이터 마스킹, 접근 제한 등을 포함시킵니다.
컨텍스트는 중요하지만 제한적인 자원임을 강조하는 안토픽의 효과적인 컨텍스트 엔지니어링 가이드 출시. 에이전트의 품질은 모델 자체보다는 컨텍스트의 구조화와 관리에 더 의존함. 올바른 컨텍스트로 구성된 약한 LLM도 잘 수행할 수 있음.
Qualifire AI가 Rogue를 공개했는데, 이는 AI 에이전트의 성능을 평가하는 파이썬 프레임워크로, 기존 QA 방법론의 한계를 극복하고 개발팀이 믿고 릴리스를 관리할 수 있도록 도와준다.
Meta AI가 Agents Research Environments (ARE)와 Gaia2를 소개했는데, ARE는 에이전트 작업을 만들고 실행하기 위한 모듈화된 시뮬레이션 스택이고, Gaia2는 GAIA의 후속 벤치마크로 동적인, 쓰기가능한 환경에서 에이전트를 평가한다. ARE은 응용 프로그램, 환경, 이벤트, 알림 및 시나리오에 대한 추상화를 제공하며, Gaia2는 ARE 상에서 실행되며 탐색 및 실행 이외의 능력에 초점을 맞춘다.
AI 에이전트가 간단한 챗봇을 넘어 발전함에 따라, 더 강력하고 적응 가능하며 지능적인 디자인 패턴이 등장했습니다. 이러한 에이전트 디자인 패턴은 실제 세계 환경에서 복잡한 문제를 해결하기 위해 에이전트가 어떻게 생각하고 행동하며 협업하는지를 정의합니다.
Anthropic이 Petri를 출시했습니다. 이는 AI 요소들을 활용하여 대상 모델의 행동을 다양한 시나리오에서 테스트하는 오픈소스 프레임워크로, 실제적이고 다중 턴 및 도구 사용 환경에서 경계 LLMs를 감사하는 방법을 자동화합니다.
구글 AI는 Gemini 2.5 Computer Use를 소개했는데, 라이브 브라우저에서 실제 UI 작업을 계획하고 실행하는 특수한 변형이다. 사용자가 브라우저 작업을 위임할 수 있게 해주며 공개 미리 보기로 제공된다.
ASR과 WER만으로는 부족하며, 최신 상호작용형 음성 에이전트를 위한 강력한 평가는 작업 성공률, 침입 행동 및 대기시간, 소음 하에서의 환각을 측정해야 함. VoiceBench는 ASR, 안전성, 지시 따르기 외에도 일반 지식, 지시 따르기, 안전성 및 환경/내용 변화에 대한 견고성을 측정하는 다면적 음성 상호작용 벤치마크를 제공함.
OpenAI가 Pro 사용자를 위해 맞춤형 일일 브리핑을 제공하는 ChatGPT Pulse를 선보였다. 이 기능은 사용자의 채팅, 명시적 피드백, 캘린더/이메일과 같은 연결된 앱에서 정보를 수집하여 사용자 맞춤형 카드를 제공하며, ChatGPT를 요청 중심 도구에서 맥락을 이해하는 어시스턴트로 변화시킨다.
구글은 “Chrome DevTools MCP”의 공개 미리보기를 출시했는데, 이는 AI 코딩 에이전트가 실제 Chrome 인스턴스를 제어하고 검사할 수 있는 Model Context Protocol (MCP) 서버로, 성능 추적 기록, DOM 및 CSS 검사, JavaScript 실행, 콘솔 출력 읽기, 사용자 흐름 자동화 등이 가능하다.
UTCP는 AI 에이전트와 애플리케이션이 추가 래퍼 서버 없이도 도구를 찾고 호출할 수 있는 가벼우면서 안전하고 확장 가능한 방법이다. 전통적인 툴 통합 솔루션의 문제와 UTCP의 주요 기능에 대해 설명한다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.
물리 AI란 무엇인가? 로봇 공학에서의 인공지능은 영리한 알고리즘에 그치지 않는다. 로봇은 물리적 세계에서 작동하며, 그들의 지능은 몸과 두뇌의 공동 설계로부터 나온다. 물리 AI는 재료, 구동, 감지 및 계산이 학습 정책이 작동하는 방식에 어떤 형태로 영향을 미치는지를 설명한다.
실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.
AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.
NVIDIA의 새로운 프로토타입 프레임워크 ‘UDR’은 확장 가능하고 감사 가능한 딥 리서치 에이전트를 위해 개발되었다. 기존의 딥 리서치 도구들은 제한적인 워크플로와 모델 교체, 도메인별 프로토콜 적용이 어려운 문제점을 가지고 있었는데, ‘UDR’은 이러한 제약을 극복하고자 한다.
이 튜토리얼에서는 채팅 뿐만 아니라 기억도 할 수 있는 고급 AI 에이전트를 구축하는 방법을 안내합니다. 경량 LLM, FAISS 벡터 검색 및 요약 메커니즘을 결합하여 단기 및 장기 메모리를 만드는 방법을 보여줍니다. 임베딩 및 자동 압축된 사실들과 함께 작동하여 […]
LangGraph를 사용하여 대화 흐름을 구조화하고 ‘타임 트래블’을 통해 체크포인트를 거슬러 올라갈 수 있는 방법을 이해하는 튜토리얼. 자유로운 Gemini 모델과 위키피디아 도구를 통합한 챗봇을 만들어 대화에 여러 단계를 추가하고 각 체크포인트를 기록하고 재생할 수 있음.
대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.
음성 에이전트는 전화나 인터넷을 통해 실시간 대화를 나눌 수 있는 소프트웨어 시스템이다. 이전의 IVR 트리와 달리 음성 에이전트는 자유로운 형식의 음성을 처리하고, 중단을 다루며, 외부 도구 및 API(예: CRM, 예약 시스템, 결제 시스템)에 연결되어 작업을 완료할 수 있다.
금융 시장에서 인공지능(AI) 사용이 급증하고 있으며, 블랙록 연구팀은 투자 연구를 위해 알파에이전트를 제안했다. 알파에이전트 프레임워크는 다중 에이전트 시스템의 파워를 활용하여 투자 결과를 개선하고 인지 편향을 줄이며 의사 결정을 강화한다.
아마존 웹 서비스(AWS)가 아마존 베드록 에이전트코어 게이트웨이를 출시했다. 이는 기업용 AI 에이전트-도구 통합을 간소화하고 확장하기 위한 혁신적인 관리 서비스로, AI 에이전트를 수백 개의 도구와 서비스가 있는 점점 복잡해지는 환경에서 활용하려는 기업들의 핵심 과제를 해결한다.
NVIDIA가 유럽어용 Granary라는 최대 규모의 오픈소스 음성 데이터셋과 Canary-1b-v2, Parakeet-tdt-0.6b-v3 두 첨단 모델을 발표했다. 이는 특히 소수 언어에 대한 자동 음성 인식 및 음성 번역 분야에서 액세스 가능하고 고품질의 자원에 새 기준을 제시한다.
AI 에이전트가 대규모로 사용하기에 너무 비싸진 않았는가? OPPO AI 에이전트 팀의 연구 결과가 이 문제에 대한 실제 숫자와 해결책을 제시했다. 최신 AI 에이전트는 대규모 언어 처리 능력을 사용하여 거대하고 복잡한 작업을 수행할 수 있다.
실제 세계에서 자율적으로 생각하고 배우고 행동할 수 있는 AI 시스템을 만들기 위해 필요한 7가지 핵심 레이어에 대한 포괄적인 프레임워크 소개.
LangGraph는 LangChain이 디자인한 강력한 프레임워크로, 그래프 기반 접근 방식을 통해 복잡한 AI 에이전트를 구축하는 데 필요한 구조와 도구를 제공합니다.
이 튜토리얼에서는 AI 에이전트의 성능, 안전성, 신뢰성을 평가하는 고급 AI 평가 프레임워크를 만드는 방법을 안내합니다. Python의 객체지향 프로그래밍과 멀티스레딩을 활용하여 의미 유사성, 환각 탐지, 사실 정확성, 독성 및 편향 분석과 같은 다양한 평가 메트릭을 활용하는 AdvancedAIEvaluator 클래스를 구현하는 것으로 시작합니다.
2025년에는 오픈 소스 대안이 상업용 솔루션과 견줄만한 기능, 유연성, 개인 정보 보호를 제공하여 AI 기반 코딩 도구에 대한 수요가 급증했다. Zed와 같은 강력하고 비용 효율적이며 오픈 소스 코드 어시스턴트를 찾는다면 이 추천 목록을 고려해보세요.
Microsoft가 Edge에서 코파일럿 모드를 출시하면서 AI 네이티브 브라우저로 나아가며 웹 브라우징의 미래를 재정립했다. 브라우저의 새로운 가능성을 열었다.
Manus 프로젝트에서 밝혀낸 것처럼, 효과적인 AI 에이전트를 구축하는 것은 강력한 언어 모델을 선택하는 것 이상을 의미합니다. “컨텍스트 엔지니어링”은 AI가 결정을 내리기 위해 처리하는 정보인 컨텍스트를 설계하고 관리하는 방식이 중요합니다. 컨텍스트 엔지니어링은 에이전트의 속도, 비용, 신뢰성, 지능에 직접적인 영향을 미칩니다.

AI 에이전트는 환경을 인식하고 데이터를 해석하며 목표를 달성하기 위해 행동을 실행하는 자율 소프트웨어 시스템이다. 전통적인 자동화와는 달리, AI 에이전트는 의사 결정, 학습, 메모리, 다단계 계획 능력을 통합하여 복잡한 실제 과제에 적합하다.

구글은 Gemini 2.5 Pro, 딥 서치, 그리고 강력한 새로운 에이전틱 기능을 도입하며 검색과 상호작용하는 방식을 변화시키고, 검색 엔진을 보다 똑똑하고 맥락에 맞게 만들고 있다. 이러한 기능들은 현재 미국 사용자에게만 제한되어 있지만, 구글 검색 방식에 대대적인 변화를 암시한다.

2025년 현재 가장 핫한 20가지 에이전틱 인공지능 도구와 에이전트 소개. 이 포스트는 MarkTechPost에 실렸으며, AI 개발자들에게 영향을 미치는 도구와 플랫폼을 살펴볼 수 있다.

이 튜토리얼에서는 Griffe에 대해 깊이 파고들어, 고급 AI 코드 분석기의 중심으로 위치시킵니다. Griffe의 풍부한 내재 검사 능력을 활용하여 Python 패키지 구조를 실시간으로 무리없이 로드, 탐색, 해부할 수 있습니다. 본 안내서는 Griffe를 NetworkX와 같은 보조 라이브러리와 통합하는 과정을 안내합니다.

구글 딥마인드가 최근 발표한 GenAI 프로세서는 가벼운 오픈소스 파이썬 라이브러리로, 실시간 다중 모달 콘텐츠를 포함한 생성 AI 워크플로우의 조율을 간소화하는 데 사용된다. 이 라이브러리는 고급 AI 파이프라인을 구축하기 위한 고청량, 비동기 스트림 프레임워크를 제공한다.

Perplexity사가 AI 기반 검색을 통해 정보 상호작용을 재정의했는데, 이번에는 AI 네이티브 웹 브라우저인 Comet을 출시했다. Comet은 AI-First 아키텍처로 설계되어 사용자가 웹 콘텐츠를 탐색하고 상호작용하는 방식을 혁신적으로 변화시킬 예정이다.

바이트댄스가 대형 언어 모델(LLM)을 활용한 일반 목적 소프트웨어 엔지니어링 에이전트 ‘Trae Agent’를 공식 출시했다. 복잡한 프로그래밍 작업을 자연어 프롬프트를 통해 실행할 수 있는 Trae Agent는 뛰어난 성능과 확장성을 제공하는 명령줄 인터페이스(CLI)를 제공하여 개발자들이 소프트웨어와 상호 작용하는 방식을 새롭게 정의한다.

컨텍스트 엔지니어링은 대형 언어 모델(LLM)에 공급되는 컨텍스트를 설계, 조직화 및 조작하는 학문을 의미하며 모델 가중치나 아키텍처를 미세 조정하는 대신 입력에 초점을 맞춥니다. 이 기술은 프롬프트, 시스템 지침, 검색된 지식, 포맷팅 및 심지어 순서 등을 최적화하여 LLM의 성능을 향상시킵니다.

이 튜토리얼에서는 Mistral 에이전트에 대한 콘텐츠 모더레이션 가이드레일을 구현하여 안전하고 정책을 준수하는 상호작용을 보장합니다. Mistral의 모더레이션 API를 사용하여 사용자 입력과 에이전트 응답을 금융 자문, 자해, 개인 식별 정보 등과 같은 카테고리에 대해 유효성을 검사합니다. 이를 통해 유해하거나 부적절한 콘텐츠가 생성되거나 처리되는 것을 방지합니다.

심볼릭 추론의 중요성을 강조하며, AI 에이전트가 복잡한 상황에 적응할 수 있도록 하는 것이 중요하다. Dreamer와 같은 신경망 기반 모델은 유연성을 제공하지만 효과적으로 학습하기 위해 엄청난 양의 데이터가 필요하다. 반면 최근 방법들은 더 적은 양의 데이터로도 효율적인 학습이 가능하다.

이 튜토리얼에서는 LangChain, Google Gemini API 및 고급 도구 모음의 기능을 결합하여 스마트 AI 어시스턴트를 만드는 강력하고 인터랙티브한 Streamlit 애플리케이션을 구축할 것이다. Streamlit의 직관적 인터페이스를 사용하여 웹 검색, 위키피디아 콘텐츠 가져오기, 계산 수행, 키 기억 등을 수행할 수있는 채팅 기반 시스템을 만들 것이다.

BrightData의 강력한 프록시 네트워크와 Google Gemini API를 활용한 향상된 웹 스크래핑 도구 구축 방법 소개. Python 프로젝트 구조화, 필요한 라이브러리 설치 및 가져오기, BrightDataScraper 클래스 내부의 스크래핑 로직 캡슐화 등을 다룸.

소프트웨어 개발에서 AI의 사용이 커지면서 대형 언어 모델(LLMs)의 등장으로 코딩 관련 작업을 수행할 수 있는 모델이 개발되었습니다. 이러한 변화로 자율 코딩 에이전트가 설계되어 전통적으로 수행되던 작업을 지원하거나 자동화합니다.

NovelSeek는 인공지능 도구들이 특정 작업을 처리하는 데 사용되는 반면, 보다 복잡하고 데이터 중심의 문제에 직면하면 발견 속도가 느려질 수 있다는 문제를 해결하기 위해 가설 생성부터 실험 검증까지 자율적으로 수행하는 통합 멀티 에이전트 프레임워크를 소개한다.

씨스코의 최신 적극적 AI 보고서는 적극적 AI의 발전으로 B2B 기술 내 고객 경험(CX) 패러다임이 심변하고 있음을 제공. AI 에이전트는 자율적 의사 결정, 맥락 인식 및 적응 학습으로 특징 지어져 CX를 근본적으로 재구성하며, 이전에 이루기 어려웠던 정도의 개인화, 적극성 및 예측 능력을 제공한다.

이 튜토리얼에서는 구글의 첨단 Gemini API를 사용하여 정교한 자기 발전형 AI 에이전트를 만드는 방법을 살펴볼 것이다. 이 자기 발전형 에이전트는 자율적인 문제 해결을 보여주며 성능을 동적으로 평가하고 성공과 실패로부터 학습하여 반성적 분석과 자가 수정을 통해 지속적으로 능력을 향상시킨다. 이 튜토리얼은 구조화된 코드 구현을 안내하며 메모리 관리 및 기타 메커니즘에 대해 상세히 다룬다.

Magentic-UI는 복잡한 웹 작업을 처리하고 다단계 계획과 브라우저 사용이 필요한 작업을 사람들과 협력하여 완료하는 오픈 소스 에이전트 프로토타입이다.

Anthropic이 새로운 언어 모델인 클로드 오퍼스 4와 클로드 소넷 4를 출시했다. 이 업데이트는 클로드 모델 패밀리의 기술적 세련성을 대폭 향상시켰는데, 특히 구조화된 추론, 소프트웨어 엔지니어링 및 자율 에이전트 행동과 관련된 영역에서 주목할만한 발전을 이루었다.

ADK는 개발자가 다중 에이전트 시스템을 구축, 관리, 배포하는 데 도움을 주는 오픈소스 파이썬 프레임워크이다. ADK를 사용하여 간단하거나 복잡한 에이전트 기반 애플리케이션을 쉽게 만들 수 있다. 이 튜토리얼에서는 ADK를 사용해 간단한 AI 에이전트를 만드는 방법을 안내한다.

AWS가 Strands Agents SDK를 오픈 소스로 공개하여, AI 에이전트 개발을 다양한 분야에서 더 접근 가능하고 적응 가능하도록 만들었습니다. 모델 주도적 접근을 통해 복잡성을 추상화하여 지능적인 에이전트를 구축, 조정, 배포하는 작업을 쉽게 만들어줍니다.

조지아텍과 스탠포드 대학 연구진이 MLE 작업의 자동화를 탐구하고, AI 에이전트를 활용하여 엔드 투 엔드 워크플로우를 효율적으로 조율하는 데 어려움을 겪는 과제를 처리하는 것을 연구했다.

이 튜토리얼에서는 스미더리를 구성 프레임워크로 사용하여 모델 컨텍스트 프로토콜 (MCP) 서버를 배포하는 방법을 배우고, 런타임 오케스트레이터로 베리액스를 활용합니다. 스미더리를 설치하고 구성하여 MCP 엔드포인트를 정의한 다음, 베리액스를 활용하여 서버 프로세스를 구동하고 관리합니다.

AI 에이전트들은 주로 백엔드 작업을 자동화하는데 집중해왔지만, 상호작용적인 AI 애플리케이션이 늘어남에 따라 사용자와 상호작용하는 에이전트의 필요성이 대두되었다. AG-UI 프로토콜은 이러한 문제를 해결하기 위해 개발된 오픈, 가벼운, 이벤트 기반 프로토콜이다.

구글이 AI 에이전트 시스템 개발 전문가를 위한 76페이지 화이트페이퍼를 발표했다. 에이전트 평가, 다중 에이전트 협업, RAG의 진화 등에 중점을 두고 에이전트를 대규모로 운영하는 데 초점을 맞췄다.

급변하는 금융 환경에서는 전문화된 AI 에이전트를 활용하여 분석의 각 부분을 처리하는 것이 중요하며, Agno의 가벼운 모델에 중립적인 프레임워크는 Finance Agent와 Risk Assessment Agent와 같은 특정 에이전트를 신속하게 구축할 수 있도록 개발자에게 권한을 부여합니다.

Claude 데스크톱을 Tavily AI의 Model Context Protocol (MCP) 서버와 Smithery 클라이언트를 사용하여 실시간 웹 검색 및 콘텐츠 추출 기능에 연결하는 방법에 대한 실습 튜토리얼. Tavily 홈페이지 및 대시보드를 살펴보고 개발자 API 키를 생성한 후 Tavily MCP 서버를 탐색하는 과정 포함.
Google의 실험적 AI 도구인 NotebookLM이 50개 이상의 언어로 음성 요약 기능을 추가하여 글로벌 콘텐츠 접근성을 크게 향상시켰다. 초기에는 영어를 지원했던 NotebookLM이 전 세계 관객을 위해 훨씬 포괄적이고 다재다능한 플랫폼으로 진화하고 있다.
마이크로소프트의 AI 레드 팀이 에이전틱 아키텍처의 고장 모드에 대한 상세한 분류 체계를 발표했다. 이 보고서는 탄탄한 에이전틱 시스템을 설계하고 유지하려는 실무자들에게 중요한 기초 자료를 제공한다.
씨티은행의 최신 ‘에이전틱 AI 금융 및 ‘나를 대신해 해라’ 경제’ 보고서에서는 금융 서비스에서 진행 중인 중요한 패러다임 변화를 탐구한다. 이 보고서는 룰 기반 지침에 의존하는 기존 AI 시스템과는 다르게, 에이전틱 AI는 자율성을 갖추어 직접적인 인간 개입 없이 미리 예방적으로 행동하고 의사 결정을 내리며 다단계 워크플로우를 실행한다.
VoltAgent는 TypeScript 기반의 오픈 소스 프레임워크로, 모듈화된 빌딩 블록과 자율적인 에이전트를 위한 추상화를 제공하여 AI 주도 애플리케이션의 생성을 간소화합니다. 대규모 언어 모델 (LLMs), 도구 통합 및 상태 관리와 같은 복잡성을 다루기 위해 핵심 엔진을 제공합니다.