이 튜토리얼에서는 Mem0와 OpenAI 모델, ChromaDB를 활용하여 AI 에이전트를 위한 범용 장기 기억 레이어를 구축하는 방법을 소개합니다. 자연 대화에서 구조화된 기억을 추출하고, 의미적으로 저장하며, 지능적으로 검색하는 시스템을 설계합니다.
최신뉴스 전체보기

타이니피쉬가 AI 에이전트를 위한 통합 웹 인프라 플랫폼을 출시했습니다. 이 플랫폼은 검색, 데이터 수집, 브라우저 자동화 기능을 하나의 API 키로 제공합니다.
이 튜토리얼에서는 구글 ADK를 활용한 고급 데이터 분석 파이프라인을 구축하고, 실제 분석 작업을 위한 다중 에이전트 시스템으로 구성하는 방법을 설명합니다.

구글 AI 연구팀이 협업, 창의성, 비판적 사고를 측정하기 위한 LLM 기반의 Vantage 프로토콜을 제안했다. 기존의 표준화된 테스트로는 이러한 내구성 있는 기술을 평가하기 어렵다는 점을 강조하고 있다.
이 튜토리얼에서는 AgentScope 워크플로우를 처음부터 끝까지 구축하고 Colab에서 실행하는 방법을 설명합니다. OpenAI와 AgentScope를 연결하고 기본 모델 호출을 검증하는 과정이 포함됩니다.
이 튜토리얼에서는 A-Evolve 프레임워크를 사용하여 OpenAI 기반의 에이전트를 구축하고, 맞춤형 벤치마크를 정의하며, 진화 엔진을 개발하는 과정을 설명합니다.
이 튜토리얼에서는 OpenAI 호환 모델을 사용하여 CAI 사이버 보안 AI 프레임워크를 단계별로 구축하고 탐색합니다. 환경 설정부터 API 키 안전 로딩, 기본 에이전트 생성까지 다룹니다.
이 튜토리얼에서는 HKUDS의 초경량 개인 AI 에이전트 프레임워크인 나노봇을 깊이 있게 탐구합니다. 기본 시스템을 수동으로 재구성하며 나노봇의 핵심 기능을 이해하는 방법을 소개합니다.
이 튜토리얼에서는 MolmoWeb을 사용하여 스크린샷에서 직접 웹사이트를 이해하고 상호작용하는 AI 에이전트를 구축하는 방법을 소개합니다. Colab 환경을 설정하고, 4비트 양자화를 통해 MolmoWeb-4B 모델을 로드합니다.
얀 르쿤의 새로운 LeWorldModel 연구는 픽셀 데이터에서 훈련된 세계 모델이 겪는 ‘표현 붕괴’ 문제를 해결하기 위한 접근 방식을 제시합니다. 이 연구는 예측 목표를 충족하기 위해 중복된 임베딩을 생성하는 문제를 다룹니다.
이 튜토리얼에서는 Google의 새로운 오픈소스 MCP 서버인 colab-mcp를 활용하여 Google Colab 노트북과 런타임을 프로그래밍적으로 제어하는 AI 에이전트를 설계하는 방법을 소개합니다.
AI 에이전트 개발의 현재 상태는 여러 경쟁 생태계 간의 단편화로 특징지어집니다. GitAgent는 이러한 문제를 해결하기 위한 새로운 솔루션으로 주목받고 있습니다.
이 튜토리얼에서는 HKUDS가 개발한 오픈소스 에이전트 군집 지능 프레임워크인 ClawTeam의 핵심 아키텍처를 소개합니다. 복잡한 목표를 하위 작업으로 분해하는 리더 에이전트와 자율적으로 작업을 수행하는 전문 작업 에이전트의 개념을 구현합니다.

칭화대학교와 앤트 그룹의 연구진이 자율 LLM 에이전트인 OpenClaw의 취약점을 완화하기 위한 5단계 생애주기 기반 보안 프레임워크를 공개했습니다. 이 프레임워크는 OpenClaw의 ‘커널-플러그인’ 구조의 취약점을 분석한 결과에서 출발했습니다.

ServiceNow Research가 복잡한 전문 워크플로우를 수행할 수 있는 자율 에이전트를 평가하기 위한 새로운 벤치마크인 EnterpriseOps-Gym을 소개했습니다. 이 벤치마크는 기업 환경의 특정 도전 과제를 반영합니다.
이 튜토리얼에서는 OpenClaw와 Python을 사용하여 기업 수준의 AI 거버넌스 시스템을 구축하는 방법을 소개합니다. OpenClaw 런타임 설정과 API를 통한 에이전트와의 상호작용을 다룹니다.
OpenViking은 AI 에이전트를 위한 오픈소스 컨텍스트 데이터베이스로, 파일 시스템 기반의 메모리와 검색 기능을 제공합니다. 이 프로젝트는 에이전트 시스템이 컨텍스트를 단순한 텍스트 덩어리로 취급하지 않도록 설계되었습니다.

최근 AI 에이전트 생태계에서는 외부 도구와 도메인 지식 활용을 위한 두 가지 접근법인 스킬과 모델 컨텍스트 프로토콜(MCP)이 주목받고 있다. 이들은 설정과 작업 수행 방식에서 차이를 보인다.

NVIDIA가 Nemotron 3 Super를 공개했다. 이 모델은 복잡한 다중 에이전트 응용 프로그램을 위해 설계된 놀라운 1200억 파라미터 추론 모델로, 경쟁 모델보다 5배 높은 처리량을 제공한다.

NVIDIA가 Nemotron-Terminal을 공개했다. 이는 LLM 터미널 에이전트의 확장을 위한 체계적인 데이터 엔지니어링 파이프라인으로, 자율 주행 AI 에이전트 구축 경쟁에서 데이터가 병목 현상을 일으키고 있다. 새로운 모델과 훈련 전략의 불투명성은 연구자와 개발자를 고비용의 암묵적인 사이클로 몰아넣고 있다.
Andrew Ng와 그의 팀이 개발한 Context Hub은 코딩 에이전트의 정적 훈련 데이터와 현대 API의 빠르게 변화하는 현실 사이의 간극을 줄이기 위해 설계된 오픈 소스 도구입니다.

Anthropic은 Claude Code를 통해 고급 에이전틱 다단계 추론 루프를 활용해 복잡한 보안 연구를 자동화하는 코드 리뷰를 소개하고 있다. 이는 AI가 보일러플레이트만 작성하는 것을 넘어서 실제로 왜 Kubernetes 클러스터가 새벽 3시에 알람을 울리는지 이해하는 AI 에이전트를 지향하는 것이다.

Liquid AI가 LocalCowork를 발표했는데, 이는 LFM2-24B-A2B를 활용한 모델로, 기업 워크플로우를 기기 내에서 완전히 실행할 수 있도록 해준다. API 호출과 데이터 이탈을 없애 프라이버시에 민감한 환경에서 사용된다.
구글 워크스페이스 API를 애플리케이션과 데이터 파이프라인에 통합하는 것은 REST 엔드포인트, 페이지네이션, OAuth 2.0 흐름을 처리하는 보일러플레이트 코드를 작성해야 하는데, 구글 AI 팀이 ‘gws’ CLI 도구를 공개했다. 이 오픈소스 도구는 Google Workspace를 위한 통합된 동적 명령줄 인터페이스를 제공한다.

OpenAI는 심포니를 공개했습니다. 이는 구조화된 ‘실행’을 통해 자율 AI 코딩 에이전트를 관리하기 위한 오픈 소스 프레임워크로, 이 프로젝트는 이슈 트래커를 LLM 기반 에이전트에 연결하여 소프트웨어 개발 작업을 자동화하는 시스템을 제공합니다. 시스템 아키텍처는 Elixir 및 BEAM을 사용합니다.

알리바바가 오픈소스 도구인 OpenSandbox를 출시했습니다. 이 도구는 AI 에이전트에 안전하고 격리된 환경을 제공하여 코드 실행, 웹 브라우징, 모델 훈련을 가능하게 합니다. Apache 2.0 라이선스 하에 공개된 OpenSandbox는 AI 에이전트 스택의 ‘실행 레이어’를 표준화하고 여러 프로그래밍 언어에서 작동하는 통일된 API를 제공합니다.
최신 LangChain 에이전트 API를 사용하여 물류 디스패치 센터를 위한 생산 스타일의 경로 최적화 에이전트를 구축하는 튜토리얼. 에이전트가 추측하는 대신 거리, 도착 예정 시간 및 최적 경로를 신뢰성 있게 계산하고 결과를 구조화하여 하류 시스템에서 직접 사용할 수 있게 함.
본 튜토리얼에서는 간단한 채팅 상호작용을 넘어 다단계 연구 문제를 해결하는 “스위스 아미 나이프” 연구 에이전트를 구축한다. 최신 기술을 활용하여 모던 에이전트가 추론, 확인 및 보고서 작성을 어떻게 수행하는지 보여준다.

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 ‘에이전틱’ AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

Anthropic사는 Claude 4.6 Sonnet을 발표하여 개발자와 데이터 과학자가 복잡한 논리를 다루는 방식을 변화시키고, 내부 코드 실행을 통해 실시간으로 사실을 확인하는 기능을 갖춘 Improved Web Search를 함께 선보였다.
Agoda가 APIAgent를 공개했다. 이 도구는 어떤 REST 또는 GraphQL API든 Model Context Protocol (MCP)로 변환할 수 있도록 설계되었다. AI 에이전트를 구축하는 것은 중요한 과제이지만, 데이터와의 효율적인 소통이 큰 병목 현상이다.
구글은 AI 에이전트를 위한 Chrome을 플레이그라운드로 전환하고, 기존의 웹사이트 스크린샷 촬영 방식보다 빠르고 효율적인 WebMCP를 소개했다. 이를 통해 AI 에이전트가 웹사이트와 직접적이고 구조화된 상호작용을 가능하게 한다.

구글 딥마인드팀이 알레테이아를 소개했다. 알레테이아는 대회 수준의 수학과 전문 연구 사이의 간극을 메우는 특수 AI 에이전트로, 2025년 국제 수학 올림피아드(IMO)에서 금메달 수준의 성과를 거두었으며, 자연 언어로 솔루션을 반복적으로 생성, 검증 및 수정하여 연구문학을 탐색하고 장기적인 증명을 구성한다.

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

구글이 제미니 3 딥띵크의 주요 업데이트를 발표했다. 이 업데이트는 현대 과학, 연구 및 공학을 가속화하기 위해 특별히 설계되었다. 이번 업데이트는 인류의 전문가 개입이 필요했던 문제를 내부 확인을 사용해 해결하는 ‘추론 모드’로의 전환을 대표한다.

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.
구글이 Conductor를 소개했다. 이는 AI 코드 생성을 구조화된 컨텍스트 중심 워크플로로 변환하는 Gemini CLI용 오픈 소스 미리보기 확장판이다. Conductor는 제품 지식, 기술 결정 및 작업 계획을 저장하고, 이를 레포지토리 내부의 버전 관리된 Markdown으로 관리한 후, Gemini 에이전트를 이러한 파일에서 구동시킨다.
AI 에이전트를 위한 메모리 엔지니어링 레이어를 구축하는 튜토리얼. 단기 작업 컨텍스트를 장기 벡터 메모리와 서사적 추적으로 분리하고, 임베딩 및 FAISS를 사용하여 의미론적 저장을 구현하며 성공적인 경험을 재사용할 수 있도록 왜 실패했는지를 기록하는 서사 기억을 추가한다.

대부분의 AI 응용 프로그램은 여전히 모델을 챗박스로 보여줍니다. 그 인터페이스는 단순하지만, 에이전트가 실제로 하는 작업을 숨깁니다. 생성 UI는 채팅 상자뿐만 아니라 테이블, 차트, 양식 및 진행 표시기와 같은 실제 인터페이스 요소를 에이전트가 제어하도록 하는 것입니다.

Microsoft이 VibeVoice-ASR을 발표했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 사용자 지정 핫워드를 지원한다.

구글의 Universal Commerce Protocol (UCP)는 AI 상거래 에이전트가 제품 링크를 보내는 것을 넘어 채팅 내에서 믿을 수 있는 구매를 완료할 수 있는 오픈 표준이다. 이는 AI 에이전트와 상인 시스템이 공유된 언어를 갖게 함으로써 쇼핑 질의가 제품 발견부터 구매까지 이동할 수 있게 한다.

메타와 하버드 연구자들이 공개한 ‘컨퓨시우스 코드 에이전트’는 산업 규모 소프트웨어 저장소와 긴 코드베이스용으로 설계된 오픈 소스 AI 소프트웨어 엔지니어로, 중간 규모 언어 모델이 에이전트 구조와 도구 스택으로 이동함에 따라 혁신이 얼마나 발전할 수 있는지 보여줍니다.
LangGraph와 OpenAI 모델을 사용하여 간단한 계획자, 실행자 루프를 넘어진정한 고급 에이전틱 AI 시스템을 구축하는 튜토리얼. 에이전트가 빠른 논리와 심층적 추론 사이에 동적으로 선택하는 적응적 규의, 원자적 지식을 저장하고 관련 경험을 자동으로 연결하는 Zettelkasten 스타일의 에이전틱 메모리 그래프, 그리고 통제된 도구 사용을 구현.
이 튜토리얼에서는 AgentScope를 사용하여 고급 Multi-Agent 사고 대응 시스템을 구축한다. 각각 라우팅, 진단, 분석, 작성 및 검토와 같이 명확히 정의된 역할을 가진 여러 ReAct 에이전트를 조율하고 구조화된 라우팅과 공유 메시지 허브를 통해 이들을 연결한다. OpenAI 모델 통합, 가벼운 도구 호출 및 간단한 내부 런북을 통합한다.
이 튜토리얼에서는 Colab에서 실행되는 OpenAI Swarm을 사용하여 고급이면서 실용적인 멀티 에이전트 시스템을 구축합니다. 트리아지 에이전트, SRE 에이전트, 통신 에이전트 및 비평가와 같은 전문 에이전트를 조율하여 실제 제품 사고 시나리오를 협력적으로 처리하는 방법을 설명합니다.

알리바바 통이 연구소는 MAI-UI를 발표했다. MCP 도구 사용, 에이전트 사용자 상호작용, 장치-클라우드 협업, 온라인 강화학습을 기반으로 한 MAI-UI는 일반 GUI 기반 및 모바일 GUI 탐색에서 최첨단 결과를 달성했다. Gemini-2.5-Pro, Seed1.8 및 UI-Tars-2를 능가하며 초기 GUI 에이전트가 종종 무시하는 세 가지 특정 간극을 대상으로 한다.

스탠포드, 하버드, UC의 최신 연구 논문인 ‘의지 있는 AI의 적응’에서는 대부분의 ‘의지 있는 AI’ 시스템이 신뢰할 수 없는 도구 사용, 약한 장기 계획, 부족한 일반화 등에 여전히 어려움을 겪고 있다고 설명하고 있다.
Griptape와 가벼운 Hugging Face 모델을 사용하여 로컬, API 없이 에이전틱 스토리텔링 시스템을 만드는 튜토리얼. 에이전트 생성, 허구의 세계 생성, 캐릭터 디자인, 일관된 단편 소설 생성을 위한 다단계 워크플로 설계 방법을 소개. 모듈식 코드 조각으로 구현을 나눠 설명.
OpenAI가 GPT-5.2를 소개했다. ChatGPT 및 API에서 사용 가능한 이 모델은 전문 업무 및 장기 에이전트에 적합하며 3가지 변형이 있다. ChatGPT에서는 ChatGPT-5.2 Instant, Thinking, Pro을 사용할 수 있고, API에서는 gpt-5.2-chat-latest, gpt-5.2, gpt-5.2-pro이다.
이 튜토리얼은 어떻게 사전에 어떻게 생각할지 결정하는 메타 추론 에이전트를 구축하는 방법에 대해 시작합니다. 모든 쿼리에 동일한 추론 프로세스를 적용하는 대신 복잡성을 평가하고 빠른 휴리스틱, 심층적인 사고 연쇄, 또는 도구 기반 계산 중에서 선택하고 실시간으로 행동을 적응시키는 시스템을 설계합니다.
이 튜토리얼에서는 문헌 말뭉치를 로드하고 검색 및 LLM 모듈을 구성하고 논문을 검색하고 가설을 생성하고 실험을 설계하며 구조화된 보고서를 생성하는 에이전트를 조립하여 과학적 발견 에이전트를 구축하는 방법을 설명합니다.
이 튜토리얼에서는 심볼릭 추론의 강점을 신경 학습과 결합하여 강력한 하이브리드 에이전트를 구축하는 방법을 보여줍니다. 우리는 구조, 규칙 및 목표 지향적 행동을 위해 고전적 계획을 사용하는 신경 기호 아키텍처를 만드는 데 초점을 맞추고, 신경망이 인식 및 행동 정제를 처리하도록합니다.

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.
이 튜토리얼에서는 Instructor 라이브러리를 사용하여 구조화된 출력물을 생성하고 복잡한 도구 호출을 신뢰성 있게 조정하는 오프라인 멀티스텝 추론 에이전트를 구축하는 방법을 탐구합니다. 올바른 도구 선택, 입력 유효성 검사, 다단계 워크플로 계획, 오류 복구를 할 수 있는 에이전트를 설계합니다.
구글이 Gemini 3 위에 위치한 에이전트 개발 플랫폼인 안티그래비티를 소개했다. 자동 완성 레이어뿐만 아니라 편집기, 터미널, 브라우저 등 여러 환경에서 복잡한 소프트웨어 작업을 기획, 실행, 설명하는 IDE로 안티그래비티는 2025년 11월 18일 Gemini 3와 함께 출시되었다.

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.
2025년에는 OpenAI의 ChatGPT Atlas, Microsoft Edge의 Copilot Mode, The Browser Company의 Dia, Perplexity의 Comet이 에이전틱 AI 브라우저 시장을 주도하고 있습니다. 각각이 자율성, 기억, 개인 정보 보호 등 다른 디자인 선택을 하고 있습니다. 이 기사는 그들의 아키텍처를 비교합니다.
이 튜토리얼에서는 메모리를 핵심 능력으로 활용하여 단일 상호작용을 넘어선 에이전틱 시스템을 구축하는 방법을 탐색합니다. 에피소딕 메모리를 설계하고 경험을 저장하며 의미론적 메모리를 활용하여 장기적인 패턴을 파악함으로써 에이전트가 여러 세션을 통해 행동을 발전시킬 수 있습니다.
Python을 사용하여 실험 설계 및 실행을 위한 지능적 에이전트인 Wet-Lab 프로토콜 플래너 및 검증기를 구축하는 튜토리얼. Salesforce의 CodeGen-350M-mono 모델을 자연어 추론에 통합하고 ProtocolParser를 사용하여 구조화된 데이터 추출.
이 튜토리얼에서는 우리에게 기억하고 배우며 시간이 지남에 따라 적응하는 지능적 에이전트를 구축하는 방법을 탐구합니다. 우리는 단순한 규칙 기반 논리를 사용하여 지속 메모리 및 개인화 시스템을 구현하고, 현대적인 에이전틱 AI 프레임워크가 맥락 정보를 저장하고 호출하는 방식을 시뮬레이션합니다.

Salesforce AI 연구팀이 WALT(웹 에이전트가 배우는 도구) 프레임워크를 소개했다. 이 프레임워크는 웹사이트의 잠재적 기능을 재사용 가능한 호출 가능한 도구로 역공학화한다. 이를 통해 브라우저 자동화를 클릭 체인이 아닌 호출 가능한 도구 중심으로 재구성하며, 에이전트는 검색, 필터링, 정렬, 댓글 작성, 목록 생성과 같은 작업을 호출한다.
이 튜토리얼에서는 uAgents 프레임워크를 사용하여 작은 기능의 다중 에이전트 시스템을 구축하는 방법을 탐구합니다. 디렉토리, 판매자 및 구매자 세 가지 에이전트를 설정하여 실제 마켓플레이스 상호 작용을 시뮬레이션하도록 잘 정의된 메시지 프로토콜을 통해 통신합니다.
본 튜토리얼에서는 Colab에서 손쉽게 실행되는 강력한 기업용 AI 어시스턴트를 구축하는 방법을 살펴봅니다. FAISS를 사용하여 문서 검색 및 FLAN-T5를 사용하여 텍스트 생성을 위해 검색 보강 생성 (RAG)을 통합하는 것으로 시작하며, 기업 정책인 데이터 마스킹, 접근 제한 등을 포함시킵니다.
컨텍스트는 중요하지만 제한적인 자원임을 강조하는 안토픽의 효과적인 컨텍스트 엔지니어링 가이드 출시. 에이전트의 품질은 모델 자체보다는 컨텍스트의 구조화와 관리에 더 의존함. 올바른 컨텍스트로 구성된 약한 LLM도 잘 수행할 수 있음.
Qualifire AI가 Rogue를 공개했는데, 이는 AI 에이전트의 성능을 평가하는 파이썬 프레임워크로, 기존 QA 방법론의 한계를 극복하고 개발팀이 믿고 릴리스를 관리할 수 있도록 도와준다.
Meta AI가 Agents Research Environments (ARE)와 Gaia2를 소개했는데, ARE는 에이전트 작업을 만들고 실행하기 위한 모듈화된 시뮬레이션 스택이고, Gaia2는 GAIA의 후속 벤치마크로 동적인, 쓰기가능한 환경에서 에이전트를 평가한다. ARE은 응용 프로그램, 환경, 이벤트, 알림 및 시나리오에 대한 추상화를 제공하며, Gaia2는 ARE 상에서 실행되며 탐색 및 실행 이외의 능력에 초점을 맞춘다.
AI 에이전트가 간단한 챗봇을 넘어 발전함에 따라, 더 강력하고 적응 가능하며 지능적인 디자인 패턴이 등장했습니다. 이러한 에이전트 디자인 패턴은 실제 세계 환경에서 복잡한 문제를 해결하기 위해 에이전트가 어떻게 생각하고 행동하며 협업하는지를 정의합니다.
Anthropic이 Petri를 출시했습니다. 이는 AI 요소들을 활용하여 대상 모델의 행동을 다양한 시나리오에서 테스트하는 오픈소스 프레임워크로, 실제적이고 다중 턴 및 도구 사용 환경에서 경계 LLMs를 감사하는 방법을 자동화합니다.
구글 AI는 Gemini 2.5 Computer Use를 소개했는데, 라이브 브라우저에서 실제 UI 작업을 계획하고 실행하는 특수한 변형이다. 사용자가 브라우저 작업을 위임할 수 있게 해주며 공개 미리 보기로 제공된다.
ASR과 WER만으로는 부족하며, 최신 상호작용형 음성 에이전트를 위한 강력한 평가는 작업 성공률, 침입 행동 및 대기시간, 소음 하에서의 환각을 측정해야 함. VoiceBench는 ASR, 안전성, 지시 따르기 외에도 일반 지식, 지시 따르기, 안전성 및 환경/내용 변화에 대한 견고성을 측정하는 다면적 음성 상호작용 벤치마크를 제공함.
OpenAI가 Pro 사용자를 위해 맞춤형 일일 브리핑을 제공하는 ChatGPT Pulse를 선보였다. 이 기능은 사용자의 채팅, 명시적 피드백, 캘린더/이메일과 같은 연결된 앱에서 정보를 수집하여 사용자 맞춤형 카드를 제공하며, ChatGPT를 요청 중심 도구에서 맥락을 이해하는 어시스턴트로 변화시킨다.
구글은 “Chrome DevTools MCP”의 공개 미리보기를 출시했는데, 이는 AI 코딩 에이전트가 실제 Chrome 인스턴스를 제어하고 검사할 수 있는 Model Context Protocol (MCP) 서버로, 성능 추적 기록, DOM 및 CSS 검사, JavaScript 실행, 콘솔 출력 읽기, 사용자 흐름 자동화 등이 가능하다.
UTCP는 AI 에이전트와 애플리케이션이 추가 래퍼 서버 없이도 도구를 찾고 호출할 수 있는 가벼우면서 안전하고 확장 가능한 방법이다. 전통적인 툴 통합 솔루션의 문제와 UTCP의 주요 기능에 대해 설명한다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.
물리 AI란 무엇인가? 로봇 공학에서의 인공지능은 영리한 알고리즘에 그치지 않는다. 로봇은 물리적 세계에서 작동하며, 그들의 지능은 몸과 두뇌의 공동 설계로부터 나온다. 물리 AI는 재료, 구동, 감지 및 계산이 학습 정책이 작동하는 방식에 어떤 형태로 영향을 미치는지를 설명한다.
실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.
AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.
NVIDIA의 새로운 프로토타입 프레임워크 ‘UDR’은 확장 가능하고 감사 가능한 딥 리서치 에이전트를 위해 개발되었다. 기존의 딥 리서치 도구들은 제한적인 워크플로와 모델 교체, 도메인별 프로토콜 적용이 어려운 문제점을 가지고 있었는데, ‘UDR’은 이러한 제약을 극복하고자 한다.
이 튜토리얼에서는 채팅 뿐만 아니라 기억도 할 수 있는 고급 AI 에이전트를 구축하는 방법을 안내합니다. 경량 LLM, FAISS 벡터 검색 및 요약 메커니즘을 결합하여 단기 및 장기 메모리를 만드는 방법을 보여줍니다. 임베딩 및 자동 압축된 사실들과 함께 작동하여 […]
LangGraph를 사용하여 대화 흐름을 구조화하고 ‘타임 트래블’을 통해 체크포인트를 거슬러 올라갈 수 있는 방법을 이해하는 튜토리얼. 자유로운 Gemini 모델과 위키피디아 도구를 통합한 챗봇을 만들어 대화에 여러 단계를 추가하고 각 체크포인트를 기록하고 재생할 수 있음.
대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.
음성 에이전트는 전화나 인터넷을 통해 실시간 대화를 나눌 수 있는 소프트웨어 시스템이다. 이전의 IVR 트리와 달리 음성 에이전트는 자유로운 형식의 음성을 처리하고, 중단을 다루며, 외부 도구 및 API(예: CRM, 예약 시스템, 결제 시스템)에 연결되어 작업을 완료할 수 있다.
금융 시장에서 인공지능(AI) 사용이 급증하고 있으며, 블랙록 연구팀은 투자 연구를 위해 알파에이전트를 제안했다. 알파에이전트 프레임워크는 다중 에이전트 시스템의 파워를 활용하여 투자 결과를 개선하고 인지 편향을 줄이며 의사 결정을 강화한다.
아마존 웹 서비스(AWS)가 아마존 베드록 에이전트코어 게이트웨이를 출시했다. 이는 기업용 AI 에이전트-도구 통합을 간소화하고 확장하기 위한 혁신적인 관리 서비스로, AI 에이전트를 수백 개의 도구와 서비스가 있는 점점 복잡해지는 환경에서 활용하려는 기업들의 핵심 과제를 해결한다.
NVIDIA가 유럽어용 Granary라는 최대 규모의 오픈소스 음성 데이터셋과 Canary-1b-v2, Parakeet-tdt-0.6b-v3 두 첨단 모델을 발표했다. 이는 특히 소수 언어에 대한 자동 음성 인식 및 음성 번역 분야에서 액세스 가능하고 고품질의 자원에 새 기준을 제시한다.
AI 에이전트가 대규모로 사용하기에 너무 비싸진 않았는가? OPPO AI 에이전트 팀의 연구 결과가 이 문제에 대한 실제 숫자와 해결책을 제시했다. 최신 AI 에이전트는 대규모 언어 처리 능력을 사용하여 거대하고 복잡한 작업을 수행할 수 있다.
실제 세계에서 자율적으로 생각하고 배우고 행동할 수 있는 AI 시스템을 만들기 위해 필요한 7가지 핵심 레이어에 대한 포괄적인 프레임워크 소개.
LangGraph는 LangChain이 디자인한 강력한 프레임워크로, 그래프 기반 접근 방식을 통해 복잡한 AI 에이전트를 구축하는 데 필요한 구조와 도구를 제공합니다.
이 튜토리얼에서는 AI 에이전트의 성능, 안전성, 신뢰성을 평가하는 고급 AI 평가 프레임워크를 만드는 방법을 안내합니다. Python의 객체지향 프로그래밍과 멀티스레딩을 활용하여 의미 유사성, 환각 탐지, 사실 정확성, 독성 및 편향 분석과 같은 다양한 평가 메트릭을 활용하는 AdvancedAIEvaluator 클래스를 구현하는 것으로 시작합니다.
2025년에는 오픈 소스 대안이 상업용 솔루션과 견줄만한 기능, 유연성, 개인 정보 보호를 제공하여 AI 기반 코딩 도구에 대한 수요가 급증했다. Zed와 같은 강력하고 비용 효율적이며 오픈 소스 코드 어시스턴트를 찾는다면 이 추천 목록을 고려해보세요.
Microsoft가 Edge에서 코파일럿 모드를 출시하면서 AI 네이티브 브라우저로 나아가며 웹 브라우징의 미래를 재정립했다. 브라우저의 새로운 가능성을 열었다.
Manus 프로젝트에서 밝혀낸 것처럼, 효과적인 AI 에이전트를 구축하는 것은 강력한 언어 모델을 선택하는 것 이상을 의미합니다. “컨텍스트 엔지니어링”은 AI가 결정을 내리기 위해 처리하는 정보인 컨텍스트를 설계하고 관리하는 방식이 중요합니다. 컨텍스트 엔지니어링은 에이전트의 속도, 비용, 신뢰성, 지능에 직접적인 영향을 미칩니다.

AI 에이전트는 환경을 인식하고 데이터를 해석하며 목표를 달성하기 위해 행동을 실행하는 자율 소프트웨어 시스템이다. 전통적인 자동화와는 달리, AI 에이전트는 의사 결정, 학습, 메모리, 다단계 계획 능력을 통합하여 복잡한 실제 과제에 적합하다.

구글은 Gemini 2.5 Pro, 딥 서치, 그리고 강력한 새로운 에이전틱 기능을 도입하며 검색과 상호작용하는 방식을 변화시키고, 검색 엔진을 보다 똑똑하고 맥락에 맞게 만들고 있다. 이러한 기능들은 현재 미국 사용자에게만 제한되어 있지만, 구글 검색 방식에 대대적인 변화를 암시한다.

2025년 현재 가장 핫한 20가지 에이전틱 인공지능 도구와 에이전트 소개. 이 포스트는 MarkTechPost에 실렸으며, AI 개발자들에게 영향을 미치는 도구와 플랫폼을 살펴볼 수 있다.

이 튜토리얼에서는 Griffe에 대해 깊이 파고들어, 고급 AI 코드 분석기의 중심으로 위치시킵니다. Griffe의 풍부한 내재 검사 능력을 활용하여 Python 패키지 구조를 실시간으로 무리없이 로드, 탐색, 해부할 수 있습니다. 본 안내서는 Griffe를 NetworkX와 같은 보조 라이브러리와 통합하는 과정을 안내합니다.

구글 딥마인드가 최근 발표한 GenAI 프로세서는 가벼운 오픈소스 파이썬 라이브러리로, 실시간 다중 모달 콘텐츠를 포함한 생성 AI 워크플로우의 조율을 간소화하는 데 사용된다. 이 라이브러리는 고급 AI 파이프라인을 구축하기 위한 고청량, 비동기 스트림 프레임워크를 제공한다.

Perplexity사가 AI 기반 검색을 통해 정보 상호작용을 재정의했는데, 이번에는 AI 네이티브 웹 브라우저인 Comet을 출시했다. Comet은 AI-First 아키텍처로 설계되어 사용자가 웹 콘텐츠를 탐색하고 상호작용하는 방식을 혁신적으로 변화시킬 예정이다.

바이트댄스가 대형 언어 모델(LLM)을 활용한 일반 목적 소프트웨어 엔지니어링 에이전트 ‘Trae Agent’를 공식 출시했다. 복잡한 프로그래밍 작업을 자연어 프롬프트를 통해 실행할 수 있는 Trae Agent는 뛰어난 성능과 확장성을 제공하는 명령줄 인터페이스(CLI)를 제공하여 개발자들이 소프트웨어와 상호 작용하는 방식을 새롭게 정의한다.

컨텍스트 엔지니어링은 대형 언어 모델(LLM)에 공급되는 컨텍스트를 설계, 조직화 및 조작하는 학문을 의미하며 모델 가중치나 아키텍처를 미세 조정하는 대신 입력에 초점을 맞춥니다. 이 기술은 프롬프트, 시스템 지침, 검색된 지식, 포맷팅 및 심지어 순서 등을 최적화하여 LLM의 성능을 향상시킵니다.


