이 튜토리얼에서는 Hugging Face transformers를 활용하여 원활하게 작동하는 소형이지만 능력있는 AI 에이전트를 설정하는 방법을 설명합니다. 대화 생성, 질의응답, 감정 분석, 웹 검색 스텁, 날씨 조회, 안전한 계산기를 하나의 Python 클래스에 통합합니다. 중요한 라이브러리만 설치하고 가벼운 모델을 로드하며 진행합니다.
최신뉴스 전체보기

리버풀 대학, 화웨이 노아아크 랩, 옥스포드 대학 및 런던 대학 연구진이 소개하는 Deep Research Agents(DR 에이전트)는 대형 언어 모델(LLM)을 기반으로 한 자율 연구 시스템으로, 동적 추론, 적응 등을 필요로 하는 복잡하고 장기적인 작업을 수행할 수 있도록 설계되었다.

LangGraph와 Google의 Gemini API를 사용하여 Researcher, Analyst, Writer, Supervisor 역할을 하는 다중 에이전트 연구팀 시스템을 구축하였다. 이들 에이전트는 데이터 수집, 인사이트 분석, 보고서 요약 및 워크플로우 조정을 협업적으로 수행한다.

2025년 7월 17일, OpenAI가 ChatGPT 에이전트를 출시하며 대화형 어시스턴트에서 웹 브라우징부터 코드 실행까지 가상 컴퓨터 환경에서 복잡한 다단계 작업을 자율적으로 수행할 수 있는 통합 AI 에이전트로 변모시켰다. ChatGPT 에이전트는 이전 두 도구를 기반으로 구축되었으며, 이전 기능들의 한계를 극복하고 있다.

본 튜토리얼에서는 CrewAI와 Google의 Gemini 모델을 사용하여 최적화된 다중 AI 에이전트 시스템을 구축하는 방법을 안내합니다. 연구, 데이터 분석, 콘텐츠 생성, 품질 보증을 위한 특화된 에이전트들을 순차적 협업에 최적화된 상태로 설치하고 구성합니다.

아마존이 새롭고 혁신적인 AI 통합 개발 환경 ‘Kiro’를 발표했다. 오늘의 AI 코딩 어시스턴트의 능력을 훨씬 뛰어넘는 Kiro는 명세 주도 개발, 지능적 자동화, 적응형 사용자 인터페이스에 혁신을 제공한다.

구글의 Gemini Embedding 텍스트 모델 gemini-embedding-001이 Gemini API와 Google AI Studio를 통해 개발자들에게 일반적으로 제공되었으며, 강력한 다국어 및 유연한 텍스트 표현 기능을 AI 생태계로 확대시켰다. 다국어 지원, 차원적 유연성 기술 명세 및 모델 성능 주요 기능 메트릭/작업 Gemini-embedding-001 레거시 구글 모델 Cohere v3.0 OpenAI-3-large MTEB (다국어) 평균 […]

MLflow는 머신러닝 실험을 관리하고 추적하는 오픈소스 플랫폼이다. OpenAI Agents SDK와 함께 사용할 때 MLflow는 에이전트 응답 추적을 자동화한다. 에이전트 간의 협력이나 동적 함수 호출이 필요한 다중 에이전트 시스템을 구축할 때 유용하다.

구글 DeepMind와 구글 연구가 MedGemma 우산 아래 두 가지 새로운 모델을 소개했습니다. MedGemma 27B는 대규모 비전-언어 기반 모델이며 MedSigLIP는 가벼운 의학 이미지-텍스트 인코더입니다. 이들은 건강 인공지능 분야에서 가장 능력있는 오픈 소스 모델입니다.

Salesforce AI가 새로운 GUI 에이전트인 GTA1을 소개했다. GTA1은 리눅스와 같은 OS 환경에서 자율적으로 작동하며, 모호한 작업 계획과 부정확한 행동 기반에 대한 두 가지 핵심 병목 현상을 해결한다. 45.2%의 작업 성공률을 보이며 OpenAI의 CUA를 능가한다.

Microsoft이 AI 기반 코딩 어시스턴트인 GitHub Copilot 채팅 익스텐션을 모든 개발자에게 무료로 공개했다. 이전에는 구독이 필요했던 기능이 이제 MIT 라이선스로 공개되어 누구나 사용 가능하다.

Hugging Face가 SmolLM3을 공개했다. 3B 파라미터 아키텍처를 사용하여 강력한 다국어 추론을 제공하며 상태-of-the-art 성능을 획득하였다. 더 적은 파라미터로 비용 효율적이고 제약된 환경에서도 배포 가능하다.

BeeAI 프레임워크를 사용하여 다중 에이전트 시스템을 구축하는 방법을 탐구하는 튜토리얼. BeeAI가 지능적이고 협력적인 에이전트의 개발을 어떻게 간단하게 만드는지 보여줌.

본 튜토리얼에서는 PrimisAI Nexus 프레임워크를 활용하여 OpenAI API와 통합된 다중 에이전트 작업 자동화 시스템을 구축하는 방법을 소개합니다. 계층적 감독, 지능적인 도구 활용 및 구조화된 출력을 통해 여러 AI 에이전트의 협조를 통해 복잡한 작업을 수행하는 방법을 보여줍니다.

Osmosis AI가 고도로 정확하고 구조화된 코드 병합 작업을 수행하기 위해 설계된 Osmosis-Apply-1.7B를 오픈소스로 공개했다. 이 모델은 IDE 에이전트에서 영감을 받아 문맥에 민감하고 함수 수준의 코드 편집에 최적화되어 있으며, 코드 특정 포맷팅을 활용하여 더 적은 파라미터로 강력한 성능을 달성한다.

ACP는 AI 에이전트, 애플리케이션, 인간 간 원활한 통신을 위한 오픈 표준이다. 다양한 프레임워크 및 인프라를 사용하여 개발된 AI 시스템은 종종 격리되어 호환되지 않을 수 있는데, ACP는 이러한 단절을 해소하고 통일된 RESTful API를 제공하여 협업 능력을 확장한다.

BioCypher AI 에이전트를 구현하여 생명 과학 지식 그래프를 구축, 쿼리 및 분석하는 튜토리얼. BioCypher의 강점과 NetworkX의 유연성을 결합하여 복잡한 생물 관계를 시뮬레이션할 수 있도록 사용자에게 권한을 부여.

Together AI가 최신 기술인 강화학습을 통해 완전히 오픈소스로 훈련된 소프트웨어 공학 에이전트인 DeepSWE를 출시했다. Qwen3-32B 언어 모델을 기반으로 한 DeepSWE는 SWEBench-Verified 벤치마크에서 59% 정확도와 42.2% Pass@1을 달성하여 오픈 웨이트 모델 중 최고의 성과를 거뒀다.

이 튜토리얼에서는 AutoGen과 Semantic Kernel을 Google의 Gemini Flash 모델과 원활하게 통합하는 방법을 안내합니다. GeminiWrapper 및 SemanticKernelGeminiPlugin 클래스를 설정하여 Gemini의 생성력과 AutoGen의 Multi-Agent Orchestration을 연결하는 과정부터 코드 리뷰어에서 창의적 분석가까지 다양한 전문 에이전트를 구성하는 방법을 보여줍니다.

Python을 사용하여 LangChain으로 구동되는 AI 에이전트에 통합할 수 있는 강력하고 지능적인 데이터 분석 도구를 만드는 방법을 안내하는 튜토리얼. 사용자 입력을 위한 구조화된 스키마를 정의하고 상관 분석과 같은 주요 기능을 구현함으로써 사용자 정의 AI 에이전트를 구축하는 중요성을 강조.

텐센트의 훈유안 팀이 희소 MoE 아키텍처로 구축한 새로운 오픈소스 대형 언어 모델인 훈유안-A13B를 소개했다. 이 모델은 80억 개의 총 파라미터 중 추론 중에는 13억 개만 활성화되어 성능과 계산 비용 사이에 뛰어난 효율을 제공한다. 그룹화된 쿼리 어텐션 (GQA), 256K 컨텍스트 길이 등을 지원한다.

Gemini CLI는 AI를 활용하여 개발자의 업무를 강화하는 강력한 명령줄 도구이다. 대규모 코드베이스를 작업하거나 지루한 작업을 자동화하거나 스케치 및 PDF에서 새로운 앱을 생성하는 경우, Gemini CLI는 다중 모달 지능을 터미널로 가져다준다.

Nebius의 강력한 생태계를 활용하여 구축된 고급 AI 에이전트를 소개합니다. 에이전트는 Llama-3.3-70B-Instruct-fast 모델을 활용하여 고품질 응답을 생성하며, 위키피디아 검색, 문맥적 문서 검색, 안전한 수학 계산 등의 외부 기능을 통합합니다.

MIT와 NUS 연구진은 메모리 사용량이 폭발하는 문제 해결을 위해 장기적인 대화 에이전트를 위한 메모리 효율적인 프레임워크 MEM1을 소개했다. 기존 시스템의 문제점을 보완하여 성능 향상과 더 나은 추론을 이끌어냈다.

구글은 Gemini CLI를 발표했는데, 이는 Gemini 2.5 Pro 모델을 터미널에 직접 통합한 오픈소스 커맨드 라인 AI 에이전트다. 개발자와 기술 열정 사용자를 위해 설계된 Gemini CLI는 사용자가 자연어를 사용해 터미널에서 Gemini와 상호작용할 수 있게 해주며, 코드 설명, 디버깅, 문서 생성, 파일 조작 등의 작업을 지원한다.

Moonshot AI가 Kimi-Researcher를 발표했다. 이는 복잡한 추론과 웹 규모 검색을 위해 강화 학습으로 훈련된 에이전트이다.

CMU 연구진이 웹 환경을 위한 디지털 에이전트들이 동적 웹 인터페이스에 어려움을 겪는 이유와 이를 극복하기 위해 그래프 기반 프레임워크 ‘Go-Browse’를 소개했다. 이 프레임워크는 확장 가능한 웹 에이전트 훈련을 위해 개발되었으며, 웹 페이지 탐색, 클릭, 양식 제출 등의 작업을 자동화한다.

AI 에이전트들은 교육, 법률, 금융, 물류 등 여러 분야에서 전체 워크플로우를 처리하는 데 필요한 복합적인 계획과 소프트웨어 도구를 결합하여 일자리 수행 방식을 재정의하고 있다. 스탠포드 연구에 따르면, 새로운 AI 프레임워크는 어디서 AI가 일자리를 자동화하고 어디서는 보조해야 하는지 평가할 수 있다.

대규모 기업의 기술 리더들과의 회의 중에 발생한 LLM 환각 현상에 대한 해결책에 대해 논의하던 중에 발생한 이야기.

IBM의 MCP Gateway는 FastAPI 기반의 게이트웨이를 제공하여 모델 컨텍스트 프로토콜 (MCP)에 대한 통합 인터페이스를 제공하며, 현대 AI 툴체인을 확장하고 관리하는 데 도움을 줍니다.

이 튜토리얼에서는 UAgents 프레임워크를 사용하여 Google Gemini API 위에 가벼운 이벤트 주도형 AI 에이전트 아키텍처를 구축하는 방법을 보여줍니다. nest_asyncio를 적용하여 중첩된 이벤트 루프를 활성화하고 Gemini API 키를 구성한 다음 GenAI 클라이언트를 인스턴스화하는 방법을 설명합니다.

AI 에이전트는 순수한 백엔드 자동화에서 현대 애플리케이션 내에서 시각적이고 협력적인 요소로 이동하고 있습니다. 그러나 사용자에게 응답하고 업무를 적극적으로 안내할 수 있는 상호작용이 가능한 에이전트를 만드는 것은 엔지니어링적인 머리아픔이 오래전부터 계속되어왔습니다.

작은 언어 모델(SLMs)이 인간과 유사한 능력과 대화 기술로 널리 존경받지만, 기계학습 AI 시스템의 성장으로 인해 반복적이고 전문화된 작업에 점점 더 활용되고 있다. 주요 IT 기업의 절반 이상이 이미 AI 에이전트를 사용하고 있으며, 상당한 자금과 예상된 투자를 받고 있다.

파이썬 A2A는 구글의 에이전트 간(A2A) 프로토콜의 구현으로, AI 에이전트들이 서로 통신할 수 있게 해줍니다. 이 튜토리얼에서는 파이썬-a2a 라이브러리가 제공하는 데코레이터 기반 방법을 사용합니다. 간단한 @agent와 @skill 데코레이터를 사용하여 에이전트의 기능을 정의할 수 있습니다.

AI 기반 개발에서 코딩 에이전트는 필수적인 협업자로 자리 잡았다. 이러한 독립적 또는 준자율적 도구는 코드를 작성, 테스트, 리팩토링하여 개발 주기를 현격히 가속화한다. 그러나 하나의 코드베이스에서 작업하는 에이전트 수가 증가함에 따라 의존성 충돌, 에이전트 간의 상태 누출, 각 에이전트의 작업 추적의 어려움도 커진다.

본 튜토리얼에서는 Riza의 안전한 Python 실행을 기반으로 강력한 다기능 AI 에이전트를 Google Colab에서 구축하는 방법을 안내합니다. Riza 자격 증명을 구성하여 검사 가능한 코드 실행을 가능하게하고, LangChain 에이전트에 Riza의 ExecPython 도구를 통합합니다.

AI-주도 개발이 소프트웨어 제작을 재정의함에 따라, “vibe 코딩”이 개발자가 원하는 대로 말하면 에이전트가 구축하는 패러다임 전환적 방법으로 등장했다. Andrej Karpathy가 만든 용어는 코드 중심적 워크플로우에서 자연어 기반 소프트웨어 프로토타이핑으로의 전환을 반영한다. 신뢰할만한 vibe 코딩 도구 목록을 소개한다.

Mistral 에이전트 API의 핸드오프 기능을 활용하여 스마트하고 멀티 에이전트 워크플로우를 만드는 방법을 살펴본다. 이를 통해 다른 에이전트들이 서로 작업을 전달하면서 복잡한 문제를 모듈화되고 효율적인 방식으로 해결할 수 있다. 인플레이션 관련 질문에 답변하기 위해 협업하는 에이전트 시스템을 구축할 것이다.

Gemini 에이전트 네트워크 프로토콜을 소개하는 튜토리얼. Google의 Gemini 모델을 활용하여 AI 에이전트 간의 지능적인 협업을 가능하게 하는 프레임워크로, 분석가, 연구원, 합성기 및 검증자 역할을 가진 에이전트들 사이의 동적 통신을 용이하게 함.

대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개

모델 컨텍스트 프로토콜(MCP)은 2024년 11월에 Anthropic에 의해 소개되었으며, AI 모델이 JSON-RPC 2.0 기반의 프로토콜을 통해 외부 도구와 상호 작용할 수 있도록 하는 표준화된 안전한 인터페이스를 제공한다. Claude, Gemini, OpenAI에서 이미 MCP를 지원하고 있으며, 빠르게 채택되고 있다.

Mistral 에이전트에서 함수 호출을 활성화하는 방법을 살펴보는 튜토리얼. 함수의 입력 매개변수를 명확한 스키마로 정의하여 사용자 정의 도구를 에이전트에서 호출 가능하게 만들어 강력하고 동적인 상호작용을 가능하게 함. AviationStack API를 사용하여 실시간 항공편 상태를 검색.

이 튜토리얼에서는 LangGraph와 Gemini 1.5 Flash를 사용하여 다단계 지능형 쿼리 처리 에이전트를 구축하는 방법을 보여줍니다. 각 노드는 라우팅, 분석, 연구, 응답 생성 및 유효성 검사로 구성된 목적 노드 시리즈를 통해 들어오는 쿼리를 처리합니다.

파리 기반의 H 회사가 Agentic AI를 현실로 구현하기 위해 3가지 주요 단계를 발표했다. Runner H 공개 베타 버전과 함께 Holo-1과 Tester H도 공개되었다.

Mistral AI가 기업 소프트웨어 개발 환경에 맞춘 AI 코딩 어시스턴트인 Mistral Code를 발표했다. 이 릴리스는 Mistral이 프로페셔널 개발 파이프라인에서의 제어, 보안 및 모델 적응성에 대응하고자 하는 의지를 보여준다. Mistral Code는 기존의 AI 코딩 도구에서 관측된 주요 제약 사항을 대상으로 한다.

이 튜토리얼에서는 Tavily와 구글 Gemini AI를 활용한 고급 대화형 웹 인텔리전스 에이전트를 소개한다. 웹 페이지에서 구조화된 콘텐츠를 추출하고 AI 기반 분석을 수행하여 통찰력 있는 결과를 제공하는 스마트 에이전트를 구성하고 사용하는 방법을 배운다.

LangChain, Gemini 2.0 Flash 및 Jina Search 도구를 통합하여 지능형 AI 어시스턴트를 구축하는 방법을 보여주는 튜토리얼. 강력한 대형 언어 모델과 외부 검색 API의 기능을 결합하여 최신 정보 및 인용을 제공하는 어시스턴트를 생성함.

데스크톱 커맨더 MCP 서버는 MCP 파일 시스템 서버를 기반으로 한 강력한 도구로, 모든 개발 작업을 하나의 채팅 인터페이스로 통합해줍니다. 파일 검색, 편집, 관리, 터미널 명령 실행, 프로세스 제어 등을 데스크톱에서 Model Context Protocol (MCP)을 사용하여 직접 수행할 수 있습니다.

이 튜토리얼에서는 Python을 사용하여 에이전트 통신 프로토콜 (ACP)을 구현하고, 구글의 Gemini API를 활용하여 유연하고 ACP 호환성있는 메시징 시스템을 구축합니다. google-generativeai 라이브러리의 설치 및 구성부터 시작하여, 핵심 추상화, 메시지 유형, 수행, ACPMessage 데이터 클래스 등을 소개하며 에이전트 간 통신을 표준화합니다.

스탠포드 대학 연구진이 Biomni를 소개했다. 이는 생명과학 분야에서 다양한 작업과 데이터 유형에 걸쳐 자동화를 위한 AI 에이전트로, 질병 메커니즘 발견, 신약 타깃 식별, 효과적인 치료법 개발을 통해 인간 건강을 발전시키는 빠르게 발전하는 분야에 활용된다.

DeepSeek가 R1 추론 모델의 업데이트 버전인 DeepSeek-R1-0528을 출시했다. 이번 업데이트로 모델은 수학, 프로그래밍, 일반 논리 추론 분야에서 능력을 향상시켰으며, 주요 모델인 OpenAI의 o3 및 Google의 Gemini 2.5 Pro과의 경쟁력을 갖추게 되었다.

Mistral은 AI 에이전트 개발을 용이하게 하는 Agents API를 소개했다. Python 코드 실행, 이미지 생성, RAG 수행 등 다양한 작업을 수행할 수 있는 AI 에이전트를 개발하기 위한 프레임워크로, 대형 언어 모델이 여러 도구와 데이터 원본과 상호 작용할 수 있는 환경을 제공한다.

본 튜토리얼에서는 Google의 Gemini 모델 위에 구축된 Agent2Agent 협업 프레임워크를 구현한다. 데이터 과학자, 제품 전략가, 위험 분석가 및 창의적 혁신가까지 다양한 AI 페르소나를 만드는 과정을 안내하며, 이들 에이전트들이 구조화된 메시지를 교환하여 복잡한 실제 문제에 대처하는 방법을 보여준다.

NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.

LangChain의 ReAct 에이전트 프레임워크와 Anthropic의 Claude API를 통합하여 Python 코드를 생성하고 라이브로 실행하여 결과를 캡처하는 종단간 솔루션 구축 방법에 대한 튜토리얼.

마이크로소프트가 NLWeb을 출시했다. 이 프로젝트는 모든 웹사이트를 자연어 인터페이스를 통해 AI 기반 앱으로 쉽게 변환할 수 있게 해준다. 기존 솔루션들은 중앙집중식이거나 기술적 전문 지식이 필요한데, 이로 인해 개발자들이 지능형 에이전트를 구현하는 데 제약이 생겼다.

LangGraph와 Claude를 사용하여 다양한 작업에 최적화된 강력한 멀티툴 AI 에이전트를 만드는 포괄적인 튜토리얼. 수학 계산, 웹 검색, 날씨 조회, 텍스트 분석, 실시간 정보 검색 등을 포함한 다양한 작업에 최적화된 AI 에이전트를 만드는 과정을 소개하며, 설치를 간편화하여 초보자도 쉽게 설정할 수 있도록 함.

Microsoft의 AutoGen 프레임워크를 사용하여 개발자들이 최소한의 코드로 복잡한 다중 에이전트 워크플로우를 조율하는 방법을 보여줌. AutoGen의 RoundRobinGroupChat 및 TeamTool 추상화를 활용하여 연구원, 사실 확인자, 비평가, 요약가, 편집자 등 전문 보조자들을 “DeepDive” 도구로 완벽하게 조합할 수 있음.

모델 컨텍스트 프로토콜 (MCP)은 AI 모델을 더 넓은 소프트웨어 생태계와 통합하는 데 중심 역할을 하고 있다. Anthropic이 개발한 MCP는 언어 모델이나 자율 에이전트가 REST API, 데이터베이스 쿼리, 파일 시스템 작업 또는 하드웨어 제어를 찾고 호출하는 방식을 표준화한다. 각 기능을 자체 설명하는 “도구”로 노출함으로써 […]

Marktechpost AI 미디어가 2025년 Agentic AI 및 AI 에이전트 보고서를 발표했습니다. 이 보고서는 AI 에이전트의 아키텍처, 프레임워크 및 배포 전략을 탐구하며, 미래를 형성하는 기술적으로 엄밀한 내용을 제공합니다. 보고서는 추론이 가능한 모델, 메모리 프레임워크 및 조정을 기반으로 한 증가하는 생태계를 탐색합니다.

Unsloth AI는 4비트 양자화와 LoRA 기술을 활용하여 최신 모델인 Qwen3-14B를 손쉽고 빠르게 세밀하게 조정할 수 있게 해준다. 본 튜토리얼에서는 이를 실제로 구현하는 방법을 안내한다.

이 튜토리얼에서는 Tavily Search API, Chroma, Google Gemini LLMs, 및 LangChain 프레임워크의 강점을 결합하여 강력하고 지능적인 질의응답 시스템을 구축하는 방법을 소개합니다. Tavily를 통한 실시간 웹 검색, Chroma 벡터 저장소를 활용한 의미론적 문서 캐싱, 그리고 Gemini 모델을 통한 문맥적 응답 생성이 포함됩니다.

LM 에이전트의 최근 발전은 복잡한 실제 과제 자동화에 유망한 잠재력을 보여주고 있음. 이러한 에이전트는 일반적으로 API를 통해 작업을 제안하고 실행하여 소프트웨어 공학, 로봇공학, 과학 실험 등의 응용 프로그램을 지원함. 이러한 과제가 더 복잡해지면 LM 에이전트 프레임워크는 다중 에이전트, 다단계 검색, 맞춤형 지원을 포함하도록 진화해왔음.

Windsurf가 SWE-1을 발표하며 AI와 소프트웨어 엔지니어링의 깊은 융합을 시사했다. SWE-1은 전체 소프트웨어 개발 수명주기를 위해 특별히 설계된 최초의 AI 모델 패밀리로, 전통적인 코드 생성 모델과는 달리 실제 소프트웨어 엔지니어링 워크플로우를 지원하며 미완성 코드 상태부터 다중 표면 처리까지 다룬다.

OpenAI가 ChatGPT에 통합된 클라우드 기반 소프트웨어 엔지니어링 에이전트 Codex를 소개했습니다. 기존의 코딩 어시스턴트와 달리 Codex는 자동 완성 도구뿐만 아니라 코드 작성, 디버깅, 테스트 실행 등의 프로그래밍 작업을 자율적으로 수행할 수 있는 클라우드 기반 에이전트 역할을 합니다.

SimilarWeb의 ‘AI 글로벌 보고서: 생성 AI에서의 글로벌 섹터 트렌드’는 디지털 업무 방식을 재정의하는 생성 AI로 인해 사용자 참여 패턴이 변화하는 것을 종합적으로 보여줍니다. 코딩 에이전트의 현저한 성장, EdTech의 혁신적 영향, 그리고 법률 AI 플랫폼의 예상치 못한 하락을 강조합니다.

PwC는 “Agentic AI – GenAI의 새로운 지평”라는 최신 집행부 안내서에서, 자율적인 의사 결정과 문맥 인식 상호작용이 가능한 Agentic 인공지능에 대한 전략적 접근 방식을 제시한다. 이러한 시스템은 기관의 운영 방식을 재구성할 것으로 예상되며, 전통적인 소프트웨어 모델에서 조정된 모델로 전환될 것이다.

MCP-Use는 모든 LLM을 어떤 MCP 서버에 연결하여 웹 브라우징, 파일 작업 등의 도구 접근을 제공하는 오픈 소스 라이브러리다. 이 튜토리얼에서는 langchain-groq와 MCP-Use의 내장 대화 기억을 사용하여 도구와 상호 작용할 수 있는 간단한 챗봇을 구축한다.

Adala 프레임워크를 사용하여 의료 증상 분류를 위한 모듈식 활성 학습 파이프라인을 구축하는 방법을 배우고, Google Gemini을 사용하여 증상을 사전 정의된 의료 도메인으로 분류하는 방법을 통해 간단한 세 단계의 활성 학습 루프를 실행합니다.

자율 시스템이 점점 더 큰 언어 모델 (LLM)을 추론, 계획 및 실행에 활용함에 따라, 능력의 병목 현상이 아닌 의사 소통에서 병목 현상이 발생했습니다. LLM 에이전트는 지침을 구문 분석하고 도구를 호출할 수 있지만, 서로 확장 가능하고 안전하며 모듈식으로 상호 운용하는 능력은 심각하게 제한됩니다.

OpenAI가 o4-mini 추론 모델에 Reinforcement Fine-Tuning (RFT)을 출시했는데, 이는 전문화된 작업에 맞게 기초 모델을 맞춤화하는 강력한 새로운 기술을 소개했다. RFT는 강화 학습의 원칙에 기반을 두고 있으며, 조직이 사용자 정의 목표와 보상 함수를 정의할 수 있어 모델이 향상되는 방식에 대해 상세한 제어를 제공한다.

Meta AI가 출시한 LlamaFirewall은 AI 에이전트의 보안 위험에 대응하기 위해 시스템 수준의 보안 계층을 제공하는 오픈 소스 가드레일 시스템이다.

AgentQL은 정확한 정보 형태를 정의함으로써 구조화되지 않은 데이터를 스크래핑할 수 있게 해줍니다. 이 튜토리얼에서는 Claude Desktop 내에 AgentQL MCP 서버를 구현하고, Claude의 내장 시각화 기능을 사용하여 탐색합니다.

MCP는 AI 에이전트가 일관된 인터페이스를 통해 외부 서비스와 상호 작용할 수 있는 신흥 오픈 표준이다. API마다 사용자 정의 통합을 작성하는 대신, MCP 서버는 클라이언트 AI가 동적으로 발견하고 호출할 수 있는 일련의 도구를 노출한다. 이러한 분리는 API 제공업체가 진화할 수 있음을 의미한다.

MCP 이전에 LLM은 외부 도구에 액세스하기 위해 임시적이고 모델별 통합에 의존했다. ReAct, Toolformer, LangChain, LlamaIndex 등 다양한 접근 방식이 소개되었으며 MCP는 AI 에이전트 도구 호출을 모델 간에 표준화, 간단화하고 미래에 대비하는 역할을 한다.

MCP와 Zapier AI의 파워를 이용하여 복잡한 코딩 없이 Cursor에서 반응형 이메일 에이전트를 구축하는 방법을 배웁니다. MCP 커넥터를 구성하여 Cursor와 Zapier AI를 연결하고 Gmail 계정을 연결하며, 읽기, 검색, 전송을 위한 의도를 정의합니다.

AI 에이전트가 실험적 시스템에서 상용 규모 응용프로그램으로 전환되면서 그들의 증가하는 자율성은 새로운 보안 도전 과제를 도입하고 있습니다. Palo Alto Networks의 Unit 42가 발표한 “AI 에이전트가 여기에 있습니다 – 위협도 함께”라는 포괄적인 보고서에서, 오늘날의 에이전틱 아키텍처는 혁신에도 불구하고 다양한 공격에 취약하며, 대부분 이는 […]

ELIZA의 간단한 규칙 기반 시스템에서 현재의 정교한 플랫폼으로 대화형 AI가 발전해왔다. 이 과정은 80년대부터 90년대의 스크립트 봇, 2010년대의 Rasa와 같은 ML-규칙 하이브리드 프레임워크를 거쳐 2020년대의 혁명적인 대형 언어 모델로 이어져 자연스러운 대화를 가능케 했다. 현재는 Parlant와 같은 최첨단 대화 모델링 플랫폼이 주류다.

이 튜토리얼에서는 Fireworks AI의 기능을 활용하여 LangChain과 함께 지능적인 도구 기능을 갖춘 에이전트를 구축하는 방법을 살펴볼 것이다. langchain-fireworks 패키지 설치부터 Fireworks API 키 구성, 높은 성능의 llama-v3-70b-instruct 모델을 사용한 ChatFireworks LLM 인스턴스 설정, LangChain의 에이전트 프레임워크와 통합까지 진행할 것이다.

대형 언어 모델 에이전트가 기업 및 연구 생태계 전반에 걸쳐 주목을 받는 가운데, 에이전트들의 통신 역량을 제한하는 표준화된 프로토콜의 부재로 인해 커뮤니케이션 병목 현상이 발생했다. 이로 인해 에이전트들의 상호 조정 능력 및 외부 도구와의 인터페이스가 제약을 받고 있다.

Salesforce AI 연구가 더 지능적이고 신뢰할 수 있으며 다재다능한 AI 에이전트를 구축하기 위한 포괄적인 로드맵을 제시했습니다. 이 최근 이니셔티브는 현재 AI 시스템의 기초적인 한계를 해결하기 위해 초점을 맞추고 있으며, 특히 불일치한 작업 성능, 강건성의 부족, 그리고 복잡한 기업 워크플로에 적응하는 데 어려움이 있는 부분에 초점을 맞추고 있습니다.
Dappier AI의 실시간 검색 및 추천 도구를 활용하여 대화형 애플리케이션을 향상시키는 방법을 배우는 튜토리얼. RealTimeSearchTool과 AIRecommendationTool을 결합하여 웹에서 최신 정보를 조회하고 사용자 정의 데이터 모델에서 개인화된 기사 제안을 제공할 수 있음.
대형 언어 모델은 정보를 유지하는 데 어려움을 겪지만, Mem0는 장기적인 참여가 필요한 응용 프로그램에 통합될 때 더욱 중요해집니다. Mem0는 구조적인 기억을 유지하며 여러 세션에 걸쳐 정보를 지속적으로 보관하는 확장 가능한 메모리 아키텍처입니다.
브리스톨 대학과 iGent AI 연구진이 자체 코드와 성능을 반복적으로 향상시키는 SICA(자체 개선 코딩 에이전트)를 제안했다. 현재 대부분의 에이전트 시스템은 고정된 수동 조작 전략에 의존하고 있어 새로운 작업과 환경에 적응하는 능력이 제한되는데, SICA는 이러한 제한을 극복하고 있다.
본 튜토리얼에서는 Gemini를 사용하여 사용자 정의 MCP 클라이언트를 구현하는 방법을 안내합니다. 이를 통해 AI 애플리케이션을 MCP 서버에 연결하여 프로젝트를 강화하는 강력한 능력을 얻을 수 있습니다.
함수 호출은 LLM이 자연어 프롬프트와 실제 코드 또는 API 사이의 다리 역할을 합니다. 모델은 텍스트를 생성하는 대신 미리 정의된 함수를 호출할 때를 결정하고, 함수 이름과 인수가 포함된 구조화된 JSON 호출을 생성한 후 응용 프로그램이 그 호출을 실행하고 반환할 때까지 기다립니다.
Devin AI가 새로운 무료 도구 ‘DeepWiki’를 소개했습니다. 이 도구는 GitHub 저장소에 대한 구조화된 위키 스타일 문서를 자동으로 생성하며, 익숙하지 않은 코드베이스를 이해하는 과정을 단순화합니다. DeepWiki는 리포지토리 URL에서 직접 포괄적이고 대화식 개요를 제공하여 소프트웨어 개발에서 흔한 고통점을 해결합니다.
LLM 기반의 다중 에이전트 시스템은 계획, 추론, 도구 사용, 기억 능력을 가지며 챗봇, 코드 생성, 수학, 로봇학 등 다양한 응용 프로그램의 기반을 형성한다. 그러나 수동으로 설계되어 고인적인 비용과 확장성 제약으로 인해 중요한 도전에 직면했다. 그래프 기반 방법은 워크플로 디자인을 자동화하기 위해 노력해왔다.
PraisonAI 에이전트가 데이터 분석을 완전 자율, AI 주도 파이프라인으로 발전시키는 방법을 보여주는 튜토리얼. 자연어 프롬프트 몇 개로 워크플로우의 각 단계를 조정하여 CSV 또는 Excel 파일을 로드하고 행 필터링, 트렌드 요약, 사용자 정의 필드별 그룹화, 피벗 테이블, 결과를 익스포트하는 방법을 학습할 수 있음.
지식 그래프 메모리 서버를 사용하여 Claude 데스크톱은 여러 채팅을 통해 사용자에 대한 정보를 기억하고 조직화할 수 있습니다. 이를 통해 Claude는 서로 다른 정보 간의 관계를 이해하고 개인화된 응답을 제공할 수 있습니다.
구글 클라우드가 세계 최고 기관들로부터 601가지 실제 세계 생성 AI 사용 사례 compendium을 공개했다. 지난해 구글 클라우드 넥스트 2024에서 공유한 101가지 사용 사례에서 6배로 확장된 이번 공개는 GenAI 기술이 폭발적인 속도로 발전하고 있음을 보여준다.
AgentA/B는 LLM 에이전트를 활용하여 실제 사용자 행동을 시뮬레이션하고 라이브 웹 플랫폼에서 전통적인 A/B 테스팅을 변형하는 확장 가능한 AI 시스템이다. 웹 인터페이스 설계 및 평가는 디지털 선도적인 세계에서 가장 중요한 작업 중 하나이며, 레이아웃, 요소 위치, 또는 탐색 논리의 변경은 사용자가 웹사이트와 상호 작용하는 방식에 영향을 줄 수 있다.
로우보트는 다중 에이전트 시스템의 구축, 디버깅, 배포를 가속화하는 오픈 소스 IDE로, OpenAI Agents SDK를 기반으로 하며 MCP 서버와 연결되어 다중 에이전트 AI 워크플로를 구축할 수 있다.

PydanticAI 라이브러리를 활용해 티켓 보조 프로그램을 만드는 튜토리얼. Pydantic v2 모델로 데이터 규칙 정의, SQLite 데이터베이스에 티켓 저장, Python의 uuid 모듈로 고유 식별자 생성. 티켓 생성 및 상태 확인을 위한 두 개의 에이전트 사용.

Atla의 강력한 LLM 판사 모델을 Model Context Protocol (MCP)을 통해 노출시키는 Atla MCP 서버가 AI 시스템 개발의 중요한 측면인 LLM 출력의 신뢰성 있는 평가를 지원한다.
Serverless MCP는 개발자들이 AWS 플랫폼에서 애플리케이션을 빌드하고 배포하는 방식을 혁신적으로 단순화했지만, 복잡한 아키텍처의 디버깅과 관리는 여전히 어려움을 겪고 있습니다. Serverless MCP는 이러한 도전에 대응하기 위해 도입되었으며, AI 지원 디버깅을 가능하게 합니다.

바이트댄스가 GUI 상호작용 및 게임 환경에 초점을 맞춘 최신 다중모달 에이전트 프레임워크인 UI-TARS-1.5를 공개했다. 화면 콘텐츠를 인식하고 대화형 작업을 수행할 수 있는 비전-언어 모델로 설계된 UI-TARS-1.5는 GUI 자동화 및 게임 추론 벤치마크 영역에서 지속적인 개선을 선보이며 선도적인 모델들을 능가하고 있다.
이 튜토리얼에서는 Google Colab 내에서 브라우저 주도 AI 에이전트의 기능을 활용하는 방법을 배우게 됩니다. Playwright의 headless Chromium 엔진과 browser_use 라이브러리의 높은 수준의 Agent 및 BrowserContext 추상화를 활용하여 웹사이트를 자동으로 탐색하고 데이터를 추출하며 복잡한 작업을 자동화할 것입니다.

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.
대규모 언어 모델(Large Language Models, LLMs)과 외부 도구, 응용프로그램, 데이터 원본의 통합은 점점 더 중요해지고 있다. Model Context Protocol (MCP)와 Function Calling은 모델과 외부 시스템 간의 원활한 상호작용을 달성하기 위한 두 가지 중요한 방법이다. 두 접근 방식은 AI 모델의 실용적 능력을 확장하기 위해 목표를 두지만, 아키텍처 측면에서 근본적으로 다르다.








