
최근 LLMs의 발전으로 복잡한 추론 작업을 수행하고 검색 엔진과 같은 외부 도구를 효과적으로 사용하는 잠재력이 드러났다. 그러나 내부 지식 대신 검색을 언제 의존해야 하는지 모델에 스마트한 결정을 내릴 수 있도록 가르치는 것은 여전히 중요한 과제다. 단순한 프롬프트 기반 방법은 모델이 도구를 활용하도록 안내할 수 있지만, LLMs는 여전히 어려움을 겪고 있다.

최근 LLMs의 발전으로 복잡한 추론 작업을 수행하고 검색 엔진과 같은 외부 도구를 효과적으로 사용하는 잠재력이 드러났다. 그러나 내부 지식 대신 검색을 언제 의존해야 하는지 모델에 스마트한 결정을 내릴 수 있도록 가르치는 것은 여전히 중요한 과제다. 단순한 프롬프트 기반 방법은 모델이 도구를 활용하도록 안내할 수 있지만, LLMs는 여전히 어려움을 겪고 있다.

대규모 데이터셋으로 훈련된 언어 모델은 언어 이해 및 생성 도구로 두드러지며, 상호 작용 환경에서 의사 결정 요소로 작동할 수 있다. 그러나 행동 선택이 필요한 환경에 적용될 때 이러한 모델은 내부 지식과 추론을 활용하여 효과적으로 행동하기를 기대된다. 그러나 LLMs는 이를 실현하기 어렵다. Google DeepMind 연구원들은 강화 학습 세밀 조정을 사용하여 이러한 간극을 메우려고 한다.

이 튜토리얼에서는 Tavily Search API, Chroma, Google Gemini LLMs, 및 LangChain 프레임워크의 강점을 결합하여 강력하고 지능적인 질의응답 시스템을 구축하는 방법을 소개합니다. Tavily를 통한 실시간 웹 검색, Chroma 벡터 저장소를 활용한 의미론적 문서 캐싱, 그리고 Gemini 모델을 통한 문맥적 응답 생성이 포함됩니다.

LM 에이전트의 최근 발전은 복잡한 실제 과제 자동화에 유망한 잠재력을 보여주고 있음. 이러한 에이전트는 일반적으로 API를 통해 작업을 제안하고 실행하여 소프트웨어 공학, 로봇공학, 과학 실험 등의 응용 프로그램을 지원함. 이러한 과제가 더 복잡해지면 LM 에이전트 프레임워크는 다중 에이전트, 다단계 검색, 맞춤형 지원을 포함하도록 진화해왔음.

AWS가 Strands Agents SDK를 오픈 소스로 공개하여, AI 에이전트 개발을 다양한 분야에서 더 접근 가능하고 적응 가능하도록 만들었습니다. 모델 주도적 접근을 통해 복잡성을 추상화하여 지능적인 에이전트를 구축, 조정, 배포하는 작업을 쉽게 만들어줍니다.

LightLab은 단일 이미지에서 미세한 빛 조절을 위한 새로운 AI 방법이다. 기존 방법은 여러 촬영으로부터 장면의 기하학과 속성을 재구성한 후 물리적 조명 모델을 사용하여 새로운 조명을 시뮬레이션하는 3D 그래픽 방법을 사용하는데, 이러한 기술은 빛 원본에 대한 명확한 제어를 제공하지만 단일 이미지로부터 정확한 3D 모델을 복원하는 것은 여전히 문제로 남아있다.

대규모 언어 모델(Large Language Model, LLM)의 개발 및 배포 증가는 구조적 혁신, 대규모 데이터셋, 하드웨어 개선과 밀접한 관련이 있다. DeepSeek-V3, GPT-4o, Claude 3.5 Sonnet, LLaMA-3 등의 모델들은 스케일링이 추론 및 대화 능력을 향상시킨다는 것을 입증했으나, 성능이 향상될수록 컴퓨팅, 메모리, 통신 대역폭 수요도 증가하고 있다.

대화형 인공지능은 사용자 요구가 점진적으로 드러나는 동적 상호작용을 가능하게 하는데 초점을 맞추고 있습니다. Microsoft와 Salesforce 연구자들이 발표한 연구에 따르면, 대화형 인공지능 모델인 LLMs는 실제 대화에서 어려움을 겪고 멀티턴의 미정의 작업에서 39%의 성능 저하가 있습니다.

Windsurf가 SWE-1을 발표하며 AI와 소프트웨어 엔지니어링의 깊은 융합을 시사했다. SWE-1은 전체 소프트웨어 개발 수명주기를 위해 특별히 설계된 최초의 AI 모델 패밀리로, 전통적인 코드 생성 모델과는 달리 실제 소프트웨어 엔지니어링 워크플로우를 지원하며 미완성 코드 상태부터 다중 표면 처리까지 다룬다.

BLIP3-o는 CLIP 임베딩과 플로우 매칭을 활용한 멀티모달 모델로, 이미지 이해 및 생성에 사용됩니다. 시각과 언어를 연결하는 관심이 높아지면서, 이미지 인식과 생성 기능을 통합한 시스템에 대한 연구가 확대되고 있습니다.

OpenAI가 ChatGPT에 통합된 클라우드 기반 소프트웨어 엔지니어링 에이전트 Codex를 소개했습니다. 기존의 코딩 어시스턴트와 달리 Codex는 자동 완성 도구뿐만 아니라 코드 작성, 디버깅, 테스트 실행 등의 프로그래밍 작업을 자율적으로 수행할 수 있는 클라우드 기반 에이전트 역할을 합니다.

LangGraph Multi-Agent Swarm은 여러 AI 에이전트를 하나의 “스왐”으로 조율하는 Python 라이브러리이다. 다양한 특화를 갖는 에이전트들이 작업에 따라 동적으로 제어를 넘기며 특수화된 다중 에이전트 아키텍처를 구현한다.

DanceGRPO는 시각적 콘텐츠 생성을 위한 강화 학습에 대한 통합 프레임워크로, 여러 패러다임과 작업에 걸쳐 시각 생성을 혁신적으로 다룬다. 최근의 생성 모델 발전을 통해 시각적 콘텐츠 생성이 향상되었으며, 훈련 중 인간 피드백 통합이 중요하다.

VLM은 일반 목적의 AI 시스템 구축에 중요하며, 시각적 및 텍스트 데이터를 통합함으로써 다중 모달 추론, 이미지 편집, GUI 에이전트, 로봇공학 등을 발전시키고 있음. 그러나 인간의 능력에 아직 미치지 못하는 부분이 있음.

Hugging Face가 Model Context Protocol (MCP)에 대한 무료 오픈 소스 코스를 출시했습니다. 이 코스는 대규모 언어 모델과 외부 데이터 소스 및 도구를 통합하는 데 도움이 되는 MCP를 개발자와 AI 전문가들에게 제공하여 더 맥락에 맞는 AI 에이전트 및 애플리케이션을 구축하는 데 필요한 지식과 기술을 제공합니다.

텍스트에서 오디오 생성 기술이 음악 제작, 게임, 가상 경험 등에서 혁신적인 방법으로 부각되고 있으며, 이 기술은 일반적으로 확산 또는 정류된 플로우와 같은 가우시안 플로우 기반 기법을 활용하여 구조화된 오디오로의 점진적인 전환 단계를 모델링한다.

NVIDIA의 Joey Conway와의 인터뷰에서 오픈 소스 대형 언어 모델인 Llama Nemotron Ultra 및 Parakeet에 대한 흥미로운 작업에 대해 이야기했습니다.

LangGraph와 NetworkX를 사용하여 자동화된 지식 그래프 파이프라인을 구축하는 방법에 대해 안내하는 튜토리얼. 지능적 에이전트들이 데이터 수집, 개체 추출, 관계 식별, 개체 해결, 그래프 유효성 검사 등의 작업을 협업적으로 수행하는 과정을 모의한다.

조지아텍과 스탠포드 대학 연구진이 MLE 작업의 자동화를 탐구하고, AI 에이전트를 활용하여 엔드 투 엔드 워크플로우를 효율적으로 조율하는 데 어려움을 겪는 과제를 처리하는 것을 연구했다.

Tsinghua 대학 및 ModelBest 연구진이 Ultra-FineWeb이라는 트리리언 토큰 데이터셋을 발표했다. 이 데이터셋은 LLM의 정확도를 향상시켜주며, 모델 기반 필터링을 통해 고품질 샘플을 식별하는 방법을 사용한다.

SimilarWeb의 ‘AI 글로벌 보고서: 생성 AI에서의 글로벌 섹터 트렌드’는 디지털 업무 방식을 재정의하는 생성 AI로 인해 사용자 참여 패턴이 변화하는 것을 종합적으로 보여줍니다. 코딩 에이전트의 현저한 성장, EdTech의 혁신적 영향, 그리고 법률 AI 플랫폼의 예상치 못한 하락을 강조합니다.

구글 딥마인드는 알고리즘 설계와 과학적 발견을 위해 제미니 기술을 활용한 코딩 AI 에이전트 알파이볼브를 소개했다. 전통적인 방법으로는 전문가 직관과 수동 반복에 의존하는 이러한 과정이 대규모 언어 모델(LLMs)을 활용함으로써 가속화되고 있다.

Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.

기계 학습 시스템이 추천 엔진부터 자율 시스템까지 다양한 응용 프로그램에서 중요해지면서, 이러한 시스템들의 환경 지속 가능성에 대한 필요성이 증가하고 있습니다. CATransformers는 AI 모델과 하드웨어를 지속 가능한 엣지 배포를 위해 공동 최적화하는 탄소 인식 기계 학습 프레임워크입니다.

이 튜토리얼에서는 Together AI의 확장 생태계를 활용하여 텍스트를 빠르게 구조화된 질의응답 서비스로 변환하는 방법을 보여줍니다. 라이브 웹 페이지를 스크래핑하고 응집된 청크로 나눈 후 함께컴퓨터/m2-bert-80M-8k-retrieval 임베딩 모델에 제공하는 과정을 다룹니다.

소프트웨어 문제의 정확한 위치를 식별하는 것은 개발 생애주기에서 가장 인력 집약적인 작업 중 하나이다. 자동화된 패치 생성과 코드 어시스턴트의 발전에도 불구하고, 코드베이스에서 변경이 필요한 위치를 파악하는 프로세스는 종종 수정 방법보다 더 많은 시간을 소비한다.

이 논문은 RLM이 복잡한 문제를 단순하게 분해하고 논리적 단계를 구축하여 답변에 도달하는 것을 시뮬레이션하는 데 사용되며, 다국어 능력을 향상시킴으로써 출력 품질을 향상시키는 것을 조사합니다.

LLM 사전 학습에서 훈련 데이터의 품질은 모델 성능에 중요하며 유해 콘텐츠를 필터링하여 유해한 출력을 최소화하는 전략이 일반적이지만 이는 트레이드오프를 도입한다. 이 기사는 LLM 사전 학습에서 유해 데이터 다루는 새로운 접근 방식을 소개한다.

PwC는 “Agentic AI – GenAI의 새로운 지평”라는 최신 집행부 안내서에서, 자율적인 의사 결정과 문맥 인식 상호작용이 가능한 Agentic 인공지능에 대한 전략적 접근 방식을 제시한다. 이러한 시스템은 기관의 운영 방식을 재구성할 것으로 예상되며, 전통적인 소프트웨어 모델에서 조정된 모델로 전환될 것이다.

LLMs를 외부 도구나 기능으로 장착하는 것이 인기를 끌며, 최소 감독과 최대 일반화로 LLMs의 도구 호출 능력을 향상시키기 위해 고급 언어 모델과 SFT를 통해 대량의 도구 사용 궤적을 종합하는 기존 연구가 있다. 그러나 존재하는 연구의 중요한 한계는 합성 데이터셋이 명시적 추론 단계를 포착하지 못하고 표면적인 도구 사용만 가능하다는 점에 있다.

이 튜토리얼에서는 스미더리를 구성 프레임워크로 사용하여 모델 컨텍스트 프로토콜 (MCP) 서버를 배포하는 방법을 배우고, 런타임 오케스트레이터로 베리액스를 활용합니다. 스미더리를 설치하고 구성하여 MCP 엔드포인트를 정의한 다음, 베리액스를 활용하여 서버 프로세스를 구동하고 관리합니다.

MCP-Use는 모든 LLM을 어떤 MCP 서버에 연결하여 웹 브라우징, 파일 작업 등의 도구 접근을 제공하는 오픈 소스 라이브러리다. 이 튜토리얼에서는 langchain-groq와 MCP-Use의 내장 대화 기억을 사용하여 도구와 상호 작용할 수 있는 간단한 챗봇을 구축한다.

최근 언어 모델들은 보상 기반 강화 학습을 통해 뛰어난 추론 능력을 갖추었다. 과거의 PPO 방식을 버리고 학습된 가치 함수 네트워크를 대신하여 경험적으로 추정된 반환값을 사용하는 현대 강화 학습 알고리즘들은 계산 요구와 GPU 메모리 소비를 줄여준다.

OpenAI가 262명 의사와 협력하여 개발한 HealthBench는 대형 언어 모델의 성능과 안전성을 현실적인 의료 시나리오에서 측정하는 오픈소스 평가 프레임워크이다. 기존 벤치마크의 한계를 극복하기 위해 실제 적용 가능성, 전문가 검증, 진단 범위에 초점을 맞추고 있다.

인공지능은 언어 중심 시스템을 넘어서 여러 입력 유형(텍스트, 이미지, 오디오, 비디오)을 처리할 수 있는 모델로 발전했습니다. 멀티모달 학습은 다양한 감각 데이터를 통합하고 해석하는 인간의 능력을 모방하는 것을 목표로 합니다. 단일 모달리티를 다루는 전통적 AI 모델과 달리, 멀티모달 종합주의자들은…

본 튜토리얼에서는 Lovable.dev를 사용하여 현대적이고 세련된 AI 블로깅 웹사이트를 만들고 게시하는 과정을 단계별로 안내합니다. Lovable.dev는 웹사이트 생성을 간단하게 만들어주며 사용자가 AI와 기술과 같은 특정 niche에 맞게 시각적으로 매력적이고 반응 형 웹 페이지를 손쉽게 개발할 수 있도록 돕습니다. 홈페이지를 빠르게 구축하는 방법, 대화형 구성 요소 통합 방법 등을 설명할 것입니다.

영상-LLMs은 전체 사전 녹화된 비디오를 한꺼번에 처리합니다. 그러나 로보틱스 및 자율 주행과 같은 응용 프로그램은 시간적으로 이해와 응답이 중요한 스트리밍 시나리오에서 작동하도록 설계되지 않은 현재 비디오-LLMs의 한계를 보여줍니다. 애플 연구자들이 StreamBridge를 소개하여 오프라인에서 실시간 스트림으로의 전환을 가능하게 했습니다.

INTELLECT-2는 32B의 추론 모델로, 분산 비동기 강화 학습을 통해 훈련되었다. 이 모델은 전통적인 중앙 집중식 훈련 파이프라인의 제약을 극복하고, 협업과 실험의 가능성을 확대한다.

AI 에이전트들은 주로 백엔드 작업을 자동화하는데 집중해왔지만, 상호작용적인 AI 애플리케이션이 늘어남에 따라 사용자와 상호작용하는 에이전트의 필요성이 대두되었다. AG-UI 프로토콜은 이러한 문제를 해결하기 위해 개발된 오픈, 가벼운, 이벤트 기반 프로토콜이다.

NVIDIA AI는 오디오 확산 모델을 도입하여 텍스트에서 3D 및 이미지 편집을 지원한 Score Distillation Sampling (SDS)을 활용해 오디오 합성 및 소스 분리 작업을 효율적으로 수행한다. 특별한 데이터셋이 필요하지 않고 명시적이고 해석 가능한 매개변수를 조정할 수 있는 모델이 필요한데, 이를 통해 음악, 효과음 등의 고품질 소리를 생성할 수 있다.

시퀀스 모델은 언어, 시계열, 신호와 같은 시간 구조 데이터를 처리하기 위해 설계되었으며, 내부적으로 시간 관계를 관리하여 일관된 출력을 생성함. 이 AI 논문은 시퀀스 모델의 메모리 활용을 측정하는 효과적인 상태 크기(ESS) 메트릭을 제시하며 성능 최적화에 도움을 줌.

LightOn AI가 GTE-ModernColBERT-v1을 발표했다. 이 모델은 토큰 수준의 의미 검색을 통해 장문 문서 검색에 탁월한 성능을 보여준다. 이는 키워드 기반 방법보다 더욱 효과적인 사용자 의도에 부합하는 결과를 제공한다.

Adala 프레임워크를 사용하여 의료 증상 분류를 위한 모듈식 활성 학습 파이프라인을 구축하는 방법을 배우고, Google Gemini을 사용하여 증상을 사전 정의된 의료 도메인으로 분류하는 방법을 통해 간단한 세 단계의 활성 학습 루프를 실행합니다.

이번 연구에서는 복잡한 3D 형상을 간단하고 해석 가능한 기하학적 단위로 분해하는 모양 기본 추상화가 소개되었습니다. 최근 3D 생성 방법들은 메쉬, 포인트 클라우드, 신경장 등의 표현을 사용하여 고품질 콘텐츠 생성을 가능케 했지만, 종종 의미적 깊이와 해석 가능성이 부족합니다.

구글 Colab에서 Anthropic의 Claude 모델과 mem0를 활용한 완전히 기능적인 봇 설정을 안내하는 튜토리얼. LangGraph의 직관적인 상태 머신 조종과 mem0의 강력한 벡터 기반 메모리 저장소를 결합하여 과거 대화를 기억하고 필요 시 관련 세부 정보를 검색하며 자연스러운 연속성 유지 가능.

화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.

알리바바의 ZeroSearch는 강화 학습과 시뮬레이션 문서를 활용하여 대형 언어 모델의 검색을 실시간 검색 없이 가르치는 방법을 제시하고 있다. 기존의 정적 데이터셋으로 훈련된 언어 모델은 시간이 지남에 따라 오래되어 문제가 발생하는데, ZeroSearch는 이를 극복하기 위해 새로운 방법론을 제시하고 있다.

강화 학습은 LLMs의 효율적인 추론 전략을 이끌기 위해 보상 신호를 사용하여 모델을 이끄는데, 이를 통해 복잡한 과제에 동적으로 적응하는 더 긴 고찰 과정을 가능하게 한다. 하지만 대부분의 강화 학습이 적용된 LLMs는 이러한 장점을 충분히 활용하지 못하고 있다.

바이트댄스가 DeerFlow를 공개했는데, 이는 대형 언어 모델(Large Language Models)의 기능을 도메인별 도구와 통합하여 복잡한 연구 워크플로우를 향상시키는 오픈소스 멀티 에이전트 프레임워크이다. DeerFlow는 LangChain과 LangGraph 위에 구축되어 정보 검색부터 다중 모달 콘텐츠 생성까지 협력적인 인간 중심 환경에서 고급 연구 작업을 자동화하는 구조화된, 확장 가능한 플랫폼을 제공한다.

기업 환경에서의 언어 처리는 점점 다양한 소스에서 정보를 종합해야 하는 문제에 직면하고 있습니다. 최근 대형 언어 모델의 발전은 놀라운 능력을 제공하지만, 매우 높은 비용, 하드웨어 업그레이드 요구와 같은 부작용도 동반됩니다.

자율 시스템이 점점 더 큰 언어 모델 (LLM)을 추론, 계획 및 실행에 활용함에 따라, 능력의 병목 현상이 아닌 의사 소통에서 병목 현상이 발생했습니다. LLM 에이전트는 지침을 구문 분석하고 도구를 호출할 수 있지만, 서로 확장 가능하고 안전하며 모듈식으로 상호 운용하는 능력은 심각하게 제한됩니다.

Tsinghua 대학의 ‘Absolute Zero’는 외부 데이터 없이 LLM을 훈련시키는데 성공하였다. 현재의 RLVR 작업은 규모 확장 문제에 직면하고 있지만, ‘Absolute Zero’는 중간 추론 단계를 모방하는 대신 결과 기반 피드백에 의존하여 추론 능력을 향상시켰다.

컴퓨터 과학 연구는 논리, 엔지니어링 및 데이터 기반 실험을 포함한 다학제적 노력으로 진화했습니다. 컴퓨팅 시스템이 일상생활에 깊이 편입되면서 연구는 대규모이며 실시간 시스템에 초점을 맞추고 있습니다. 이러한 시스템은 대규모 데이터 세트에서 학습하고 다양한 사용자 요구에 적응해야 합니다.

AI 모델은 수학 문제 해결, 논리적 문장 해석, 기업 의사 결정 지원과 같은 복잡한 작업을 처리해야 합니다. 이를 위해 수학적 추론, 과학적 이해, 고급 패턴 인식을 통합하는 것이 필요합니다. 실시간 응용 프로그램에서 지능형 에이전트에 대한 수요가 계속되는 가운데, 코딩 보조 도구와 비즈니스 자동화 도구가 포함됩니다.

Ming-Lite-Uni는 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 이해하고 생성하는 멀티모달 AI 시스템을 구축하는 데 사용되는 오픈소스 프레임워크이다. 이는 다양한 상호작용 형식을 통해 보다 원활한 인간-인공지능 커뮤니케이션을 가능하게 한다.

OpenAI가 o4-mini 추론 모델에 Reinforcement Fine-Tuning (RFT)을 출시했는데, 이는 전문화된 작업에 맞게 기초 모델을 맞춤화하는 강력한 새로운 기술을 소개했다. RFT는 강화 학습의 원칙에 기반을 두고 있으며, 조직이 사용자 정의 목표와 보상 함수를 정의할 수 있어 모델이 향상되는 방식에 대해 상세한 제어를 제공한다.

Meta AI가 출시한 LlamaFirewall은 AI 에이전트의 보안 위험에 대응하기 위해 시스템 수준의 보안 계층을 제공하는 오픈 소스 가드레일 시스템이다.

UCLA, UW-Madison, Adobe 연구진이 ‘X-Fusion’을 소개하며 언어 모델에 시각 정보를 추가하는 연구를 발표. 텍스트 이해 능력을 잃지 않으면서 시각 정보를 통합하는 AI 모델의 중요성 강조.

NVIDIA가 코드 추론과 문제 해결을 위해 고안된 고성능 대형 언어 모델 세트인 OCR 모델을 Apache 2.0 라이선스로 오픈 소스화했다. 32B, 14B, 7B 버전은 최고 성능을 자랑하며 OAI 모델을 능가하는 벤치마킹 결과를 보였다.

Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.

구글이 연례 I/O 개발자 컨퍼런스 직전에 플래그십 AI 모델인 Gemini 2.5 Pro (I/O 에디션)의 초기 미리보기를 공개했다. 이번 버전은 코딩 정확도, 웹 애플리케이션 생성, 비디오 이해 등에서 상당한 향상을 이루었으며, GPT-4 Turbo를 앞서는 성능을 보여주고 있다.

후단 대학 연구진은 트랜스포머 모델의 개별 어텐션 헤드를 조사하면서, 일부 헤드에서 ‘해리’ 다음에 ‘포터’와 같은 토큰을 예측하는 기능성을 확인했다. 이를 확인하는 실험으로 ‘Lorsa’라는 희소 어텐션 메커니즘을 소개했다.

이 기사는 Anthropic의 Claude 모델로 구동되는 지능적 라우팅 시스템을 구축하는 방법을 보여줍니다. 이 시스템은 사용자 요청을 자동으로 분류하고 특화된 핸들러로 보내어 응답 효율과 품질을 향상시킵니다.

대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론에서 놀라운 능력을 보여주지만, 내부 지식에만 의존할 때 복잡한 정보 연구 요구를 해결하는 데 제약이 있습니다. WebThinker는 이러한 한계를 극복하고 다단계 추론 과정을 통해 정확한 과학 보고서를 생성하는데 도움을 줍니다.

최근 LLMs의 발전으로 자연어 이해, 추론 및 생성이 크게 향상되었지만, 이 모델들은 종종 환각을 생성하는데, 이는 신뢰성을 저해함. 높은 위험도메인에서 특히 시급하게 대응이 필요함.

중국 연구진이 만든 LLaMA-Omni2는 실시간 음성 대화를 가능하게 하는 모듈식 프레임워크를 소개했다. 이 모델은 음성 지각과 합성을 언어 이해와 통합하여 이전의 계층적 시스템과 달리 실시간 대화를 가능케 한다.

AgentQL은 정확한 정보 형태를 정의함으로써 구조화되지 않은 데이터를 스크래핑할 수 있게 해줍니다. 이 튜토리얼에서는 Claude Desktop 내에 AgentQL MCP 서버를 구현하고, Claude의 내장 시각화 기능을 사용하여 탐색합니다.

구글이 AI 에이전트 시스템 개발 전문가를 위한 76페이지 화이트페이퍼를 발표했다. 에이전트 평가, 다중 에이전트 협업, RAG의 진화 등에 중점을 두고 에이전트를 대규모로 운영하는 데 초점을 맞췄다.

NVIDIA가 파라킷 TDT 0.6B를 공개했다. 이는 6억 개의 파라미터, 상용 허용 라이센스, 놀라운 실시간 요소 (RTF) 3386을 가지고 있어 음성 AI의 성능과 접근성에서 새로운 기준을 세우고 있다.

OpenAI가 대규모 AI 배포의 복잡성을 탐색하는 기업을 위한 실용적인 프레임워크를 제시한 ‘AI in the Enterprise’ 24페이지 문서를 발표했다. 보고서는 추상적인 이론보다는 Morgan Stanley, Klarna, Lowe’s, Mercado Libre와의 협업을 통해 얻은 경험을 기반으로한 일곱 가지 실행 전략을 제시한다.

구글 코랩과 그라디오 인터페이스를 활용해 안정성 AI의 세 가지 확산 모델을 비교하고 창의적인 이미지 생성하는 방법을 알아본다. 세 강력한 파이프라인을 비교하고 빠른 프롬프트 반복과 GPU 가속을 경험할 수 있다.

LLM 기반 AI 시스템에서 기억은 지속적이고 일관된 상호작용을 지원하는데 중요한 역할을 한다. 이전 조사들은 LLM에 대한 기억을 탐구했지만, 메모리 기능을 지배하는 기본적인 작업에 대한 주의가 부족했다. 기억 저장, 검색, 생성과 같은 주요 구성 요소는 분리되어 연구되어 왔지만, 체계적으로 통합된 프레임워크가 필요하다.

MCP는 AI 에이전트가 일관된 인터페이스를 통해 외부 서비스와 상호 작용할 수 있는 신흥 오픈 표준이다. API마다 사용자 정의 통합을 작성하는 대신, MCP 서버는 클라이언트 AI가 동적으로 발견하고 호출할 수 있는 일련의 도구를 노출한다. 이러한 분리는 API 제공업체가 진화할 수 있음을 의미한다.

Transformer 아키텍처를 기반으로 한 LLM은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪는다. RWKV와 같은 선형 아키텍처는 이 문제를 해결하나, 긴 문맥을 이해하는 데 어려움을 겪는다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 한다.

MCP 이전에 LLM은 외부 도구에 액세스하기 위해 임시적이고 모델별 통합에 의존했다. ReAct, Toolformer, LangChain, LlamaIndex 등 다양한 접근 방식이 소개되었으며 MCP는 AI 에이전트 도구 호출을 모델 간에 표준화, 간단화하고 미래에 대비하는 역할을 한다.

대형 언어 모델이 다양한 작업에서 놀라운 추론 능력을 보여주고 있으며, 강화 학습은 그들의 심층 사고 능력을 개선하는 중요한 메커니즘으로 작용합니다. 이 연구는 수학적 추론 및 코딩 영역에서의 강화 학습 기술의 성공을 보여주었지만, 이를 넓은 추론 맥락으로 확장하는 것이 중요합니다.

KAIST와 DeepAuto.ai 연구팀은 UniversalRAG라는 새로운 프레임워크를 소개했습니다. 이 프레임워크는 다양한 유형의 정보를 필요로 하는 실제 시나리오에서 쿼리의 정확성을 향상시키기 위해 모달과 세분성을 동적으로 경로 지정합니다.

급변하는 금융 환경에서는 전문화된 AI 에이전트를 활용하여 분석의 각 부분을 처리하는 것이 중요하며, Agno의 가벼운 모델에 중립적인 프레임워크는 Finance Agent와 Risk Assessment Agent와 같은 특정 에이전트를 신속하게 구축할 수 있도록 개발자에게 권한을 부여합니다.

구글 연구진은 AMIE가 다중모달 추론을 사용하여 원격 진료에서 텍스트 이외의 이미지, 검사 결과 등을 고려해 주치의를 능가할 수 있는 능력을 갖추었다.

Meta AI가 Llama 모델에 맞게 프롬프트를 최적화하는 과정을 간편화하는 Python 패키지 ‘Llama Prompt Ops’를 출시했다. 이 오픈소스 도구는 다른 대형 언어 모델과 잘 작동하는 입력을 Llama에 최적화된 형태로 변환하여 개발자와 연구자가 프롬프트 효과를 향상시키는 데 도움을 준다.

Claude 데스크톱을 Tavily AI의 Model Context Protocol (MCP) 서버와 Smithery 클라이언트를 사용하여 실시간 웹 검색 및 콘텐츠 추출 기능에 연결하는 방법에 대한 실습 튜토리얼. Tavily 홈페이지 및 대시보드를 살펴보고 개발자 API 키를 생성한 후 Tavily MCP 서버를 탐색하는 과정 포함.

IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.

이 튜토리얼에서는 비즈니스 응용을 위해 다양한 비전 기반 모델을 구현하는 방법을 탐색합니다. 이론적 측면보다는 실용적인 코드 구현, 기술적 세부사항, 비즈니스 사례에 중점을 둘 것입니다.

인공 일반 지능(AGI)으로 나아가는 최첨단 AI 기업들은 강력한 시스템이 조절 가능하고 유익하게 유지되도록 보장하는 기술이 필요하다. 이에 대한 주요 접근 방식은 Recursive Reward Modeling, Iterated Amplification 및 Scalable Oversight와 같은 방법을 포함한다. 이들은 약한 시스템이 강력한 시스템을 효과적으로 감독할 수 있도록 하는 것을 목표로 한다.

대형 언어 모델(LLMs)은 새로운 방식의 추론 능력을 갖고 있으며, UC 버클리 및 UCSF 연구진은 적응적 병렬 추론을 도입하여 추론을 효율적으로 확장하고 콘텍스트 창을 초과하지 않도록 했다. 현재 방법론은 긴 출력 순서를 생성하여 지연 시간과 효율성에 위험을 초래한다.

이 튜토리얼에서는 Airbnb와 Excel을 통합하는 MCP 서버를 구축하고, Cursor IDE와 연결합니다. 자연어를 사용하여 특정 날짜 범위와 위치에 대한 Airbnb 목록을 가져와 자동으로 Excel 파일에 저장할 수 있습니다.

최근 LLMs의 발전으로 OpenAI-o1, DeepSeek-R1, Kimi-1.5 등이 복잡한 수학적 추론 작업에서 성능을 크게 향상시켰다. 규칙 기반 보상을 사용하는 강화 학습은 이러한 개선에 중요한 역할을 한다. 최종 결과물을 향상시키는 RLVR은 모델의 문제 해결 방법이 올바른지를 나타내는 바이너리 신호를 일반적으로 사용한다.

MCP와 Zapier AI의 파워를 이용하여 복잡한 코딩 없이 Cursor에서 반응형 이메일 에이전트를 구축하는 방법을 배웁니다. MCP 커넥터를 구성하여 Cursor와 Zapier AI를 연결하고 Gmail 계정을 연결하며, 읽기, 검색, 전송을 위한 의도를 정의합니다.

AI 에이전트가 실험적 시스템에서 상용 규모 응용프로그램으로 전환되면서 그들의 증가하는 자율성은 새로운 보안 도전 과제를 도입하고 있습니다. Palo Alto Networks의 Unit 42가 발표한 “AI 에이전트가 여기에 있습니다 – 위협도 함께”라는 포괄적인 보고서에서, 오늘날의 에이전틱 아키텍처는 혁신에도 불구하고 다양한 공격에 취약하며, 대부분 이는 […]

Google 연구원들은 REFVNLI를 소개하여 텍스트 프롬프트와 함께 참조 이미지를 통합하는 표준 T2I 모델을 강화하는 주제 중심의 방법을 통해 텍스트-이미지(T2I) 생성을 강화했다. 현재의 메트릭은 주로 텍스트 프롬프트에 초점을 맞추거나 주제 중심 T2I 생성에 대한 신뢰할 수 있는 자동 평가 방법이 부족한 도전에 직면하고 있다.

ELIZA의 간단한 규칙 기반 시스템에서 현재의 정교한 플랫폼으로 대화형 AI가 발전해왔다. 이 과정은 80년대부터 90년대의 스크립트 봇, 2010년대의 Rasa와 같은 ML-규칙 하이브리드 프레임워크를 거쳐 2020년대의 혁명적인 대형 언어 모델로 이어져 자연스러운 대화를 가능케 했다. 현재는 Parlant와 같은 최첨단 대화 모델링 플랫폼이 주류다.

JetBrains가 소프트웨어 개발 작업에 특화된 40억 파라미터 언어 모델인 Mellum을 오픈 소스로 공개했다. Mellum은 실용성을 갖춘 도메인 전용 모델로, 코드베이스와 프로그래밍 환경에서 활용되도록 훈련되었다. JetBrains는 Apache 2.0 라이선스 하에 Hugging Face에서 이 모델을 공개하며 개발자들에게 확장성을 제공한다.

Meta와 부즈 앨런이 Meta의 오픈소스 대형 언어 모델 ‘Llama 3.2’의 맞춤형 인스턴스인 Space Llama을 국제우주정거장(ISS) 미국 국립 연구소에 배치했다. 이는 우주에서 자율 AI 시스템을 가능하게 하는 중요한 한걸음이며, LLM의 실용적인 통합 사례 중 하나로 주목받고 있다.

대형 언어 모델(Large language models, LLM)이 상호작용 환경에서 자율 에이전트로 훈련받을 때 중요한 도전에 직면하고 있다. 순차적 의사 결정, 교차 턴 메모리 유지, 환경적 피드백에 대한 적응 등이 필요한데, 이는 효과적인 계획 보조자, 로봇 응용 프로그램, 경험을 통해 자가 개선할 수 있는 지도 에이전트 개발에 중요하다. 이에 연구진은 StarPO-S와 RAGEN을 도입하여 이러한 도전을 대응하고 있다.

MiMo-7B는 더 큰 모델보다 더 우수한 수학 및 코드 추론 능력을 갖추고, 사전 훈련과 강화 학습을 통해 개발되었다. 인간 지능에서 독점적으로 여겨졌던 추론 능력이 이제 보다 효율적이고 널리 사용 가능한 소형 모델에서도 활발히 연구되고 있다.

이 튜토리얼에서는 Fireworks AI의 기능을 활용하여 LangChain과 함께 지능적인 도구 기능을 갖춘 에이전트를 구축하는 방법을 살펴볼 것이다. langchain-fireworks 패키지 설치부터 Fireworks API 키 구성, 높은 성능의 llama-v3-70b-instruct 모델을 사용한 ChatFireworks LLM 인스턴스 설정, LangChain의 에이전트 프레임워크와 통합까지 진행할 것이다.

대형 언어 모델 에이전트가 기업 및 연구 생태계 전반에 걸쳐 주목을 받는 가운데, 에이전트들의 통신 역량을 제한하는 표준화된 프로토콜의 부재로 인해 커뮤니케이션 병목 현상이 발생했다. 이로 인해 에이전트들의 상호 조정 능력 및 외부 도구와의 인터페이스가 제약을 받고 있다.
DeepSeek-Prover-V2는 공식 이론 증명을 위해 설계된 대형 언어 모델로, 서브 골 분해와 강화 학습을 활용한다. 수학적 추론은 강력한 논리 일관성을 요구하는데, 이 모델은 Lean, Coq, Isabelle과 같은 증명 어시스턴트의 역할을 한다.

Salesforce AI 연구가 더 지능적이고 신뢰할 수 있으며 다재다능한 AI 에이전트를 구축하기 위한 포괄적인 로드맵을 제시했습니다. 이 최근 이니셔티브는 현재 AI 시스템의 기초적인 한계를 해결하기 위해 초점을 맞추고 있으며, 특히 불일치한 작업 성능, 강건성의 부족, 그리고 복잡한 기업 워크플로에 적응하는 데 어려움이 있는 부분에 초점을 맞추고 있습니다.

Meta가 Llama 4로 구동되는 새 AI 앱을 출시했다. 이 앱은 ChatGPT와 경쟁하기 위해 더 개인화된 AI 경험을 제공하며, 소셜적으로 통합된 기능을 갖추고 있다.