이 고급 DeepSpeed 튜토리얼에서 대형 언어 모델을 효율적으로 훈련하기 위한 최신 최적화 기술의 실용적인 안내를 제공합니다. ZeRO 최적화, 혼합 정밀도 훈련, 그래디언트 누적, 고급 DeepSpeed 구성을 결합하여 GPU 메모리 이용률을 극대화하고 트랜스포머 모델의 확장을 가능하게 하는 방법을 보여줍니다.
최신뉴스 전체보기
야н덱스가 10억 개의 매개변수까지 확장 가능한 대규모 트랜스포머 기반 프레임워크 ARGUS를 소개했다. 이는 야후, 넷플릭스, 메타와 같은 글로벌 기술 리더들이 극복하지 못했던 추천 시스템의 확장 기술적 장벽을 성공적으로 극복한 소수의 기업 중 하나로 야н덱스를 올렸다.
Hugging Face가 FineVision을 공개했다. 이 데이터셋은 17.3백만 개의 이미지, 24.3백만 개의 샘플, 88.9백만 개의 질문-답변 쌍, 약 100억 개의 응답 토큰을 보유하며 비전-언어 모델(VLMs) 학습을 위한 최대 규모의 구조화된 데이터셋 중 하나로 손꼽힌다.
알리바바의 Qwen 팀이 1조 개 이상의 파라미터를 갖춘 새로운 플래그십 대형 언어 모델인 Qwen3-Max-Preview를 발표했다. 이 모델은 Qwen Chat, 알리바바 클라우드 API, OpenRouter에서 접근 가능하며 Hugging Face의 AnyCoder 도구에서 기본으로 제공된다. 이 모델은 현재의 대형 언어 모델 환경에 어떻게 맞는지 살펴보자.
구글 AI가 개인 건강 에이전트(PHA)를 소개했다. 이는 맞춤 상호작용을 통해 개인 건강 요구를 해결하는 멀티 에이전트 프레임워크로, 임상 추론, 의사 결정 지원, 소비자 건강 애플리케이션 등 다양한 영역에서 강력한 성능을 보여주고 있다.
본 튜토리얼은 Gensim과 관련 라이브러리를 사용하여 Google Colab에서 원활하게 실행되는 NLP 파이프라인을 소개한다. 전처리, Latent Dirichlet Allocation (LDA)을 사용한 토픽 모델링, Word2Vec을 이용한 단어 임베딩, TF-IDF 기반 유사도 분석, 의미 검색 등 현대 NLP의 핵심 기술들을 통합한다.
Resemble AI가 최근 23개 국어로 제로샷 음성 클로닝을 위한 프로덕션 급 오픈 소스 TTS 모델인 Chatterbox Multilingual을 출시했다. MIT 라이선스로 배포되어 통합 및 수정에 자유롭다. 이 모델은 Chatterbox 프레임워크를 기반으로 다국어 기능, 표현 제어, 내장형 기능을 추가했다.
의료 인공지능 분야에서 AI의 역할이 증가하고 있으며, 생물학적 문제를 해결하고 환자 데이터를 해석하는 등 복잡한 작업을 수행할 수 있는 에이전트에 대한 수요가 급증하고 있다.
구글의 EmbeddingGemma는 장치 내 AI용으로 최적화된 새로운 텍스트 임베딩 모델로, 효율성과 최신 검색 성능을 균형 있게 유지하도록 설계되었습니다. 308백만 파라미터로 구성된 이 모델은 경량화되어 모바일 기기 및 오프라인 환경에서 작동할 수 있습니다. 크기에도 불구하고 다른 훨씬 큰 모델들과 경쟁력 있는 성능을 보여줍니다.
구글 딥마인드 팀의 최근 연구에서, RAG 시스템의 밀집 임베딩 모델이 규모에 한계를 가지고 있음을 설명했다. 이 한계는 더 큰 모델이나 더 나은 훈련만으로 해결할 수 없는 기본적인 구조적 한계이다.
AI2가 공개한 OLMoASR은 OpenAI의 Whisper와 경쟁하는 오픈 ASR 모델 스위트로, 모델 가중치 외에도 훈련 데이터 식별자, 필터링 단계, 훈련 레시피, 벤치마크 스크립트를 공개하여 ASR 분야에서 이례적으로 투명한 움직임을 보이고 있다.
구글이 Gemini CLI GitHub Actions를 통해 개발자들이 코딩 능력을 GitHub 저장소에 직접 통합하는 새로운 방법을 소개했다. 이 릴리스는 Gemini를 터미널 전용 코딩 도우미에서 GitHub의 워크플로 자동화 프레임워크 위에 구축되어 저장소에 AI 코딩 능력을 직접 통합할 수 있게 한다.
인간 시각 세계에 대한 내부 표현을 뇌가 어떻게 구축하는지 이해하는 것은 뇌과학에서 가장 매혹적인 도전 중 하나다. 최근 10년간 딥러닝은 컴퓨터 비전을 혁신하여 인간 수준의 정확도로 작업을 수행할 뿐 아니라 정보를 처리하는 방식이 우리의 것과 닮았다는 것을 보여준다.
텐센트의 훈유안팀이 훈유안-MT-7B(번역 모델) 및 훈유안-MT-Chimera-7B(앙상블 모델)을 공개했다. 두 모델은 다국어 기계 번역을 위해 특별히 설계되었으며, WMT2025 General Machine Translation 대회에서 훈유안-MT-7B가 31개 언어 쌍 중 30개에서 1위를 차지했다.
구글 AI가 대규모 언어 모델의 평가를 간편하게 하는 Stax를 출시했습니다. Stax는 구조화된 방법으로 모델을 평가하고 비교할 수 있어, 확률적 시스템인 언어 모델의 일관성 테스트를 간단하게 도와줍니다.
Apple은 FastVLM을 발표했다. 이는 비교 가능한 크기의 비전 언어 모델(VLM)보다 85배 빠르고 3.4배 작다. 고해상도 이미지를 처리하는 VLM의 성능에 중요한 역할을 하는데, 높은 해상도 이미지에 대한 사전 훈련된 비전 인코더의 비효율성과 추론 실행 시의 계산 비용 증가 등이 도전 요인이다.
이 튜토리얼에서는 채팅 뿐만 아니라 기억도 할 수 있는 고급 AI 에이전트를 구축하는 방법을 안내합니다. 경량 LLM, FAISS 벡터 검색 및 요약 메커니즘을 결합하여 단기 및 장기 메모리를 만드는 방법을 보여줍니다. 임베딩 및 자동 압축된 사실들과 함께 작동하여 […]
Elysia는 의사결정 트리와 더 똑똑한 데이터 처리를 통해 Agentic RAG 시스템을 새롭게 정의하는 오픈소스 파이썬 프레임워크입니다.
이 튜토리얼에서는 MCP 서버용으로 OAuth 2.1을 구현하는 방법을 단계별로 살펴볼 것이다. Scalekit을 사용하여 간단한 금융 감성 분석 서버를 구축하고 이를 안전하게 보호하는 방법을 알아볼 것이다.
2025년 기업용 AI는 고립된 시범 프로젝트에서 생산 수준의 에이전트 중심 시스템으로 전환되고 있습니다. 분산 에이전트 아키텍처, 오픈 상호 운용성 등이 주요 요구사항과 트렌드로 부상하고 있습니다.
StepFun AI 팀이 Apache 2.0 라이선스로 공개한 Step-Audio 2 Mini는 8B 파라미터의 음성 대 음성 대형 오디오 언어 모델로, 표현력이 풍부하고 현실적이며 실시간 오디오 상호 작용을 제공합니다. GPT-4o-Audio와 같은 상용 시스템을 능가하는 최첨단 성능을 달성했습니다.
본 튜토리얼에서는 Microsoft의 Agent-Lightning 프레임워크를 활용하여 고급 AI 에이전트를 설정하는 방법을 안내합니다. Google Colab 내에서 직접 모든 작업을 실행하므로 서버 및 클라이언트 구성 요소를 한 곳에서 실험할 수 있습니다. 작은 QA 에이전트를 정의하고 지역 Agent-Lightning 서버에 연결한 다음 학습하는 과정을 안내합니다.
NVIDIA의 로봇학 팀이 최근 Jetson Thor를 발표했는데, Jetson AGX Thor 개발 키트와 Jetson T5000 모듈이 포함되어 현실 세계 AI 로보틱스 개발에 중요한 이정표를 세웠다. 물리 AI를 위한 슈퍼컴퓨터로 설계된 Jetson Thor는 생성적 추론과 멀티모달 센서 처리를 제공하여 엣지에서의 추론과 의사결정을 가능케 한다.
OAuth 2.1은 MCP 명세서에서 공식적으로 권장되는 인가 표준이다. 인가 서버는 OAuth 2.1을 적절한 보안 조치와 함께 구현해야 하며, MCP는 전송 수준에서 인가를 제공하여 클라이언트가 리소스 소유자를 대신해 제한된 서버에 안전하게 액세스할 수 있게 한다.
AI 에이전트 관측성은 AI 에이전트를 기획부터 메모리 쓰기와 최종 출력까지 추적하고 모니터링하여 팀이 오류를 디버깅하고 품질과 안전성을 측정하며 지연 시간과 비용을 제어하고 규제 요구 사항을 준수할 수 있도록 하는 학문이다. 이는 전통적인 텔레메트리(추적, 메트릭스 등)를 결합하여 실제로 작동한다.
알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.
LangGraph를 사용하여 대화 흐름을 구조화하고 ‘타임 트래블’을 통해 체크포인트를 거슬러 올라갈 수 있는 방법을 이해하는 튜토리얼. 자유로운 Gemini 모델과 위키피디아 도구를 통합한 챗봇을 만들어 대화에 여러 단계를 추가하고 각 체크포인트를 기록하고 재생할 수 있음.
토큰화와 청킹은 텍스트를 작은 조각으로 나누는 데 관련이 있지만, 서로 다른 목적과 규모에서 작동한다. AI 애플리케이션을 구축하는 경우 이러한 차이를 이해하는 것이 중요하다.
이 튜토리얼에서는 로컬에서 실행되는 무료 허깅페이스 모델을 사용하여 계층적 추론 모델(HRM)의 정신을 재현하고 가벼우면서도 구조화된 추론 에이전트의 설계를 안내합니다. 문제를 하위 목표로 분해하고 Python으로 해결함으로써 우리는 설계자이자 실험자 역할을 수행합니다.
대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.
최신 대형 언어 모델(Large Language Models, LLMs)은 단순한 텍스트 생성을 넘어섰다. 현실 세계 응용 프로그램들은 이제 이러한 모델이 API, 데이터베이스, 소프트웨어 라이브러리와 같은 외부 도구를 사용하여 복잡한 과제를 해결해야 한다. 그러나 AI 에이전트가 도구 간에 계획을 세우고 추론하며 조정할 수 있는지를 어떻게 정확히 알 수 있을까?
2025년 음성 AI 기술은 실시간 대화형 AI, 감정 지능, 음성 합성 등에서 혁명적인 발전을 이루었습니다. 기업들이 음성 에이전트를 점점 채택하고 소비자들이 차세대 AI 어시스턴트를 수용함에 따라 각 산업 전문가들에게 최신 소식에 대한 정보 파악이 중요해졌습니다. 글로벌 음성 AI 시장은 54억 달러에 이르렀습니다.
Microsoft AI 연구소가 MAI-Voice-1과 MAI-1-Preview를 공식 발표하며 인공지능 연구 및 개발 노력의 새로운 단계를 마련했다. MAI-Voice-1과 MAI-1-Preview 모델은 음성 합성과 일반적인 언어 이해에 각각 고유한 역할을 지원한다.
TPOT를 활용하여 기계 학습 파이프라인을 자동화하고 최적화하는 방법을 실제로 시연하는 튜토리얼. Google Colab에서 작업하여 가벼우면서 재현 가능하고 접근성이 좋도록 설정. 데이터 로드, 사용자 정의 스코어러 정의, XGBoost와 같은 고급 모델로 검색 공간을 맞춤화하는 방법, 설정하는 과정을 안내.
2025년은 음성 AI 에이전트에 대한 전환점으로, 10년 전에는 상상도 못했던 자연스러움, 문맥 이해, 상용 채택 수준의 기술이 도래했다. 음성 인식, 자연어 이해, 다중 모달 통합 등의 큰 발전을 통해 음성 AI는 더 이상 명령 및 질의 시스템에 한정되지 않고 중심적 인터페이스로 신속히 발전하고 있다.
AI 모델 훈련은 GPU 비용이 막대한데, 이를 개선하기 위해 옥스퍼드 대학의 새 옵티마이저가 모델 학습을 최적화하여 7.5배 빠른 훈련을 제공한다. 이는 예산을 조절하고 실험을 제한하는 부담을 줄여주며 기업들의 발전을 가속화할 수 있다.
OpenAI가 gpt-realtime과 Realtime API를 공식적으로 출시했으며 엔터프라이즈를 위한 기능을 갖춘 신속한 API를 베타에서 벗어나 발표했다. 음성 AI 기술에서 혁신적인 발전을 이루고 있지만, 의미 있는 개선 사항과 지속적인 도전 과제가 있음을 보여준다.
대형 언어 모델(LLM)은 AI의 다양한 분야에서 중요한 역할을 하고 있지만, 이들은 상태를 유지하지 못하는 한계가 있다. 쿼리마다 이전 정보를 기억하지 못하고 고정된 컨텍스트 창으로 장기 대화나 멀티세션 작업에서 계속된 지식을 축적할 수 없다. 이를 해결하기 위해 강화 학습이 LLM 메모리 에이전트를 어떻게 강화하는지 알아보자.
의료 AI의 최근 발전은 모델의 정교함뿐만 아니라 기반 데이터의 품질과 풍부함에 달려있다. Centaur.ai, Microsoft Research 및 University of Alicante의 협력으로 성과를 거둔 PadChest-GR은 최초의 다중 모달, 이중 언어, 문장 수준 데이터셋이다.
구글 콜랩에서 직접 실행되는 모듈식 딥리서치 시스템을 설계하고, 핵심 추론 엔진으로 Gemini를 구성하며, 가벼운 웹 검색을 위해 DuckDuckGo의 인스턴트 답변 API를 통합하고, 중복 처리 및 지연 처리가 있는 다단계 쿼링을 조율한다. API 호출 제한, 간결한 스니펫 구문 분석, […]
호주의 주요 노력인 카카룸 LLM은 호주 영어와 문화에 맞춘 주권 보장, 오픈소스 대형 언어 모델을 구축하기 위한 노력이다. 호주 특유의 유머, 속어, 법적/윤리적 규범을 이해하는 모델을 만들기 위한 목표를 가지고 있다.
Nous 연구팀이 Hermes 4를 발표했다. 이 모델은 순수 사후 훈련 기술을 통해 선두 수준의 성능을 달성하는데, 복잡한 문제에 대한 심층 고찰이 필요할 때 모델이 표준 응답과 명시적 추론 사이를 전환할 수 있는 하이브리드 추론을 소개했다.
이 고급 QuTiP 튜토리얼에서는 Python과 QuTiP 프레임워크를 사용하여 양자 시스템의 풍부한 동역학을 탐구합니다. 기본적인 단일 및 이중큐빗 상태를 준비한 후, 벨 페어를 포함한 핵심 양자 연산인 폴리 행렬, 하다마드 게이트, CNOT을 구현합니다. 그리고 Rabi 진동을 시뮬레이션합니다.
Agentic RAG는 대규모 언어 모델이 외부 맥락에서 결과물을 검색하고 구체화하는 전통적인 RAG의 강점과, 의사 결정 및 도구 사용을 결합한 것이다. 정적 방법과 달리, Agentic RAG는 인공지능 에이전트가 검색, 생성, 쿼리 계획, 반복적 추론을 조율하는데 특징이 있다. 이 에이전트들은 데이터 소스를 자율적으로 선택하고 쿼리를 개선하며 API/도구를 실행한다.
Meta AI와 UCSD 연구팀이 새로운 AI 방법인 Deep Think with Confidence (DeepConf)를 소개했다. 이 방법은 병렬 사고와 자아일관성 기법을 활용하여 AI 추론을 혁신하였고, AIME 2025에서 99.9%의 성과를 이루었다. 이는 오픈소스 모델 GPT-OSS-120B를 사용하는 첫 번째 사례이다.
MCP는 에이전트와 AI 어시스턴트를 위해 HTTP가 웹을 위해 한 것처럼 AI 상호 운용성의 새 시대를 열어줄 준비가 되어 있습니다. MCP는 AI 시스템을 구축, 확장, 분석하는 경우 무시할 수 없는 오픈 표준으로, 도구를 발견하고 리소스를 가져오는 데 대한 범용 계약을 제공합니다.
구글의 새로운 회귀 언어 모델(RLM) 접근 방식은 복잡한 피쳐 엔지니어링이나 엄격한 테이블 형식에 의존하지 않고 대용량 언어 모델(LLMs)이 원시 텍스트 데이터에서 산업 시스템 성능을 예측할 수 있게 합니다.
이 튜토리얼에서는 Semantic Kernel을 활용한 고급 AI 에이전트를 구축하고 Google의 Gemini 무료 모델과 결합하여 Google Colab에서 원활하게 실행합니다. Semantic Kernel 플러그인을 웹 검색, 수학 평가, 파일 I/O, 메모 작성 등의 도구로 연결하고 Gemini를 통해 구조화된 JSON 출력을 조정합니다.
NVIDIA 연구자들이 대형 언어 모델 추론의 효율성 장벽을 깨고, Jet-Nemotron을 공개했는데 이 모델 시리즈는 선도적인 LLM보다 최대 53.6배 높은 생성 처리량을 제공하면서 정확도를 유지하거나 능가한다. 이는 새로운 사전 훈련을 통해 이루어진 것이 아니라는 점이 가장 중요하다.
구글 AI는 Gemini 2.5 플래시 이미지를 공개했습니다. 이 모델은 사용자가 이미지를 설명함으로써 생성하고 편집할 수 있도록 설계되었는데, 정확하고 일관된 고품질 편집을 빠르고 광범위하게 제공하는 것이 혁신적입니다.
머신러닝이 산업을 변혁하고 금융 서비스, 의료, 자율 시스템 및 전자 상거래와 같은 다양한 분야에서 혁신을 주도하고 있지만, 조직이 ML 모델을 대규모로 운영화할 때 전통적인 소프트웨어 전달 방식인 CI/CD가 머신러닝 워크플로에 적용될 때 중요한 간극을 드러내고 있다.
AI의 빠른 세계에서 대형 언어 모델(LLMs)은 챗봇부터 코드 어시스턴트까지 모든 것을 구동한다. 그러나 당신의 LLM 추론은 응답 생성 과정이 최대 5배 더 느릴 수 있다. 이유는 출력 길이의 불확실성을 다루는 너무 조심스러운 방식 때문이다.
MLE-Agent와 Ollama를 결합하여 로컬에서 API 없이 머신러닝 워크플로우를 만드는 방법에 대한 튜토리얼. 구글 코랩에서 재현 가능한 환경을 설정하고, 합성 데이터셋을 생성한 후 에이전트를 이용해 훈련 스크립트를 작성하는 방법을 안내한다. 일반적인 실수를 방지하여 견고하게 만든다.
Microsoft이 새로 공개한 VibeVoice-1.5B는 MIT 라이선스로 배포된 텍스트 음성(TTS) 기술의 한계를 재정의하며, 4명의 다른 화자로 최대 90분의 음성을 생성할 수 있는 유연하고 확장 가능한 모델이다.
AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.
GPU와 TPU는 대규모 트랜스포머 모델 학습을 가속화하는 데 중요한 역할을 하지만, 핵심 아키텍처, 성능 프로필 및 생태계 호환성의 차이로 인해 사용 사례, 속도, 유연성에 중요한 영향을 미친다. TPUs는 구글이 고도로 효율적인 행렬 연산을 위해 특별히 제작한 사용자 정의 ASIC(특정 응용 프로그램 통합 회로)이며, 핵심 아키텍처와 하드웨어 기초가 다르다.
최근 대형 언어 모델 판단력을 갖춘 AI 에이전트의 발전으로, 임상 대화, 진단 및 치료 계획이 가능해졌습니다. 그러나 개별 진단과 치료 권고는 규제가 엄격하며, 중요한 환자와 직면한 결정에 대한 책임은 라이선스를 받은 임상 의사만이 가질 수 있습니다. 전통적인 의료는 종종 계층적 감독을 사용하며, 경험 많은 의사가 임상 의사의 의사결정을 검토합니다.
LLM Arena-as-a-Judge 방법을 사용하여 대규모 언어 모델 출력물을 평가하는 방법을 살펴봅니다. 각 응답에 점수를 부여하는 대신, 이 방법은 도움이 되는지, 명확한지, 톤이 어떤지 등의 기준을 기반으로 출력물을 직접 비교하여 더 나은 쪽을 판단합니다.
GluonTS를 활용하여 복잡한 합성 데이터셋을 생성하고 다중 모델을 병렬로 적용하는 방법에 대해 다루는 튜토리얼. 다양한 추정기를 동일한 파이프라인에서 사용하고 누락된 종속성을 우아하게 처리하여 유용한 결과물을 생성하는 방법에 초점을 맞춘다. 평가 및 시각화 단계를 포함하여 결과를 분석한다.
데이터 주도 세계에서 데이터베이스는 모바일 앱부터 기업 시스템에 이르기까지 현대 애플리케이션의 중추를 이룬다. 다양한 데이터베이스 유형과 그 응용을 이해하는 것은 특정한 요구 사항에 맞는 적절한 시스템을 선택하는 데 중요하며, 개인 프로젝트를 구축하거나 기업 수준의 솔루션을 설계하는 경우 필수적이다.
미국의 기업용 AI는 실험 단계를 벗어나고 있습니다. CFO들은 명확한 투자대비효과(ROI)를 기대하고, 이사회는 리스크 감독의 증거를 요구하며, 규제기관들은 기존 리스크 관리 의무에 부합하는 통제를 기대합니다. 이 상황 속에서 모든 AI 제품의 부사장은 항상 고민해야 합니다: 이 능력을 자체 구축해야 할까요, 벤더로부터 구매해야 할까요, 아니면 두 가지를 혼합해야 할까요?
이 튜토리얼에서는 GraphAgent 프레임워크와 Gemini 1.5 Flash 모델을 사용하여 고급 그래프 기반 AI 에이전트를 구현합니다. 각각 특정 기능을 담당하는 노드의 방향성 그래프를 정의하며, 작업 분해를 담당하는 계획자, 흐름 제어를 담당하는 라우터, 외부 증거 및 계산을 제공하는 연구 및 수학 노드가 있습니다.
입자 기반 시뮬레이션과 포인트 클라우드 응용 프로그램은 과학 및 상업 데이터 집합의 크기와 복잡성을 대규모로 확장시키고 있으며, 이를 효율적으로 축소, 저장 및 분석하는 것은 현대 GPU의 병목 현상을 방지하는 것이다. 이는 우주학, 지질학과 같은 분야에서 신흥 대규모 도전 과제 중 하나이다.
대형 언어 모델은 보통 사전 훈련 후 지도 미세 조정(SFT) 또는 강화 학습 미세 조정(RFT)을 사용해 개선된다. SFT는 예제 기반 학습을 통해 강의 따르기를 효과적으로 가르치지만, 엄격한 행동과 부족한 일반화로 이어질 수 있다. 반면 RFT는 보상 신호를 사용해 모델을 작업 성공을 위해 최적화하지만, […]
JSON 프롬프팅은 AI 모델에 명확하고 기계가 읽을 수 있는 프롬프트를 제공하는 기술이다. 기존의 텍스트 프롬프트와는 달리 JSON 프롬프트는 요구 사항을 키-값 쌍, 배열, 중첩된 객체로 구조화하여 모호함을 없애고 정확한 청사진으로 바꾼다.
음성 에이전트는 전화나 인터넷을 통해 실시간 대화를 나눌 수 있는 소프트웨어 시스템이다. 이전의 IVR 트리와 달리 음성 에이전트는 자유로운 형식의 음성을 처리하고, 중단을 다루며, 외부 도구 및 API(예: CRM, 예약 시스템, 결제 시스템)에 연결되어 작업을 완료할 수 있다.
2025년에는 대형 언어 모델(LLMs)과 소형 언어 모델(SLMs) 사이에 절대적인 승자가 없다. 은행, 보험사 및 자산 관리자들은 규제 리스크, 데이터 민감성, 대기 시간 및 비용 요구 사항, 사용 복잡성에 따라 선택해야 한다.
구글 AI팀은 차별적인 개인 파티션 선택을 위한 새로운 머신러닝 알고리즘을 제안했다. 이는 대규모 머신러닝 및 데이터 분석에서 사용자 정보를 보호하는 데 중요한 역할을 한다. 이 알고리즘은 엄격한 개인 정보 보호를 유지하면서 대규모 사용자 기여 데이터셋에서 고유한 항목을 안전하게 추출하는 과정을 포함한다.
RAG 기술은 대형 언어 모델을 실시간, 도메인 특화 지식으로 강화하는 핵심 기술로 등장했다. “Native RAG”와 “Agentic RAG”의 구현이 주를 이루고 있으며, AI 기반 정보 통합과 의사 결정 지원에서 새로운 패러다임을 제시하고 있다.
LLM은 파라미터 수가 급증하고 MoE 디자인과 대규모 컨텍스트 길이의 널리 사용으로 급속히 발전했습니다. DeepSeek-R1, LLaMA-4, Qwen-3 같은 모델은 이제 수조 개의 파라미터에 이르며 엄청난 컴퓨팅, 메모리 대역폭, 빠른 칩 간 통신이 요구됩니다. MoE는 효율성을 향상시키지만 전문가 라우팅에서 도전을 야기하며 백만 개 이상의 토큰을 갖는 컨텍스트 창은 […]
자연어를 SQL이나 Cypher와 같은 형식적인 쿼리 언어로 변환하는 의미 파싱은 데이터베이스와 직관적으로 상호작용할 수 있게 합니다. 그러나 자연어는 모호하고 쿼리 언어는 정확성을 요구하기 때문에 모호성은 그래프 데이터베이스에서 어려운 과제입니다.
AI 개발자와 엔지니어들에게 최신 툴, 산업 동향을 알기 위해 필수인데, 노이즈 속에서 빠르게 정보를 얻기 위해 고품질의 기술적 콘텐츠를 제공하는 상위 10개 AI 블로그와 뉴스 플랫폼을 소개합니다.
Zhipu AI가 ComputerRL을 소개했다. 본 프레임워크는 에이전트에게 복잡한 디지털 작업 환경을 탐색하고 조작할 능력을 부여하는 것을 목표로 한다. 이 혁신은 AI 에이전트 개발에서 핵심적인 도전 과제를 해결하는데, 즉 컴퓨터 에이전트와 인간이 디자인한 GUI 간의 연결 부재를 해소한다.
Google이 Datalog를 확장한 새 오픈소스 프로그래밍 언어 ‘Mangle’을 소개했다. Go 라이브러리로 구현된 Mangle은 여러 다른 소스에 퍼져있는 데이터에 대한 쿼리 및 추론 작업을 간단하게 만들기 위해 설계되었다. 이 릴리스는 개발자와 보안 분야에서 점점 더 커지는 도전에 대응한다.
스피커 다이어라이제이션은 오디오 스트림을 화자 식별로 분리하여 각 세그먼트를 일관되게 레이블링하는 프로세스로, 통역을 더 명확하고 검색 가능하며 콜센터, 법률, 의료, 미디어, 대화형 AI 등 다양한 분야에서 유용하게 활용된다. 2025년 현재 현대 시스템들이 활발히 사용되고 있다.
NVIDIA의 실시간 화자 다이어라이제이션 기술인 스트리밍 소트포머가 발표되었습니다. 이 기술은 노이즈가 있는 다수 화자 환경에서도 회의, 통화, 음성 애플리케이션 참가자를 즉시 식별하고 레이블을 지정합니다. 영어와 중국어에 최적화되어 있으며 밀리초 수준의 정밀도로 최대 4명의 동시 화자를 추적할 수 있습니다.
중국 AI 스타트업인 DeepSeek가 최신 주력 언어 모델인 DeepSeek-V3.1을 발표했다. DeepSeek-V3의 아키텍처를 기반으로 하여 추론, 도구 사용, 코딩 성능을 중요하게 향상시켰다. 이 모델은 저렴한 비용으로 OpenAI 및 Anthropic 수준의 성능을 제공하여 급속하게 명성을 얻고 있다.
홍콩 대학 연구진이 출시한 DeepCode는 다중 에이전트 AI 시스템을 활용하여 연구 논문 해석부터 코딩 프로세스를 자동화하는 “오픈 에이전틱 코딩” 패러다임을 제안한다.
한국은 대규모 언어 모델(LLM) 분야에서 중요한 혁신가로 자리매김하고 있으며 정부 투자, 기업 연구, 오픈 소스 협력을 통해 한국어 처리 및 국내 응용 프로그램에 맞는 모델을 만들고 있다. 이는 외국 AI 기술에 대한 의존성을 줄이고 데이터 개인 정보 보호를 향상시키며 의료, 교육 등의 분야를 지원한다.
Liquid AI사가 저지연, 장치 내 배포를 위해 최적화된 새로운 비전-언어 기반 모델인 LFM2-VL을 공식 출시했다. LFM2-VL-450M 및 LFM2-VL-1.6B 두 가지 효율적인 변형으로, 스마트폰, 노트북, 웨어러블 및 임베디드 시스템에 다중 모달 AI를 속도나 정확도를 희생하지 않고 도입하는 중요한 발전을 이루었다.
DeepSpeed 팀이 새로운 오프로딩 엔진인 ZenFlow를 공개했습니다. 이 엔진은 대형 언어 모델 (LLM) 학습 중 발생하는 CPU로 인한 GPU 스톨 문제를 극복하기 위해 설계되었습니다. 기존 프레임워크들과는 다르게 ZenFlow는 비싼 GPU가 훈련 단계 중 대부분을 기다리는 것을 방지합니다.
2025년 현재 인공지능 개발에서 PyTorch와 TensorFlow 사이의 선택은 여전히 가장 논란이 되는 문제 중 하나이다. Alfaisal 대학의 종합 조사 논문을 통해 최신 동향을 탐색하며 사용성, 성능, 배포, 생태계 고려 사항을 종합적으로 분석한다.
구글 클라우드가 최근에 개발자 작업을 간소화하고 수동 노력을 줄이며 분석 가속화하고 고급 데이터 및 코드 자동화의 진입 장벽을 낮추기 위해 설계된 다섯 가지 특화된 AI 에이전트를 공개했다. 각 에이전트는 데이터 파이프라인 조정부터 기업급 GitHub 관리까지 각각의 개발자 과제를 다룬다.
Model Context Protocol (MCP)는 AI 모델을 다양한 애플리케이션, 시스템 및 도구에 연결하는 범용 표준으로 급속히 등장했습니다. MCP로의 이주는 사용자 정의 통합에 익숙한 기관들에게 기술적 부채를 줄이고 새로운 상호 운용성 혜택을 누릴 수 있는 변화를 가져올 수 있습니다.
Microsoft가 엑셀 for Windows와 Mac에 COPILOT 함수를 공식적으로 도입하여 대형 언어 모델의 기능을 스프레드시트로 직접 가져왔다. 사용자들은 이제 자연어를 사용하여 데이터를 분석, 요약 및 생성할 수 있다.
대형 언어 모델(Large Language Models, LLMs)을 평가하는 것은 과학적으로나 경제적으로 비용이 많이 든다. LLMs의 크기가 점점 커지면서 이를 평가하고 비교하는 방법론은 점점 중요해지고 있다. Allen Institute for Artificial Intelligence (Ai2)의 최근 연구는 두 가지 기본 요소를 중심으로 한 강력한 프레임워크를 소개했다.
본 튜토리얼에서는 Google Colab 내에 완전한 Ollama 환경을 구현하여 Self-Hosted LLM Workflow를 복제하는 방법을 제시한다. Colab VM에 공식 Linux 설치 프로그램을 사용하여 Ollama를 설치하고 localhost:11434에 HTTP API를 노출시키는 과정부터 시작하여 Ollama 서버를 배경에서 실행한다. 서비스를 확인한 후, […]
미래에는 가정 로봇이 일상적인 일을 스스로 처리하고 지속적인 경험을 통해 가정 패턴을 학습할 수 있을 것으로 예상된다. 다중 모달 에이전트인 M3-Agent의 지능은 계속해서 다중 모달 센서를 통해 세계를 관찰하고, 장기 기억에 경험을 저장함으로써 이에 달려있다.
NVIDIA가 Nemotron Nano 2 패밀리를 공개했는데, 이는 최첨단 추론 정확도를 끌어올리는 하이브리드 Mamba-Transformer 대형 언어 모델을 소개하며 유사한 크기의 모델보다 최대 6배 높은 추론 처리량을 제공합니다. 이 릴리스는 데이터 및 방법론에 대한 전례없는 투명성으로 눈에 띕니다.
LLM 에이전트는 웹 연구, 보고서 작성, 데이터 분석 및 다단계 소프트웨어 워크플로우와 같은 복잡한 작업을 처리하는 데 충분히 강력해졌지만, 절차적 메모리에 어려움을 겪고 있습니다. 이 프레임워크는 프로시저 메모리를 핵심 최적화 대상으로 끌어올려 에이전트를 견고하게 만듭니다.
사이버 위협이 더욱 정교해짐에 따라 조직들은 인공지능을 중심으로 방어 전략을 재구상하고 있다. AI로 구동되는 사이버 보안 방어에서 주목해야 할 가장 중요한 트렌드를 살펴보자. AI 기반 위협 탐지와 자동 응답, 그리고 더 이상의 갈라진 방어 시대는 끝났다.
금융 시장에서 인공지능(AI) 사용이 급증하고 있으며, 블랙록 연구팀은 투자 연구를 위해 알파에이전트를 제안했다. 알파에이전트 프레임워크는 다중 에이전트 시스템의 파워를 활용하여 투자 결과를 개선하고 인지 편향을 줄이며 의사 결정을 강화한다.
바이브 코딩은 대형 언어 모델 도구를 사용해 엔지니어가 명확한 영어로 파이프라인 목표를 설명하고 생성된 코드를 받는 것을 말한다. 올바르게 활용하면 프로토타이핑과 문서화를 가속화할 수 있지만 부주의하게 사용하면 데이터 손상, 보안 위험, 코드 유지 보수의 어려움을 초래할 수 있다.
2025년 8월 알리바바의 Qwen Team이 출시한 Qwen-Image-Edit는 20B-파라미터 Qwen-Image를 기반으로 고급 편집 기능을 제공한다. 이 모델은 시맨틱 편집(스타일 전이 및 새로운 시각 합성)과 외관 편집에서 뛰어나다.
McKinsey의 오픈소스 파이썬 툴킷 Vizro는 몇 줄의 설정으로 멋진 대시보드를 만드는데 도움을 주며, Plotly, Dash, Pydantic 위에 구축되어 있다.
대규모 언어 모델(Large Language Models, LLMs)을 중심으로 하는 인공지능의 급속한 성장은 기업이 고객 서비스 자동화부터 데이터 분석 향상까지 운영 방식을 혁신시켰다. 그러나 AI를 핵심 업무에 통합할 때 실제 데이터 소스에 모델을 안전하고 효율적으로 연결하는 것이 계속된 과제로 떠오르고 있다. Anthropic의 소개로 MCP가 등장함으로써 이 문제에 대한 해결책이 제시되고 있다.
알리바바 AIDC-AI팀이 최신 대형 다중모달 언어 모델 Ovis2.5를 발표했는데, 9B와 2B 매개변수 버전으로 오픈소스 AI 커뮤니티에서 주목을 받고 있다. Ovis2.5는 원본 해상도 비전 지각, 심층 다중모달 추론, 견고한 OCR을 통해 성능과 효율성에 새로운 기준을 제시하며 기존 제약을 극복하고 있다.
2025년을 기준으로 AI 추론에 대한 기술적인 심층 탐구를 제공하며, 모델 훈련과 실제 응용 프로그램 간의 연결을 담당하는 추론의 핵심 기능에 대해 다룹니다. 현대 모델의 지연 문제와 최적화 전략과 같은 주제를 다룹니다.
이 튜토리얼에서는 mcp-agent 및 Gemini를 활용하여 고급 AI 에이전트를 구축하는 방법을 안내합니다. 필요한 모든 종속성을 갖춘 견고한 환경을 설정한 다음 웹 검색, 데이터 분석, 코드 실행 및 날씨 정보와 같은 구조화된 서비스를 제공하는 MCP 도구 서버를 구현합니다.
Hugging Face사가 AI Sheets를 출시했는데, 이는 무료이자 오픈소스이며 로컬 기반의 노코드 툴로, AI를 활용한 데이터셋 생성과 보강을 혁신적으로 간소화하는 데 목적이 있다. AI Sheets는 직관적인 스프레드시트 인터페이스를 대표하는 오픈소스 대형 언어 모델(Qwen, Kimi, Llama 3 등)과 직접적으로 결합하여 AI 기반 데이터 처리에 대한 접근성을 민주화하고 있다.









