오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 ‘Shin Megami Boson’이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.
최신뉴스 전체보기
Diffusers 라이브러리를 사용하여 실용적인 이미지 생성 워크플로우를 설계하고, 안정적인 환경을 구축한 후 최적화된 스케줄러를 사용하여 텍스트 프롬프트에서 고품질 이미지를 생성합니다. LoRA 기반 잠재 일관성 접근을 통해 추론을 가속화하고, 엣지 조건부 하에서 ControlNet으로 합성을 안내하며, 마지막으로 지역적인 편집을 수행합니다.
본 튜토리얼에서는 간단한 채팅 상호작용을 넘어 다단계 연구 문제를 해결하는 “스위스 아미 나이프” 연구 에이전트를 구축한다. 최신 기술을 활용하여 모던 에이전트가 추론, 확인 및 보고서 작성을 어떻게 수행하는지 보여준다.

NVIDIA가 DreamDojo를 발표했다. 이는 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델로, 기존의 물리 엔진 대신 픽셀에서 직접 로봇 행동의 결과를 ‘꿈꾼다’.
NVIDIA가 Dynamo v0.9.0을 출시했다. 이 업데이트는 대규모 모델의 배포와 관리를 간소화하고 GPU가 다중 모달 데이터를 처리하는 방식을 개선했다. 이번 릴리스에서는 NATS와 etcd와 같은 무거운 종속성을 제거하고 있다.
이 튜토리얼에서는 모든 결정을 추적 가능하고 감사 가능하며 인간 승인에 의해 명시적으로 통제되는 유리 상자 형태의 에이전트 워크플로우를 구축합니다. LangGraph의 인터럽트 주도형 인간-루프 제어와 해시 체인 데이터베이스를 결합하여 고위험 작업에 대한 동적 권한 부여를 강제로 시행합니다.

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 ‘에이전틱’ AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.
이 튜토리얼에서는 PydanticAI를 사용하여 신뢰성을 우선시하는 프로덕션 준비 워크플로우를 구축한다. 엄격하고 유형화된 출력을 강제하여 각 단계에서 명확한 응답 스키마를 정의하고 의존성 주입을 통해 도구를 연결하며, 에이전트가 데이터베이스와 같은 외부 시스템과 안전하게 상호작용할 수 있도록 한다.

Zyphra가 EEG 신호에 특화된 380M 파라미터 foundation 모델인 ZUNA를 공개했다. ZUNA는 채널 인필링과 초해상도를 수행하는 마스크된 확산 오토인코더로, Apache-2.0 라이선스 하에 가중치가 포함되어 있다.
이 튜토리얼에서는 ColPali를 사용하여 엔드 투 엔드 시각 문서 검색 파이프라인을 구축한다. PDF 페이지를 이미지로 렌더링하고 ColPali의 다중 벡터 표현을 사용하여 페이지를 임베드하며, 늦은 상호작용 스코어링을 활용하여 가장 관련성 높은 페이지를 검색한다.

Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 ‘거친 계곡’을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.

구글 딥마인드가 음악 분야에서도 창의적 AI의 한계를 넓혔다. Lyria 3은 사진과 텍스트를 이용해 사용자 맞춤 트랙을 생성하는 고급 음악 생성 모델로, 복잡한 오디오 파형과 창의적 의도를 다루는데 큰 전환점을 제공한다.
구글이 투명 디스플레이를 위한 인터페이스 구축을 탐구한 결과물인 ‘Jetpack Compose Glimmer’를 소개했다. 이는 픽셀이 아닌 빛을 활용한 디자인 시스템으로, AI 안경을 위해 특별히 개발되었다.

Cohere AI Labs가 Tiny Aya를 발표했습니다. Tiny Aya는 70개 언어를 지원하며 3.35B-파라미터 아키텍처를 사용하여 최신 번역 및 생성 기능을 제공합니다. 이 릴리스에는 Tiny Aya Base(사전 훈련), Tiny Aya Global(균형 조정된 지시) 등 5가지 모델이 포함되어 있습니다.

Anthropic사는 Claude 4.6 Sonnet을 발표하여 개발자와 데이터 과학자가 복잡한 논리를 다루는 방식을 변화시키고, 내부 코드 실행을 통해 실시간으로 사실을 확인하는 기능을 갖춘 Improved Web Search를 함께 선보였다.

PyGWalker를 사용하여 정적이고 코드 중심의 차트를 넘어서 진정한 대화형 탐색적 데이터 분석 워크플로우를 구축하는 방법을 소개하는 튜토리얼입니다. 타이타닉 데이터셋을 대규모 대화형 쿼리용으로 준비한 후 분석에 적합한 엔지니어링된 피처를 활용하여 데이터의 기본 구조를 드러내고 상세한 행 수준 탐색과 고수준 집계를 모두 가능하게 합니다.
Cloudflare가 Agents SDK v0.5.0을 출시했다. 새로운 버전은 상태 없는 서버리스 함수의 한계를 해결하고, 엣지 추론 성능을 최적화하기 위해 Rust 기반 Infire 엔진을 도입했다. 이를 통해 세션 컨텍스트를 다시 구축할 필요 없이 수직 통합된 실행 레이어를 제공하여 지연 시간과 토큰 소비를 줄였다.
Agoda가 APIAgent를 공개했다. 이 도구는 어떤 REST 또는 GraphQL API든 Model Context Protocol (MCP)로 변환할 수 있도록 설계되었다. AI 에이전트를 구축하는 것은 중요한 과제이지만, 데이터와의 효율적인 소통이 큰 병목 현상이다.
구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, ‘에이전틱 웹’이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.
이 튜토리얼에서는 단기적인 채팅 상호작용을 넘어 지속적으로 학습하는 완전한 상태 기반 개인 튜터 에이전트를 구축한다. 사용자 선호도를 유지하고 학습의 약한 영역을 추적하며 응답 시 필요한 과거 콘텍스트만 선택적으로 회상하도록 시스템을 설계한다. 견고한 저장, 의미 검색 및 적응적 프롬프팅을 결합함으로써 우리는 어떻게 상태 기반 튜터 에이전트를 설계하는지 보여준다.
Moonshot AI가 OpenClaw 프레임워크의 기능을 브라우저로 직접 제공하기 시작했다. 새로운 Kimi Claw는 kimi.com에서 네이티브로 제공되며 개발자와 데이터 과학자에게 지속적인 24/7 AI 에이전트 환경을 제공한다. 이 업데이트로 프로젝트가 로컬 설정에서 클라우드 네이티브 강자로 이동했다.
nineninesix.ai 팀이 출시한 ‘Kani-TTS-2’는 효율성을 중시하는 새로운 오픈 소스 음성 생성 모델로, 작은 용량으로 고품질 음성 합성을 제공하며 음성 복제 기능을 지원한다.

OpenClaw는 자체 호스팅되는 개인 AI 어시스턴트로, WhatsApp, Telegram, Slack, Discord 등 기존에 사용하는 앱을 통해 통신합니다. 질문에 답변하고 작업을 자동화하며 파일 및 서비스와 상호 작용하며 지원되는 기기에서 말하거나 청취할 수 있습니다.
구글은 AI 에이전트를 위한 Chrome을 플레이그라운드로 전환하고, 기존의 웹사이트 스크린샷 촬영 방식보다 빠르고 효율적인 WebMCP를 소개했다. 이를 통해 AI 에이전트가 웹사이트와 직접적이고 구조화된 상호작용을 가능하게 한다.
이 튜토리얼에서는, 에이전트를 위한 자기 조직화 메모리 시스템을 구축하는 방법에 대해 알아본다. 이 시스템은 대화 내용을 단순히 저장하는 것을 넘어 상호작용을 지속적이고 의미 있는 지식 단위로 구조화한다. 추론과 메모리 관리가 명확히 분리되어 있어 정보를 추출, 압축, 정리하는 전용 구성 요소를 허용한다.

Exa AI가 Exa Instant를 소개했습니다. 이는 실시간 에이전틱 워크플로우에서 발생하는 병목 현상을 제거하기 위해 설계된 서브-200ms 신경 검색 엔진입니다. 대형 언어 모델(Large Language Models, LLMs) 분야에서 속도는 정확성이 해결된 후 유일하게 중요한 기능입니다.
이 튜토리얼에서는 CTGAN과 SDV 생태계를 사용하여 완전한 프로덕션급 합성 데이터 파이프라인을 구축합니다. 원시 혼합 유형 탭 데이터부터 시작하여 제약 생성, 조건부 샘플링, 통계적 유효성 검사 및 다운스트림 유틸리티 테스트로 진행됩니다.

Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.

구글 딥마인드팀이 알레테이아를 소개했다. 알레테이아는 대회 수준의 수학과 전문 연구 사이의 간극을 메우는 특수 AI 에이전트로, 2025년 국제 수학 올림피아드(IMO)에서 금메달 수준의 성과를 거두었으며, 자연 언어로 솔루션을 반복적으로 생성, 검증 및 수정하여 연구문학을 탐색하고 장기적인 증명을 구성한다.
이 튜토리얼에서는 보상 모델을 사용하지 않고 대규모 언어 모델을 인간 선호도에 맞게 조정하는 최종 Direct Preference Optimization 워크플로우를 구현한다. TRL의 DPOTrainer를 QLoRA와 PEFT와 결합하여 단일 Colab GPU에서 선호도 기반 조정을 가능하게 한다. UltraFeedback 이진화된 데이터셋에서 직접 학습을 실시한다.

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

구글이 제미니 3 딥띵크의 주요 업데이트를 발표했다. 이 업데이트는 현대 과학, 연구 및 공학을 가속화하기 위해 특별히 설계되었다. 이번 업데이트는 인류의 전문가 개입이 필요했던 문제를 내부 확인을 사용해 해결하는 ‘추론 모드’로의 전환을 대표한다.
이 튜토리얼에서는 Matryoshka Representation Learning을 사용하여 Sentence-Transformers 임베딩 모델을 세밀하게 조정하여 벡터의 초기 차원이 가장 유용한 의미 신호를 담도록 합니다. MatryoshkaLoss를 사용하여 트리플 데이터로 학습하고, 임베딩을 64, 128 및 256 차원으로 절단한 후 검색 품질을 검증합니다.
이 튜토리얼에서는 Atomic-Agents 주변에 고급, end-to-end 학습 파이프라인을 구축하는 방법을 소개합니다. Typed 에이전트 인터페이스, 구조화된 프롬프팅, 프로젝트 문서에 기반을 둔 콤팩트한 검색 레이어를 함께 연결하여 실제 문서를 기반으로 출력을 정립하는 방법을 시연하고 있습니다. 또한 검색 계획을 수립하고 관련 컨텍스트를 검색하고 이를 동적으로 응답 에이전트에 삽입하고 상호 작용 루프를 실행하는 방법을 보여줍니다.

대규모 언어 모델(Large Language Models, LLMs)을 대규모로 제공하는 것은 키-값(Key-Value, KV) 캐시 관리로 인해 엄청난 공학적 도전이다. NVIDIA 연구진은 KVTC(KV Transform Coding)를 소개하여 효율적인 LLM 서빙을 위해 키-값 캐시를 20배로 압축했다.
구글 리서치가 Natively Adaptive Interfaces (NAI)를 통해 접근성 있는 소프트웨어 구축 방법을 제안했습니다. NAI는 다중 모달 AI 에이전트가 주 사용자 인터페이스가 되어 응용 프로그램을 실시간으로 사용자의 능력과 문맥에 맞게 적응시키는 에이전틱 프레임워크입니다.
이 튜토리얼에서는 Einops의 고급 사용법을 통해 복잡한 텐서 변환을 명확하고 가독성 있게 표현하는 방법을 안내합니다. rearrange, reduce, repeat, einsum, pack/unpack을 사용하여 텐서를 재구성, 집계 및 결합할 수 있는 방법을 보여줍니다. 비전과 같은 실제 딥러닝 패턴에 초점을 맞춥니다.

알리바바의 Tongyi Lab 연구팀이 ‘Zvec’을 발표했다. 이는 엣지 및 장치 내 검색 워크로드를 대상으로 하는 오픈소스 인프로세스 벡터 데이터베이스로, SQLite와 유사한 라이브러리로 작동하여 외부 서비스나 데몬이 필요하지 않다. 검색 증강 생성(RAG)을 위해 설계되었다.
이 튜토리얼에서는 LoRA를 사용하여 대규모 언어 모델의 연합 미세 조정을 수행하면서 개인 텍스트 데이터를 중앙 집중화하지 않고 어떻게 할 수 있는지 보여줍니다. Flower의 연합 학습 시뮬레이션 엔진을 결합하여 여러 조직을 가상 클라이언트로 시뮬레이션하고 각 클라이언트가 가벼운 LoRA 어댑터 매개변수만 교환하면서 공유 기본 모델을 로컬로 적응하는 방법을 보여줍니다.

마이크로소프트 연구자들이 ‘OrbitalBrain’ 프레임워크를 소개하여 지구 관측 인공위성이 매일 대량의 고해상도 이미지를 촬영하지만 대부분의 데이터가 지상으로 제때 전달되지 않는 문제를 해결하기 위해 우주 분산 기계 학습을 가능케 하는 방안을 제안했습니다.

로봇들이 GPT-3 시대로 진입하고 있습니다. 연구자들은 오랫동안 로봇을 대규모 언어 모델 (LLM)을 구동하는 자기 회귀(AR) 모델을 사용하여 훈련하려고 노력해왔습니다. 모델이 문장에서 다음 단어를 예측할 수 있다면 로봇 팔의 다음 움직임도 예측할 수 있어야 합니다. 그러나 기술적 한계가 있었습니다.
이 튜토리얼에서는 MLflow를 사용하여 대형 언어 모델의 행동에 대해 프롬프트를 첫 번째로 클래스화된 버전화된 아티팩트로 취급하고 엄격한 회귀 테스트를 적용하는 방법을 보여줍니다. 프롬프트 버전, 차이, 모델 출력 및 여러 품질 메트릭을 완전히 재현 가능한 방식으로 로깅하는 평가 파이프라인을 설계합니다.

바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.
이 튜토리얼에서는 Polyfactory를 사용하여 Python 타입 힌트에서 풍부하고 현실적인 목 데이터를 생성하는 방법을 상세히 살펴봅니다. 환경 설정부터 시작하여 데이터 클래스, Pydantic 모델, attrs 기반 클래스에 대한 팩토리를 점진적으로 구축하면서 사용자 정의, 오버라이드, 계산 필드 및 생성을 설명합니다.

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.
이 튜토리얼에서는 단일 프롬프트 호출이 아닌 프로덕션급 연구 및 추론 시스템처럼 행동하는 고급 에이전틱 AI 워크플로우를 구축한다. 웹 소스를 비동기적으로 수집하여 출처 추적 청크로 분할한 후 TF-IDF(희소)와 OpenAI 임베딩(밀집)을 활용한 하이브리드 검색을 수행하고 결과를 퓨전시켜 더 높은 검색률을 달성한다.

NVIDIA의 C-RADIOv4는 SigLIP2, DINOv3, SAM3을 하나의 비전 백본으로 통합하여 밀집 또는 세분화 성능을 희생하지 않고 결합하는 방법에 대해 소개합니다. 이 모델은 세 강력한 선생님 모델을 학생 인코더로 결합하여 AM-RADIO 및 RADIOv2.5 라인을 확장하며 계산 비용을 유지하면서 성능을 향상시킵니다.
complexipy를 사용하여 Python 프로젝트의 인지 복잡성을 측정하고 시각화하는 튜토리얼. 원시 코드 문자열부터 복잡성을 측정하여 프로젝트 디렉토리 전체까지 확장하며, 기계 판독 가능한 보고서를 생성하고 데이터프레임으로 정규화하여 복잡성 분포를 시각화함.
Waymo가 Waymo World 모델을 소개했다. 이는 Genie 3 기반으로 구축된 자율 주행 시뮬레이션을 위한 새로운 생성 모델로, 사실적이고 제어 가능한 다중 센서 주행 장면을 대규모로 제공한다. Waymo는 이미 거의 2억 마일의 완전 자율 주행을 보고하고 있다.

Anthropic사는 Claude Opus 4.6을 출시했다. 이 모델은 장기적인 콘텍스트 추론, 에이전트식 코딩 및 고가치 지식 작업에 중점을 둔 최신 모델이다. 이 모델은 클로드 API 및 주요 클라우드 제공업체에서 이용 가능하다.

오픈에이아이가 GPT-5.3-Codex를 소개했다. 이 모델은 코딩 및 컴퓨터 작업을 다루는 새로운 코딩 모델로, GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 및 전문 지식 능력을 결합하여 단일 시스템으로 운영되며 25% 빠르다.
이 튜토리얼에서는 Pandera를 사용하여 강력하고 생산용 데이터 유효성 검사 파이프라인을 구축하는 방법을 보여줍니다. 실제적이고 불완전한 거래 데이터를 시뮬레이션하고 선언적 체크를 사용하여 엄격한 스키마 제약, 열 수준 규칙 및 교차 열 비즈니스 로직을 점진적으로 적용합니다. 게으른 유효성 검사가 어떻게 여러 문제를 도출하는 데 도움이 되는지 보여줍니다.

Mistral AI가 새로운 Voxtral Transcribe 2 패밀리를 출시했다. 이 제품은 일괄 및 실시간 사용 사례로 깔끔하게 분리되는 2개 모델을 제공하며 비용, 지연 시간 및 배포 제약 조건을 고려하고 있다.

NVIDIA가 VibeTensor를 공개했는데, 이는 딥러닝을 위한 오픈소스 연구 시스템 소프트웨어 스택이다. VibeTensor는 LLM 기반 코딩 에이전트에 의해 고수준의 인간 안내 아래 생성되었다. 이 시스템은 코딩 에이전트가 Python과 JavaScript API에서 C++ 런타임 구성 요소 및 CUDA 메모리 관리까지 포괄하는 일관된 딥러닝 런타임을 생성할 수 있는지에 대한 구체적인 질문을 제기한다.
본 튜토리얼에서는 에이전틱 사고 체인 가지치기 프레임워크를 구현하여 병렬로 다중 추론 경로를 생성하고 합의 신호 및 조기 중지를 사용하여 동적으로 줄입니다. 불필요한 토큰 사용을 줄이고 답변 정확도를 유지하면서 추론 효율성을 향상시키는 데 초점을 맞추며, 자기 일관성 및 가벼운 그래프 기반 합의가 효율적인 프록시 역할을 할 수 있다는 것을 입증합니다.

구글의 Gemini 3 플래시에서 새로운 에이전틱 비전 기능인 Agentic Vision이 소개되었습니다. 기존의 이미지 처리 모델들과는 달리 이 기능은 이미지 이해를 더 활발하게 수행하며 시각적 기반의 액티브 루프로 작동합니다.
이 튜토리얼에서는 고정된 오프라인 데이터로만 학습하는 안전 중요한 강화 학습 파이프라인을 구축한다. 사용자 정책에서 행동 데이터셋을 생성하고, d3rlpy를 사용하여 행동 복제 기준선과 보수적인 Q-Learning 에이전트를 모두 훈련시킨다.

Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.
이 튜토리얼에서는 Qrisp를 사용하여 어떻게 비트를 활용하여 양자 알고리즘을 구축하고 실행하는지 보여줍니다. 그로버 서치, 양자 위상 추정, MaxCut 문제를 위한 완전한 QAOA 워크플로우를 순차적으로 구현하는 방법을 안내합니다.
이 튜토리얼에서는 대형 언어 모델을 적응적 및 어조 변형 공격으로부터 방어하기 위해 설계된 견고한 다층 안전 필터를 구축하는 방법에 대해 알아본다. 의미론적 유사성 분석, 규칙 기반 패턴 탐지, LLM 주도 의도 분류, 이상 징후 감지를 결합하여 단일 장애점에 의존하지 않는 방어 시스템을 만든다.
구글이 Conductor를 소개했다. 이는 AI 코드 생성을 구조화된 컨텍스트 중심 워크플로로 변환하는 Gemini CLI용 오픈 소스 미리보기 확장판이다. Conductor는 제품 지식, 기술 결정 및 작업 계획을 저장하고, 이를 레포지토리 내부의 버전 관리된 Markdown으로 관리한 후, Gemini 에이전트를 이러한 파일에서 구동시킨다.

Zero padding은 CNNs에서 사용되는 기법으로, 이미지의 가장자리 주변에 0 값을 가진 추가적인 픽셀을 추가하는 것이다. 이는 합성곱 커널이 가장자리 픽셀 위를 이동할 수 있게 하고, 합성곱 후 특징 맵의 공간적 차원이 얼마나 축소되는지를 제어하는 데 도움을 준다.

NVIDIA는 NVFP4 형식의 4비트에서 30B 매개변수 추론 모델을 실행하는 Nemotron-Nano-3-30B-A3B-NVFP4를 출시했다. 이 모델은 NVFP4 배포를 위해 특별히 설계된 Quantization Aware Distillation(QAD)과 혼합 Mamba2 Transformer Mixture of Experts 아키텍처를 결합하며 BF16 기준과 정확도를 유지한다.
AI 에이전트를 위한 메모리 엔지니어링 레이어를 구축하는 튜토리얼. 단기 작업 컨텍스트를 장기 벡터 메모리와 서사적 추적으로 분리하고, 임베딩 및 FAISS를 사용하여 의미론적 저장을 구현하며 성공적인 경험을 재사용할 수 있도록 왜 실패했는지를 기록하는 서사 기억을 추가한다.
이 튜토리얼에서는 전통적인 중앙 집계 서버가 제거되고 완전히 분산된 P2P 고시 메커니즘으로 대체될 때 페더레이티드 러닝이 어떻게 작동하는지 탐색한다. 중앙화된 FedAvg와 분산된 Gossip 페더레이티드 러닝을 구현하고 로컬 모델 업데이트에 보정된 노이즈를 주입하여 클라이언트 측 차별화된 프라이버시를 소개한다. 제어된 실험을 통해 결과를 분석한다.

Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.

AI2가 SERA(Soft Verified Efficient Repository Agents)를 소개했다. SERA는 감독 학습과 합성 경로만 사용하여 훨씬 큰 폐쇄 시스템과 맞추기 위해 개발된 코딩 에이전트 패밀리다. SERA는 AI2의 오픈 코딩 에이전트 시리즈의 첫 번째 릴리스이며, 주요 모델인 SERA-32B는…
이 튜토리얼에서는 PyKEEN을 사용하여 지식 그래프 임베딩에 대한 고급 워크플로우를 살펴보며 현대적인 임베딩 모델이 어떻게 실제로 훈련, 평가, 최적화 및 해석되는지를 탐색합니다. 실제 지식 그래프 데이터셋의 구조를 이해한 후 여러 임베딩 모델을 체계적으로 훈련하고 비교하며 하이퍼파라미터를 조정하고 분석합니다.
Microsoft의 Maia 200은 Azure 데이터센터에서 사용되는 새로운 AI 가속기로, 좁은 정밀도 컴퓨팅, 밀도 높은 칩 내 메모리 계층, 이더넷 기반 확장 패브릭을 결합하여 대형 언어 모델 및 추론 워크로드의 토큰 생성 비용을 타겟팅한다. Microsoft이 전용 추론 칩을 만든 이유는 무엇인가?

DeepSeek AI가 DeepSeek-OCR 2를 공개했습니다. 이는 레이아웃을 고려한 문서 이해 시스템으로, 인간이 복잡한 문서를 스캔하는 방식과 유사하게 페이지를 읽을 수 있도록 구조화합니다. 핵심 구성 요소는 DeepEncoder V2로, 2D 페이지를 1D 시퀀스로 변환하는 언어 모델 스타일의 트랜스포머입니다.
PyTorch를 이용해 현대적이고 미분 가능한 컴퓨터 비전을 구축하는 방법을 보여주는 Kornia 튜토리얼을 구현하고, GPU 가속화된 동기화된 이미지, 마스크, 키포인트 증강 파이프라인을 구축한 후 그래디언트 하강을 통해 직접 호모그래피를 최적화하는 미분 가능한 기하와 LoFTR을 통한 특징 매칭을 소개합니다.

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

대부분의 AI 응용 프로그램은 여전히 모델을 챗박스로 보여줍니다. 그 인터페이스는 단순하지만, 에이전트가 실제로 하는 작업을 숨깁니다. 생성 UI는 채팅 상자뿐만 아니라 테이블, 차트, 양식 및 진행 표시기와 같은 실제 인터페이스 요소를 에이전트가 제어하도록 하는 것입니다.
구글 딥마인드가 알파지놈을 소개했다. 이는 시퀀스에서 기능으로의 모델링을 위해 디자인된 통합 딥러닝 모델로, 인간 게놈 모델링 방식의 중대한 변화를 나타낸다.

알리바바의 Qwen3-Max-Thinking은 파라미터 규모를 확장하는 것뿐만 아니라, 추론 방식을 변화시키며 생각의 깊이에 대한 명시적 제어와 검색, 메모리, 코드 실행을 위한 내장 도구를 갖추고 있습니다. 이 모델은 36조 토큰에 사전 훈련된 1조 파라미터 MoE 플래그십 LLM으로, 데이터 및 배포 측면에서 Qwen3-Max-Thinking은 […]
이 자습서에서는 금융 운영에 헌법 AI 원칙을 적용하는 이중 에이전트 지배 시스템을 구현한다. Worker Agent가 금융 작업을 수행하고 Auditor Agent가 정책, 안전 및 규정을 강제함으로써 실행과 감독을 분리하는 방법을 보여준다. 지배 규칙을 형식적 헌법에 직접 인코딩하고 결합함으로써 […]

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.
텐센트 훈원이 HPC-Ops를 공개했다. 이는 대규모 언어 모델 추론 아키텍처 장치를 위한 제작용 오퍼레이터 라이브러리로, Attention, Grouped GEMM, Fused MoE와 같은 핵심 오퍼레이터를 위한 낮은 수준의 CUDA 커널에 초점을 맞추고 있다. HPC-Ops는 기존 추론 스택에 통합할 수 있도록 간결한 C 및 Python API를 통해 이러한 오퍼레이터를 노출시킨다.

Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.
Tree-KG는 의미 임베딩과 명시적 그래프 구조를 결합하여 전통적 검색 보강 생성을 넘어선 고급 계층적 지식 그래프 시스템이다. 이를 통해 우리는 넓은 도메인에서 세부 개념까지 인간이 학습하는 방식을 모방하는 트리 구조로 지식을 구성하고, 이 구조를 통해 추론할 수 있다.
이 튜토리얼에서는 Haystack이 고급, 에이전트형 AI 시스템을 구축하는 방법을 보여줍니다. 완전히 실행 가능한 상태에서 장난감 예제를 훨씬 뛰어넘는 시스템을 설계하는 방법을 설명하며, 오케스트레이션, 상태 기반 의사 결정, 도구 실행 및 구조화된 제어 흐름을 강조하는 일관된, 끝까지 완성된 설정에 초점을 맞춥니다.

NVIDIA가 ‘Earth-2’ 패밀리를 출시하여 누구에게나 접근 가능한 AI 기상 및 기후 예측을 위한 오픈 모델과 도구를 제공함. 정부 수퍼컴퓨터에만 가능했던 날씨 예측이 이제 기술 스타트업부터 국가 기상 기관까지 모두 이용 가능해졌다.
Clawdbot은 오픈 소스 개인용 AI 어시스턴트로, 대규모 언어 모델을 Anthropic 및 OpenAI와 연결하여 메시징 앱, 파일, 쉘, 브라우저, 스마트 홈 기기와 연동하면서 조정 계층을 사용자가 제어합니다.
StepFun은 웹 검색을 실제 연구 워크플로우로 변환하는데 목표를 둔 32B 파라미터 엔드 투 엔드 심층 연구 에이전트 Step-DeepResearch를 소개했다. 모델은 Qwen2.5 32B-Base 위에 구축되었으며 장기적인 추론, 도구 사용 및 구조화된 보고를 통한 웹 검색을 연구로 전환한다.
이 튜토리얼은 DeepEval 프레임워크를 사용하여 LLM 애플리케이션에 단위 테스트 엄격성을 더하는 것에 초점을 맞춘 고성능 평가 환경을 구성함으로써 시작된다. 원시 검색과 최종 생성물 간의 간극을 메우면서 모델 출력을 테스트 가능한 코드로 취급하고 LLM-as-a-judge 메트릭을 사용하여 성능을 측정하는 시스템을 구현한다.
이 튜토리얼에서는 정적 CVSS 점수 이상의 취약점을 우선순위를 지정하기 위해 의미 이해와 기계 학습을 사용하는 AI 보조 취약점 스캐너를 구축합니다. 취약점 설명을 풍부한 언어적 자산으로 취급하고 현대적인 문장 변환기를 사용하여 그것들을 임베딩하며 이러한 표현을 구조 메타데이터와 결합하여 데이터 주도형 우선순위 점수를 생성합니다.
GitHub이 Copilot CLI를 구동하는 내부 에이전트 실행 환경을 공개하고 프로그래밍 가능한 SDK로 제공했다. Copilot-SDK를 통해 다른 앱에도 동일한 실행 환경을 임베드하여 에이전트가 도구를 실행하고 파일 편집, 명령 실행이 가능해졌다.
이 튜토리얼에서는 토큰 사용, 지연 및 도구 호출 예산과 같은 실제 제약 조건에 대해 결과 품질을 균형 있게 고려하는 비용 인식적인 계획 에이전트를 구축한다. 에이전트는 여러 후보 작업을 생성하고 예상 비용과 이익을 평가한 후, 엄격한 예산 내에서 가치를 극대화하는 실행 계획을 선택하도록 설계된다.

Microsoft이 VibeVoice-ASR을 발표했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 사용자 지정 핫워드를 지원한다.

알리바바 클라우드의 Qwen 팀이 Qwen3-TTS를 오픈소스로 공개했습니다. 이는 음성 클론, 음성 디자인, 고품질 음성 생성이라는 세 가지 핵심 작업을 대상으로 하는 멀티링구얼 텍스트 음성 모델 패밀리입니다. Qwen3-TTS는 12Hz 음성 토크나이저와 2개의 언어 모델 크기(0.6B, 1.7B)를 사용하며, 실시간 세밀한 음성 제어 기능을 제공합니다.

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.
Inworld AI가 실시간 음성 에이전트에 대한 업그레이드 된 Inworld TTS-1.5를 출시했다. TTS-1.5는 지연 시간, 품질 및 비용에 엄격한 제약 조건을 가진 음성 에이전트를 대상으로 하며, 인공 분석에서 최고 순위의 텍스트 음성 변환 시스템으로 소개되었다. 이전 세대보다 표현이 풍부하고 안정적이며, 더욱 향상된 디자인을 가지고 있다.

Salesforce AI 연구팀이 FOFPred를 소개했다. FOFPred는 대형 비전 언어 모델과 확산 트랜스포머를 연결하여 제어 및 비디오 생성 환경에서 밀도 높은 움직임 예측을 위한 언어 주도형 광학 흐름 예측 프레임워크이다.
AutoGluon을 사용하여 현대적인 AutoML 파이프라인을 구축하고 고급 타블러 머신러닝 모델을 생성하는 튜토리얼. 다양한 유형의 데이터셋을 활용하여 앙상블 모델을 훈련하고 성능을 평가하며 실시간 추론을 위해 모델을 최적화하는 방법을 소개.

Liquid AI가 1.2B 파라미터 추론 모델 ‘LFM2.5-1.2B-Thinking’을 출시했다. 최신 폰에서 약 900MB 용량으로 완전히 기기 내에서 실행되며, 구조화된 추론 트레이스, 도구 사용, 수학에 중점을 둔다.

AI 응용 프로그램의 급속한 성장으로 인해, 지식 그래프(KGs)가 기계가 읽을 수 있는 형식으로 지식을 표현하는 데 중요한 구조로 등장했다. 지식 그래프는 머리 엔티티, 관계 및 꼬리 엔티티로 정보를 조직화하여 엔티티를 노드로, 관계를 엣지로 형성하는 그래프와 유사한 구조로 표현된다.
이 튜토리얼에서는 매니저나 감독 없이 두 피어 에이전트가 직접 협상하여 작동하는 반중앙집중형 Anemoi-스타일 다중 에이전트 시스템이 어떻게 작동하는지 보여줍니다. 우리는 드래프터와 크리틱이 피어 투 피어 피드백을 통해 출력물을 반복적으로 개선하고, 조정 오버헤드를 줄이면서 품질을 유지하는 방법을 보여줍니다. 우리는 이 패턴을 Colab에서 LangGraph를 사용해 끝에서 끝으로 구현합니다.

Zhipu AI가 GLM-4.7-Flash를 발표했다. 이 모델은 로컬에서 실행하기에 실용적이며 강력한 코딩 및 추론 성능을 원하는 개발자들을 대상으로 한다. 30B-A3B MoE 모델로, 30B 클래스에서 가장 강력한 모델로 경량 배포를 위해 설계되었다.
이 튜토리얼에서는 현대적인 저지연 대화 시스템이 실시간으로 작동하는 방식을 모방하는 완전한 스트리밍 음성 에이전트를 구축합니다. 청크화된 오디오 입력 및 스트리밍 음성 인식부터 점진적 언어 모델 추론 및 스트리밍된 텍스트 음성 출력까지의 파이프라인을 시뮬레이션하며 각 단계에서 명시적으로 지연 시간을 추적합니다.









