
NVIDIA가 600M 매개변수를 가진 캐시 인식 스트리밍 모델인 Nemotron 3.5 ASR을 출시했습니다. 이 모델은 하나의 체크포인트에서 40개 언어를 실시간으로 전사할 수 있습니다.

NVIDIA가 600M 매개변수를 가진 캐시 인식 스트리밍 모델인 Nemotron 3.5 ASR을 출시했습니다. 이 모델은 하나의 체크포인트에서 40개 언어를 실시간으로 전사할 수 있습니다.
구글 딥마인드가 젬마 4의 QAT 체크포인트 Q4_0과 새로운 모바일 포맷을 발표했습니다. 이 포맷은 장치 메모리를 절약할 수 있는 특징이 있습니다.

NVIDIA가 CRIU 및 cuda-checkpoint 도구를 사용하여 Kubernetes에서 vLLM 추론 작업자를 체크포인트하고 복원하는 ‘다이나모 스냅샷’을 발표했습니다.
Microsoft Fara를 Google Colab에서 실행하는 방법을 안내하는 튜토리얼입니다. 이 가이드는 모의 OpenAI 호환 엔드포인트를 사용하여 브라우저 에이전트 루프를 테스트하는 내용을 포함하고 있습니다.
2026년을 맞아 개발자들이 앱을 구축하는 방식을 변화시키고 있는 15개의 바이브 코딩 도구를 소개합니다. 각 도구의 가격과 기능을 비교하여 최적의 선택을 도와드립니다.

NVIDIA가 550B의 오픈 Mixture-of-Experts 하이브리드 모델인 Nemotron 3 Ultra를 출시했습니다. 이 모델은 1M 토큰 컨텍스트를 지원하며, 유사한 LLM보다 최대 6배 높은 추론 처리량을 자랑합니다.

구글 딥마인드가 비전과 오디오를 직접 LLM 백본에 연결하는 인코더 없는 멀티모달 모델 ‘Gemma 4 12B’를 발표했다. 이 모델은 Apache 2.0 라이선스 하에 로컬에서 실행된다.

알리바바의 Qwen 팀이 Bailian 플랫폼에서 Qwen3.7-Plus를 출시했습니다. 이 모델은 이미지와 비디오를 이해하며, 자가 프로그래밍 및 도구 호출 기능을 추가했습니다.
MiniMax가 새로운 M3 모델을 출시했습니다. 이 모델은 1M-토큰 컨텍스트 창과 함께 이미지, 비디오, 컴퓨터 사용을 지원하는 기능을 갖추고 있습니다.
StepFun이 198B MoE 모델인 Step 3.7 Flash를 출시했습니다. 이 모델은 네이티브 비전 기능과 256k 컨텍스트, 어드바이저 모드를 지원합니다.
UC 버클리의 UCCL 팀이 다중 GPU 및 노드를 지원하는 mKernel을 출시했습니다. 이 라이브러리는 NVLink와 RDMA를 통합하여 효율적인 GPU 기반 통신을 가능하게 합니다.

Hexo Labs가 MIT 라이센스 하에 자가 개선 루프인 SIA를 오픈소스로 공개했습니다. 이 에이전트는 각 실행의 경로를 읽고, 구조를 재작성하거나 LoRA 가중치를 업데이트합니다.

Liquid AI가 8.3B 매개변수 중 1.5B를 활성화한 LFM2.5-8B-A1B 모델을 출시했습니다. 이 모델은 소비자 하드웨어에서 128K의 컨텍스트, 추론 및 도구 호출 기능을 제공합니다.
앤트로픽이 클로드 오퍼스 4.8을 출시하며 동적 워크플로우와 저렴한 빠른 모드를 도입했습니다. 현재 연구 미리보기 단계에 있습니다.

EAGLE 팀과 vLLM, TorchSpec이 협력하여 EAGLE 3.1을 출시했습니다. 이 알고리즘은 생산 환경에서 발생하는 추측적 디코딩의 불안정성을 해결합니다.

스테이블 AI가 악기 음악과 음향 효과 생성을 위한 스테이블 오디오 3를 출시했습니다. 이 모델은 소형 및 중형 변종의 오픈 가중치를 포함하고 있습니다.

NVIDIA가 Gated DeltaNet-2를 발표했습니다. 이 모델은 델타 규칙에서 기존의 내용을 지우고 새로운 내용을 쓰는 과정을 분리하여 성능을 향상시킵니다. 1.3B 파라미터로 100B FineWeb-Edu 토큰에서 훈련되어 여러 언어 모델링 작업에서 우수한 성과를 보였습니다.
이 튜토리얼에서는 Anthropic API 위에 구조화된 레이어로 SuperClaude 프레임워크를 사용하여 고급 워크플로우를 구축하는 방법을 설명합니다.

퍼플렉시티가 자사의 검색 제품인 코멧과 컴퓨터의 개발자 시스템을 보호하기 위해 사용하는 내부 보안 도구 ‘범블비’를 오픈소스로 공개했습니다. 이 도구는 macOS와 Linux 개발자 엔드포인트를 위한 읽기 전용 재고 수집기입니다.
이 튜토리얼에서는 OpenMythos를 활용하여 Google Colab에서 실행되는 고급 재귀 깊이 변환기 워크플로우를 구축합니다. MLA 및 GQA 모델 변형을 생성하고, 매개변수 수를 비교하며, 재귀 주입 행렬의 안정성을 확인합니다.

CopilotKit의 2026년 배송 주기를 살펴보며, 새로운 AG-UI 프로토콜, AIMock 테스트 스위트, Pathfinder 서버가 에이전틱 AI를 위한 생산 아키텍처를 어떻게 제공하는지 알아봅니다.

Cohere가 Command A+를 출시했습니다. 이 모델은 218B 스파스 혼합 전문가 모델로, 이전의 네 가지 Command A 변형을 통합한 것입니다. 두 대의 H100 GPU에서 작동하며, 48개 언어를 지원합니다.

오픈AI가 40억 달러 규모의 배포 회사를 출범하고, 앤트로픽이 블랙스톤 및 골드만삭스와 15억 달러 규모의 합작 투자를 체결했습니다. 이들은 포워드 배치 엔지니어 모델을 중심으로 구축되었습니다.

NVIDIA가 3가지 디코딩 모드를 통합한 언어 모델 ‘Nemotron-Labs-Diffusion’을 출시했습니다. 이 모델은 3B, 8B, 14B 파라미터 크기로 제공되며, 자율 회귀, 확산 기반 병렬 디코딩, 자기 추측 디코딩을 지원합니다.

알리바바의 Qwen 팀이 Qwen3.5-LiveTranslate-Flash를 출시했습니다. 이 모델은 60개 언어를 지원하며, 2.8초의 지연 시간으로 오디오와 비디오를 동시에 처리합니다.

구글이 I/O 2026에서 Gemini 3.5 Flash를 공개했습니다. 이 모델은 기존 플래그십 모델보다 코딩 및 에이전트 성능에서 우수하며, 속도는 4배 빠르고 비용은 절반으로 줄였습니다.
Upstash, Supabase, Neon은 각기 다른 데이터베이스 플랫폼으로, 2026년의 코딩 워크플로우에 적합한 선택을 비교합니다.
이 튜토리얼에서는 Django와 Django-Unfold를 사용하여 고급 관리 대시보드를 구축하는 방법을 소개합니다. 새로운 Django 프로젝트를 생성하고 다양한 기능을 설정하는 과정을 다룹니다.
이 튜토리얼에서는 Python에서 고성능 수치 계산을 위한 GPU 가속 대안인 CuPy를 다룹니다. CUDA 장치 점검, CuPy 버전 확인 등을 통해 하드웨어 환경을 이해한 후, NumPy와 CuPy의 비교를 진행합니다.

패스티노 랩스가 3억 개 파라미터를 가진 오픈 소스 안전 모더레이션 모델 GLiGuard를 공개했습니다. 이 모델은 네 가지 안전 작업을 단일 처리로 수행하며, 기존 모델보다 높은 처리량과 낮은 지연 시간을 자랑합니다.

씽킹 머신스 랩이 276B 파라미터의 Mixture-of-Experts 모델인 TML-Interaction-Small을 소개했다. 이 모델은 오디오, 비디오, 텍스트를 동시에 처리하여 실시간 상호작용을 가능하게 한다.

구글 딥마인드가 제미니 기술을 활용한 AI 마우스 포인터를 소개했습니다. 이 포인터는 커서 주변의 시각적 및 의미적 맥락을 포착하여 사용자가 자연어로 명령을 내릴 수 있도록 돕습니다.
이 튜토리얼에서는 하이브리드 메모리 자율 에이전트의 아키텍처를 탐구합니다. 이 시스템은 의미 벡터 검색, 키워드 기반 검색, 모듈형 도구 배치 루프를 결합하여 자율적으로 추론하고 기억하며 행동할 수 있는 에이전트를 만듭니다.

MedAIBase가 1030억 개 매개변수를 가진 오픈소스 의료 언어 모델 AntAngelMed를 발표했다. 이 모델은 1/32 활성화 비율의 Mixture-of-Experts 아키텍처를 사용하여 효율적인 성능을 자랑한다.
이 튜토리얼에서는 Memori를 에이전트 네이티브 메모리 인프라로 활용하여 지속적이고 맥락 인식이 가능한 LLM 애플리케이션을 구축하는 방법을 설명합니다.
NVIDIA의 NVlabs가 Rust로 작성된 GPU 커널을 PTX로 변환하는 실험적 컴파일러인 cuda-oxide v0.1.0을 출시했다. 이 컴파일러는 단일 명령어로 호스트와 장치 코드를 동시에 컴파일할 수 있다.

NVIDIA가 Star Elastic을 발표했습니다. 이 방법은 30B, 23B, 12B 파라미터 규모의 여러 추론 모델을 하나의 체크포인트에 통합하여 훈련 효율성을 높입니다.
AI 코딩 에이전트의 발전으로 스펙 기반 개발이 주목받고 있습니다. 이 가이드는 2026년 스펙 기반 개발을 지원하는 9가지 AI 도구를 소개합니다.
OpenAI가 Codex의 Chrome 확장 프로그램을 출시하여 AI 에이전트가 LinkedIn, Salesforce, Gmail 등 다양한 웹사이트에 접근할 수 있게 되었습니다.
이 튜토리얼에서는 PBMC-3k 벤치마크 데이터셋을 사용하여 Scanpy로 단일 세포 RNA-seq 분석 워크플로우를 수행합니다. 데이터셋 로딩, 구조 검사, 품질 관리 체크를 포함한 과정을 다룹니다.
이 튜토리얼에서는 대형 언어 모델을 위한 완전한 기술 기반 에이전트 시스템을 구축하고, 모듈형 기능을 AI 에이전트를 위한 운영 체제처럼 구성하는 방법을 탐구합니다.

2026년 AI 에이전트를 구축하기 위한 최고의 검색 및 데이터 수집 API를 소개합니다. TinyFish, Tavily, Firecrawl 등의 도구를 지연 시간, 토큰 효율성, 무료 사용 가능성 등을 기준으로 비교합니다.

사카나 AI가 실시간으로 LLM 지식을 음성 대화 AI에 주입하는 KAME라는 새로운 아키텍처를 소개했습니다. 이 기술은 지연 없이 음성 간 대화를 가능하게 합니다.

메타가 AI 모델을 자율 데이터 과학자로 변환하는 새로운 프레임워크인 Autodata를 소개했습니다. 이 기술은 고품질 훈련 데이터 생성을 목표로 하고 있습니다.

Qwen 팀이 LLM 내부 기능을 실용적인 개발 도구로 변환하는 오픈소스 스파스 오토인코더(Qwen-Scope) 제품군을 발표했다.
이 튜토리얼에서는 외부 프레임워크 없이 순수 파이썬으로 에이전틱 UI 스택을 구축하는 방법을 설명합니다. 실시간으로 에이전트 행동을 관찰할 수 있는 AG-UI 이벤트 스트림을 구현합니다.
Moonshot AI가 FlashKDA를 오픈소스로 공개했습니다. 이는 Kimi Delta Attention의 고성능 구현으로, 플래시-선형-어텐션 생태계에 직접 연결되며 벤치마크 결과에서 의미 있는 속도 향상을 보여줍니다.

풀사이드 AI가 라구나 XS.2와 M.1을 출시했습니다. 이 두 모델은 장기 과제를 위해 설계된 오픈 웨이트 에이전틱 코딩 모델로, SWE-bench에서 각각 68.2%와 72.5%의 성능을 기록했습니다.
OpenAI가 15억 매개변수로 구성된 개인정보 탐지 모델인 ‘프라이버시 필터’를 공개했습니다. 이 모델은 브라우저에서 실행되며, 5000만 개의 활성 매개변수를 갖추고 있습니다.
Nick Levine, David Duvenaud, Alec Radford가 이끄는 연구팀이 인터넷, 스마트폰, 제2차 세계대전을 모르는 언어 모델 ‘Talkie’를 개발했습니다. 이 모델은 역사적 추론과 일반화 연구에 중점을 두고 있습니다.
이 튜토리얼에서는 Microsoft의 OpenMementos 데이터셋을 활용하여 추론 트레이스의 구조를 블록과 메멘토를 통해 분석하는 방법을 소개합니다. Colab에서 실행 가능한 워크플로우를 통해 데이터셋을 효율적으로 스트리밍하고, 특수 토큰 형식을 파싱하며, 추론과 요약이 어떻게 구성되는지 살펴봅니다.

DeepSeek AI가 DeepSeek-V4 시리즈의 미리보기 버전을 출시했습니다. 이 모델은 백만 토큰 컨텍스트를 실용적이고 경제적으로 만드는 데 중점을 두고 개발되었습니다.

구글이 전문 AI 분야에서 사용할 수 있는 제어 가능하고 확장 가능한 합성 데이터셋을 생성하는 ‘시뮬라’라는 새로운 프레임워크를 소개했습니다. 이는 사이버 보안, 법률, 의료 등 다양한 분야에서 필요한 데이터 부족 문제를 해결하기 위한 노력의 일환입니다.

앤트로픽이 클로드 오퍼스 4.7을 출시했습니다. 이번 버전은 에이전틱 소프트웨어 엔지니어링과 멀티모달 기능에서 중요한 개선을 이루었으며, 실제 AI 애플리케이션 개발에 큰 도움이 될 것으로 기대됩니다.

Qwen 팀이 3억 개의 활성 매개변수를 가진 희소 MoE 비전-언어 모델 Qwen3.6-35B-A3B를 오픈 소스로 공개했습니다. 이 모델은 에이전틱 코딩 기능을 갖추고 있습니다.
NVIDIA가 PyTorch 모델에 최적의 추론 백엔드를 자동으로 찾아주는 오픈소스 툴킷 AITune을 출시했다. 이 툴킷은 연구자가 훈련한 모델과 실제 운영 환경에서 효율적으로 작동하는 모델 간의 간극을 줄이는 데 도움을 준다.
이번 튜토리얼에서는 2026년 3월 구글이 발표한 Gemini API 도구 업데이트를 다룹니다. 구글 검색과 구글 지도, 맞춤형 기능 호출을 단일 API 요청으로 결합하는 방법을 실습을 통해 배워봅니다.

Arcee AI가 복잡한 다단계 추론이 가능한 오픈 소스 AI 모델 ‘Trinity Large Thinking’을 Apache 2.0 라이선스 하에 공개했다. 이는 개발자들에게 투명한 대안을 제공한다.

NVIDIA 연구진이 다중 턴 LLM 에이전트를 위한 강화 학습 인프라인 ProRL AGENT를 소개했다. 이 시스템은 ‘롤아웃-서비스’ 철학을 채택하여 에이전트 롤아웃 조정을 훈련 루프와 분리한다.

메타 AI의 하이퍼 에이전트는 단순히 작업을 해결하는 것을 넘어, 학습 방식을 혁신적으로 변화시키고 있습니다. 이는 AI의 자기 개선 가능성을 한층 높이는 발전으로 평가됩니다.
개리 탄이 AI 코딩을 위한 오픈소스 툴킷 ‘gstack’을 발표했다. 이 시스템은 제품 기획, 엔지니어링 리뷰, 출시, 품질 검증을 각각 독립된 모드로 분리해 신뢰성을 높이는 데 중점을 뒀다.
Andrew Ng와 그의 팀이 개발한 Context Hub은 코딩 에이전트의 정적 훈련 데이터와 현대 API의 빠르게 변화하는 현실 사이의 간극을 줄이기 위해 설계된 오픈 소스 도구입니다.

Anthropic은 Claude Code를 통해 고급 에이전틱 다단계 추론 루프를 활용해 복잡한 보안 연구를 자동화하는 코드 리뷰를 소개하고 있다. 이는 AI가 보일러플레이트만 작성하는 것을 넘어서 실제로 왜 Kubernetes 클러스터가 새벽 3시에 알람을 울리는지 이해하는 AI 에이전트를 지향하는 것이다.
구글 워크스페이스 API를 애플리케이션과 데이터 파이프라인에 통합하는 것은 REST 엔드포인트, 페이지네이션, OAuth 2.0 흐름을 처리하는 보일러플레이트 코드를 작성해야 하는데, 구글 AI 팀이 ‘gws’ CLI 도구를 공개했다. 이 오픈소스 도구는 Google Workspace를 위한 통합된 동적 명령줄 인터페이스를 제공한다.

OpenAI는 심포니를 공개했습니다. 이는 구조화된 ‘실행’을 통해 자율 AI 코딩 에이전트를 관리하기 위한 오픈 소스 프레임워크로, 이 프로젝트는 이슈 트래커를 LLM 기반 에이전트에 연결하여 소프트웨어 개발 작업을 자동화하는 시스템을 제공합니다. 시스템 아키텍처는 Elixir 및 BEAM을 사용합니다.

알리바바가 오픈소스 도구인 OpenSandbox를 출시했습니다. 이 도구는 AI 에이전트에 안전하고 격리된 환경을 제공하여 코드 실행, 웹 브라우징, 모델 훈련을 가능하게 합니다. Apache 2.0 라이선스 하에 공개된 OpenSandbox는 AI 에이전트 스택의 ‘실행 레이어’를 표준화하고 여러 프로그래밍 언어에서 작동하는 통일된 API를 제공합니다.
알리바바의 Qwen 팀이 0.8B ~ 9B 파라미터의 Qwen3.5 Small 모델 시리즈를 출시했다. 이 모델은 ‘더 많은 지능, 적은 연산’에 초점을 맞춰 산업 트렌드에서 벗어나 더 나은 AI 배포를 지향한다.
구글이 Conductor를 소개했다. 이는 AI 코드 생성을 구조화된 컨텍스트 중심 워크플로로 변환하는 Gemini CLI용 오픈 소스 미리보기 확장판이다. Conductor는 제품 지식, 기술 결정 및 작업 계획을 저장하고, 이를 레포지토리 내부의 버전 관리된 Markdown으로 관리한 후, Gemini 에이전트를 이러한 파일에서 구동시킨다.
Google이 Datalog를 확장한 새 오픈소스 프로그래밍 언어 ‘Mangle’을 소개했다. Go 라이브러리로 구현된 Mangle은 여러 다른 소스에 퍼져있는 데이터에 대한 쿼리 및 추론 작업을 간단하게 만들기 위해 설계되었다. 이 릴리스는 개발자와 보안 분야에서 점점 더 커지는 도전에 대응한다.
LangExtract는 구글 AI의 새로운 오픈 소스 파이썬 라이브러리로, 비구조화된 텍스트 문서에서 의미 있는 정보를 추출하는 것을 목표로 한다. 이 라이브러리는 Gemini와 같은 LLMs를 사용하여 이러한 과제를 직접 해결한다.

소프트웨어 문제의 정확한 위치를 식별하는 것은 개발 생애주기에서 가장 인력 집약적인 작업 중 하나이다. 자동화된 패치 생성과 코드 어시스턴트의 발전에도 불구하고, 코드베이스에서 변경이 필요한 위치를 파악하는 프로세스는 종종 수정 방법보다 더 많은 시간을 소비한다.