Mark Tech Post, 미주투데이의 작성자

포톤, iMessage와 WhatsApp, 텔레그램에 AI 에이전트를 배포하는 오픈소스 TypeScript 프레임워크 '스펙트럼' 출시

포톤이 AI 에이전트를 iMessage, WhatsApp, 텔레그램에 직접 배포할 수 있는 오픈소스 TypeScript 프레임워크 '스펙트럼'을 출시했다. 이 프레임워크는 사용자와의 상호작용을 증진시키기 위해 개발되었다.

2026년 4월 22일 오전 3시 43분

OpenAI, 브라우저 기반의 시각화 도구 'Euphony' 오픈 소스 공개

OpenAI가 AI 에이전트의 디버깅을 돕기 위한 브라우저 기반 시각화 도구 'Euphony'를 오픈 소스로 공개했습니다. 이 도구는 Harmony 채팅 데이터와 Codex 세션 로그를 시각화합니다.

2026년 4월 22일 오전 12시 38분

Hugging Face, LLM 후처리 작업 자동화하는 오픈소스 AI 에이전트 'ml-intern' 출시

Hugging Face가 대형 언어 모델(LLM)의 후처리 작업을 자동화하는 오픈소스 AI 에이전트 'ml-intern'을 출시했다. 이 도구는 문헌 검토, 데이터셋 발견, 훈련 스크립트 실행 등의 작업을 자동으로 수행한다.

2026년 4월 21일 오후 8시 43분

조건부 베이지안 하이퍼파라미터 최적화 파이프라인 구축하기

이 튜토리얼에서는 Hyperopt와 TPE 알고리즘을 사용하여 조건부 베이지안 하이퍼파라미터 최적화 워크플로우를 구현합니다. 다양한 모델 패밀리 간의 동적 전환을 보여주는 검색 공간을 구성합니다.

2026년 4월 21일 오후 8시 04분

구글, 전문 AI 분야를 위한 제어 가능한 합성 데이터셋 생성 프레임워크 '시뮬라' 발표

구글이 전문 AI 분야에서 사용할 수 있는 제어 가능하고 확장 가능한 합성 데이터셋을 생성하는 '시뮬라'라는 새로운 프레임워크를 소개했습니다. 이는 사이버 보안, 법률, 의료 등 다양한 분야에서 필요한 데이터 부족 문제를 해결하기 위한 노력의 일환입니다.

2026년 4월 21일 오후 12시 46분

Qwen 3.6-35B-A3B를 활용한 멀티모달 추론 및 도구 호출 구현 튜토리얼

이번 튜토리얼에서는 Qwen 3.6-35B-A3B 모델을 기반으로 멀티모달 MoE 모델을 실제 워크플로우에 적용하는 방법을 다룹니다. 환경 설정부터 GPU 메모리에 따른 모델 로딩, 재사용 가능한 채팅 프레임워크 구축까지 다양한 내용을 포함합니다.

2026년 4월 21일 오전 3시 54분

문샷 AI, Kimi K2.6 버전 출시 – 장기 코딩 및 300개 서브 에이전트 지원

중국의 AI 연구소 문샷 AI가 Kimi K2.6을 오픈 소스 형태로 출시했습니다. 이 모델은 자율적으로 소프트웨어 공학 문제를 해결하는 데 중점을 두고 있으며, 장기 코딩 에이전트와 자연어 기반 프론트엔드 생성 기능을 제공합니다.

2026년 4월 20일 오후 9시 58분

Microsoft Phi-4-Mini를 활용한 양자화 추론 도구 구현 튜토리얼

이번 튜토리얼에서는 Microsoft의 Phi-4-mini를 사용하여 현대 LLM 워크플로우를 처리하는 방법을 소개합니다. 안정적인 환경 설정과 4비트 양자화를 통한 모델 로딩 과정을 단계별로 설명합니다.

2026년 4월 20일 오후 8시 13분

OpenAI, 사이버 방어를 위한 GPT-5.4-Cyber 모델 배포

OpenAI가 사이버 방어 프로그램의 신뢰할 수 있는 접근 방식을 확대하며, 사이버 보안에 최적화된 GPT-5.4-Cyber 모델을 수천 명의 검증된 방어자에게 제공한다고 발표했다.

2026년 4월 20일 오전 4시 26분

문샷 AI와 칭화대 연구진, LLM 서비스 방식을 재구성하는 PrfaaS 제안

문샷 AI와 칭화대 연구진이 대규모 언어 모델(LLM) 서비스 방식을 혁신적으로 변화시킬 PrfaaS 아키텍처를 제안했습니다. 이 아키텍처는 데이터 센터 간의 KVCache 구조를 통해 LLM의 추론 방식을 개선하는 데 중점을 두고 있습니다.

2026년 4월 19일 오후 8시 51분

OpenMythos: 770M 매개변수로 1.3B 트랜스포머를 재현한 오픈소스 프로젝트

OpenMythos는 Claude Mythos 아키텍처를 이론적으로 재구성한 오픈소스 프로젝트로, PyTorch로 완전히 구축되었습니다. 이 프로젝트는 연구 커뮤니티의 이론을 바탕으로 하고 있습니다.

2026년 4월 19일 오후 3시 47분

TabPFN, In-Context Learning으로 탭형 데이터셋에서 우수한 정확도 달성

TabPFN이 In-Context Learning을 활용하여 랜덤 포레스트와 CatBoost보다 탭형 데이터셋에서 더 높은 정확도를 기록하고 있습니다. 이 기술은 다양한 데이터 유형을 처리하는 데 강점을 보입니다.

2026년 4월 19일 오후 3시 11분

Magika와 OpenAI를 활용한 AI 기반 파일 유형 탐지 및 보안 분석 파이프라인 구축 튜토리얼

이 튜토리얼에서는 Magika의 딥러닝 기반 파일 유형 탐지와 OpenAI의 언어 지능을 결합하여 실용적인 분석 파이프라인을 구축하는 방법을 소개합니다.

2026년 4월 19일 오후 2시 38분

NVIDIA, 하이브리드 양자-고전 시스템을 위한 첫 번째 오픈 양자 AI 모델 '이징' 출시

NVIDIA가 하이브리드 양자-고전 시스템을 위한 첫 번째 오픈 양자 AI 모델인 '이징'을 출시했습니다. 이 모델은 양자 컴퓨터와 고전 컴퓨터의 간극을 줄이기 위한 노력의 일환으로 개발되었습니다.

2026년 4월 19일 오전 3시 54분

xAI, 독립형 Grok 음성 인식 및 음성 합성 API 출시

일론 머스크의 AI 회사 xAI가 독립형 음성 인식(STT) 및 음성 합성(TTS) API를 출시했습니다. 이 API는 Grok Voice의 인프라를 기반으로 하며, 기업 음성 개발자를 겨냥하고 있습니다.

2026년 4월 19일 오전 1시 28분

CUDA에서 PrismML Bonsai 1비트 LLM 실행하기 위한 코딩 튜토리얼

이 튜토리얼에서는 GPU 가속을 활용하여 PrismML의 최적화된 GGUF 배포 스택을 사용해 Bonsai 1비트 대형 언어 모델을 효율적으로 실행하는 방법을 설명합니다.

2026년 4월 19일 오전 12시 33분

상태 기반, 차별적, 변형 테스트 설계를 활용한 속성 기반 테스트 코딩 가이드

이 튜토리얼에서는 Hypothesis를 사용한 속성 기반 테스트를 탐구하며, 전통적인 단위 테스트를 넘어서는 엄격한 테스트 파이프라인을 구축합니다. 다양한 테스트 기법을 통해 시스템의 기능적 정확성과 행동 보장을 검증합니다.

2026년 4월 18일 오후 5시 55분

앤트로픽, 클로드 오퍼스 4.7 출시: 에이전틱 코딩 및 고해상도 비전 향상

앤트로픽이 클로드 오퍼스 4.7을 출시했습니다. 이번 버전은 에이전틱 소프트웨어 엔지니어링과 멀티모달 기능에서 중요한 개선을 이루었으며, 실제 AI 애플리케이션 개발에 큰 도움이 될 것으로 기대됩니다.

2026년 4월 18일 오후 5시 40분

구글 AI, 통합 테스트 실패 진단을 위한 자동 진단 도구 출시

구글이 LLM 기반의 자동 진단 도구인 'Auto-Diagnose'를 발표했다. 이 도구는 통합 테스트 로그를 자동으로 분석하여 오류를 찾아내는 기능을 제공한다.

2026년 4월 18일 오전 2시 00분

오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 ‘Shin Megami Boson’이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.

2026년 2월 21일 오후 4시 10분

HuggingFace Diffusers를 활용한 고품질 이미지 생성, 제어 및 편집을 위한 코딩 가이드

Diffusers 라이브러리를 사용하여 실용적인 이미지 생성 워크플로우를 설계하고, 안정적인 환경을 구축한 후 최적화된 스케줄러를 사용하여 텍스트 프롬프트에서 고품질 이미지를 생성합니다. LoRA 기반 잠재 일관성 접근을 통해 추론을 가속화하고, 엣지 조건부 하에서 ControlNet으로 합성을 안내하며, 마지막으로 지역적인 편집을 수행합니다.

2026년 2월 20일 오후 7시 55분

AI, 웹 검색, PDF 분석, 비전 및 자동 보고서 작성을 활용한 스위스 아미 나이프 연구 에이전트 설계 방법

본 튜토리얼에서는 간단한 채팅 상호작용을 넘어 다단계 연구 문제를 해결하는 “스위스 아미 나이프” 연구 에이전트를 구축한다. 최신 기술을 활용하여 모던 에이전트가 추론, 확인 및 보고서 작성을 어떻게 수행하는지 보여준다.

2026년 2월 20일 오후 5시 05분

NVIDIA, 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델 DreamDojo 공개

NVIDIA가 DreamDojo를 발표했다. 이는 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델로, 기존의 물리 엔진 대신 픽셀에서 직접 로봇 행동의 결과를 ‘꿈꾼다’.

2026년 2월 20일 오후 3시 30분

NVIDIA, Dynamo v0.9.0 출시: FlashIndexer, 다중 모달 지원 및 NATS 및 ETCD 제거를 특징으로 하는 대규모 인프라 개편

NVIDIA가 Dynamo v0.9.0을 출시했다. 이 업데이트는 대규모 모델의 배포와 관리를 간소화하고 GPU가 다중 모달 데이터를 처리하는 방식을 개선했다. 이번 릴리스에서는 NATS와 etcd와 같은 무거운 종속성을 제거하고 있다.

2026년 2월 20일 오전 1시 51분

AI 에이전트를 투명하게 구축하는 방법: 감사 추적 및 인간 권한 게이트로 의사 결정

이 튜토리얼에서는 모든 결정을 추적 가능하고 감사 가능하며 인간 승인에 의해 명시적으로 통제되는 유리 상자 형태의 에이전트 워크플로우를 구축합니다. LangGraph의 인터럽트 주도형 인간-루프 제어와 해시 체인 데이터베이스를 결합하여 고위험 작업에 대한 동적 권한 부여를 강제로 시행합니다.

2026년 2월 20일 오전 1시 28분

구글 AI, 1백만 토큰 콘텍스트와 77.1% ARC-AGI-2 추론을 갖춘 Gemini 3.1 Pro 출시

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 ‘에이전틱’ AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

2026년 2월 19일 오후 4시 06분

PydanticAI를 사용하여 엄격한 스키마, 도구 주입 및 모델에 중립적 실행을 이용한 견고한 에이전틱 워크플로우 구축 코딩 구현

이 튜토리얼에서는 PydanticAI를 사용하여 신뢰성을 우선시하는 프로덕션 준비 워크플로우를 구축한다. 엄격하고 유형화된 출력을 강제하여 각 단계에서 명확한 응답 스키마를 정의하고 의존성 주입을 통해 도구를 연결하며, 에이전트가 데이터베이스와 같은 외부 시스템과 안전하게 상호작용할 수 있도록 한다.

2026년 2월 19일 오후 3시 05분

Zyphra가 EEG 데이터용 380M 파라미터 BCI Foundation 모델인 ZUNA 발표, 비침습적 사고를 텍스트로 발전시킴

Zyphra가 EEG 신호에 특화된 380M 파라미터 foundation 모델인 ZUNA를 공개했다. ZUNA는 채널 인필링과 초해상도를 수행하는 마스크된 확산 오토인코더로, Apache-2.0 라이선스 하에 가중치가 포함되어 있다.

2026년 2월 19일 오전 1시 43분

[튜토리얼] ColPali와 늦은 상호작용 스코어링을 활용한 시각 문서 검색 파이프라인 구축

이 튜토리얼에서는 ColPali를 사용하여 엔드 투 엔드 시각 문서 검색 파이프라인을 구축한다. PDF 페이지를 이미지로 렌더링하고 ColPali의 다중 벡터 표현을 사용하여 페이지를 임베드하며, 늦은 상호작용 스코어링을 활용하여 가장 관련성 높은 페이지를 검색한다.

2026년 2월 18일 오후 7시 38분

Tavus가 Phoenix-4를 출시: 실시간 감성 지능과 생성 비디오 AI에 서브-600ms 지연 시간을 제공하는 가우시안 확산 모델

Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 ‘거친 계곡’을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.

2026년 2월 18일 오후 6시 12분

구글 딥마인드, Lyria 3 출시: 포함된 가사와 보컬이 담긴 사용자 지정 트랙으로 사진과 텍스트를 변환하는 고급 음악 생성 AI 모델

구글 딥마인드가 음악 분야에서도 창의적 AI의 한계를 넓혔다. Lyria 3은 사진과 텍스트를 이용해 사용자 맞춤 트랙을 생성하는 고급 음악 생성 모델로, 복잡한 오디오 파형과 창의적 의도를 다루는데 큰 전환점을 제공한다.

2026년 2월 18일 오후 3시 10분

구글, AI 안경을 위한 새로운 Spatial UI 프레임워크 ‘Jetpack Compose Glimmer’ 발표

구글이 투명 디스플레이를 위한 인터페이스 구축을 탐구한 결과물인 ‘Jetpack Compose Glimmer’를 소개했다. 이는 픽셀이 아닌 빛을 활용한 디자인 시스템으로, AI 안경을 위해 특별히 개발되었다.

2026년 2월 18일 오전 4시 02분

Cohere가 Tiny Aya를 출시: 70개 언어를 지원하고 폰에서도 로컬로 실행되는 3B-파라미터 소형 언어 모델

Cohere AI Labs가 Tiny Aya를 발표했습니다. Tiny Aya는 70개 언어를 지원하며 3.35B-파라미터 아키텍처를 사용하여 최신 번역 및 생성 기능을 제공합니다. 이 릴리스에는 Tiny Aya Base(사전 훈련), Tiny Aya Global(균형 조정된 지시) 등 5가지 모델이 포함되어 있습니다.

2026년 2월 18일 오전 1시 33분

Anthropic, 복잡한 코딩 해결과 개발자 탐색을 위한 1백만 토큰 콘텍스트를 활용한 Claude 4.6 Sonnet 출시

Anthropic사는 Claude 4.6 Sonnet을 발표하여 개발자와 데이터 과학자가 복잡한 논리를 다루는 방식을 변화시키고, 내부 코드 실행을 통해 실시간으로 사실을 확인하는 기능을 갖춘 Improved Web Search를 함께 선보였다.

2026년 2월 17일 오후 4시 11분

PyGWalker 및 Feature-Engineered 데이터를 활용한 고급 대화형 탐색적 데이터 분석 워크플로우 구축 방법

PyGWalker를 사용하여 정적이고 코드 중심의 차트를 넘어서 진정한 대화형 탐색적 데이터 분석 워크플로우를 구축하는 방법을 소개하는 튜토리얼입니다. 타이타닉 데이터셋을 대규모 대화형 쿼리용으로 준비한 후 분석에 적합한 엔지니어링된 피처를 활용하여 데이터의 기본 구조를 드러내고 상세한 행 수준 탐색과 고수준 집계를 모두 가능하게 합니다.

2026년 2월 17일 오후 1시 18분

Cloudflare, 최적화된 엣지 추론 성능을 위한 새로운 Rust 기반 Infire 엔진과 재작성된 Cloudflare AI 챗을 갖춘 Agents SDK v0.5.0 출시

Cloudflare가 Agents SDK v0.5.0을 출시했다. 새로운 버전은 상태 없는 서버리스 함수의 한계를 해결하고, 엣지 추론 성능을 최적화하기 위해 Rust 기반 Infire 엔진을 도입했다. 이를 통해 세션 컨텍스트를 다시 구축할 필요 없이 수직 통합된 실행 레이어를 제공하여 지연 시간과 토큰 소비를 줄였다.

2026년 2월 17일 오후 1시 04분

Agoda, 모든 REST 또는 GraphQL API를 MCP 서버로 변환하는 APIAgent를 오픈 소스로 공개

Agoda가 APIAgent를 공개했다. 이 도구는 어떤 REST 또는 GraphQL API든 Model Context Protocol (MCP)로 변환할 수 있도록 설계되었다. AI 에이전트를 구축하는 것은 중요한 과제이지만, 데이터와의 효율적인 소통이 큰 병목 현상이다.

2026년 2월 17일 오전 2시 50분

구글 딥마인드, 미래 경제를 위한 신흥 에이전틱 웹을 안전하게 하는 지능적 AI 위임을 위한 새로운 프레임워크 제안

구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, ‘에이전틱 웹’이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.

2026년 2월 16일 오전 2시 04분

상태 기반 튜터 에이전트 설계를 위한 코딩 구현: 장기 기억, 의미 기억 및 적응 연습 생성

이 튜토리얼에서는 단기적인 채팅 상호작용을 넘어 지속적으로 학습하는 완전한 상태 기반 개인 튜터 에이전트를 구축한다. 사용자 선호도를 유지하고 학습의 약한 영역을 추적하며 응답 시 필요한 과거 콘텍스트만 선택적으로 회상하도록 시스템을 설계한다. 견고한 저장, 의미 검색 및 적응적 프롬프팅을 결합함으로써 우리는 어떻게 상태 기반 튜터 에이전트를 설계하는지 보여준다.

2026년 2월 16일 오전 1시 02분

Moonshot AI, Kimi.com에 5,000개 커뮤니티 스킬과 40GB 클라우드 스토리지를 갖춘 Kimi Claw 공식 출시

Moonshot AI가 OpenClaw 프레임워크의 기능을 브라우저로 직접 제공하기 시작했다. 새로운 Kimi Claw는 kimi.com에서 네이티브로 제공되며 개발자와 데이터 과학자에게 지속적인 24/7 AI 에이전트 환경을 제공한다. 이 업데이트로 프로젝트가 로컬 설정에서 클라우드 네이티브 강자로 이동했다.

2026년 2월 15일 오후 3시 33분

‘Kani-TTS-2’ 만나보세요: 3GB VRAM에서 실행되는 400M 파라미터 오픈 소스 텍스트 음성 변환 모델

nineninesix.ai 팀이 출시한 ‘Kani-TTS-2’는 효율성을 중시하는 새로운 오픈 소스 음성 생성 모델로, 작은 용량으로 고품질 음성 합성을 제공하며 음성 복제 기능을 지원한다.

2026년 2월 15일 오전 3시 17분

OpenClaw 시작하기 및 WhatsApp과 연동하기

OpenClaw는 자체 호스팅되는 개인 AI 어시스턴트로, WhatsApp, Telegram, Slack, Discord 등 기존에 사용하는 앱을 통해 통신합니다. 질문에 답변하고 작업을 자동화하며 파일 및 서비스와 상호 작용하며 지원되는 기기에서 말하거나 청취할 수 있습니다.

2026년 2월 15일 오전 2시 48분

구글 AI가 새 AI 에이전트를 위한 직접적이고 구조화된 웹사이트 상호작용을 활성화하는 WebMCP 도입

구글은 AI 에이전트를 위한 Chrome을 플레이그라운드로 전환하고, 기존의 웹사이트 스크린샷 촬영 방식보다 빠르고 효율적인 WebMCP를 소개했다. 이를 통해 AI 에이전트가 웹사이트와 직접적이고 구조화된 상호작용을 가능하게 한다.

2026년 2월 14일 오후 10시 01분

장기 AI 추론을 위한 자기 조직화 에이전트 메모리 시스템 구축 방법

이 튜토리얼에서는, 에이전트를 위한 자기 조직화 메모리 시스템을 구축하는 방법에 대해 알아본다. 이 시스템은 대화 내용을 단순히 저장하는 것을 넘어 상호작용을 지속적이고 의미 있는 지식 단위로 구조화한다. 추론과 메모리 관리가 명확히 분리되어 있어 정보를 추출, 압축, 정리하는 전용 구성 요소를 허용한다.

2026년 2월 14일 오후 3시 00분

Exa AI, Exa Instant 소개: 실시간 에이전틱 워크플로우의 병목 현상 제거를 위한 서브-200ms 신경 검색 엔진

Exa AI가 Exa Instant를 소개했습니다. 이는 실시간 에이전틱 워크플로우에서 발생하는 병목 현상을 제거하기 위해 설계된 서브-200ms 신경 검색 엔진입니다. 대형 언어 모델(Large Language Models, LLMs) 분야에서 속도는 정확성이 해결된 후 유일하게 중요한 기능입니다.

2026년 2월 13일 오후 4시 29분

[심층 안내서] 고신뢰도 합성 데이터를 위한 완벽한 CTGAN + SDV 파이프라인

이 튜토리얼에서는 CTGAN과 SDV 생태계를 사용하여 완전한 프로덕션급 합성 데이터 파이프라인을 구축합니다. 원시 혼합 유형 탭 데이터부터 시작하여 제약 생성, 조건부 샘플링, 통계적 유효성 검사 및 다운스트림 유틸리티 테스트로 진행됩니다.

2026년 2월 13일 오후 3시 40분

Kyutai가 Hibiki-Zero를 발표: GRPO 강화 학습을 사용한 A3B 매개 변수 동시 음성 대 음성 번역 모델, 어떤 단어 수준의 정렬 된 데이터도 필요하지 않음

Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.

2026년 2월 13일 오후 1시 05분

구글 딥마인드가 알레테이아(Aletheia)를 소개: 수학 대회에서부터 완전 자율적인 전문 연구 발견물로

구글 딥마인드팀이 알레테이아를 소개했다. 알레테이아는 대회 수준의 수학과 전문 연구 사이의 간극을 메우는 특수 AI 에이전트로, 2025년 국제 수학 올림피아드(IMO)에서 금메달 수준의 성과를 거두었으며, 자연 언어로 솔루션을 반복적으로 생성, 검증 및 수정하여 연구문학을 탐색하고 장기적인 증명을 구성한다.

2026년 2월 13일 오전 2시 03분

대규모 언어 모델을 인간 선호도에 맞추는 방법: 직접 선호도 최적화, QLoRA, Ultra-Feedback 활용

이 튜토리얼에서는 보상 모델을 사용하지 않고 대규모 언어 모델을 인간 선호도에 맞게 조정하는 최종 Direct Preference Optimization 워크플로우를 구현한다. TRL의 DPOTrainer를 QLoRA와 PEFT와 결합하여 단일 Colab GPU에서 선호도 기반 조정을 가능하게 한다. UltraFeedback 이진화된 데이터셋에서 직접 학습을 실시한다.

2026년 2월 12일 오후 11시 32분

OpenAI, GPT-5.3-Codex-Spark의 연구 미리보기 발표: Cerebras 하드웨어에서 초당 1000 토큰 이상 제공하는 15배 빠른 AI 코딩 모델

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

2026년 2월 12일 오후 6시 24분

구글의 제미니 3 딥띵크, 인류의 마지막 시험을 무너뜨리고 ARC-AGI-2 성능에서 84.6% 기록

구글이 제미니 3 딥띵크의 주요 업데이트를 발표했다. 이 업데이트는 현대 과학, 연구 및 공학을 가속화하기 위해 특별히 설계되었다. 이번 업데이트는 인류의 전문가 개입이 필요했던 문제를 내부 확인을 사용해 해결하는 ‘추론 모드’로의 전환을 대표한다.

2026년 2월 12일 오후 5시 13분

매트료시카 최적화 문장 임베딩 모델 구축하기: 64차원 절단으로 초고속 검색을 위해

이 튜토리얼에서는 Matryoshka Representation Learning을 사용하여 Sentence-Transformers 임베딩 모델을 세밀하게 조정하여 벡터의 초기 차원이 가장 유용한 의미 신호를 담도록 합니다. MatryoshkaLoss를 사용하여 트리플 데이터로 학습하고, 임베딩을 64, 128 및 256 차원으로 절단한 후 검색 품질을 검증합니다.

2026년 2월 11일 오후 11시 10분

Atomic-Agents RAG 파이프라인 구축 방법: Typed 스키마, 동적 컨텍스트 삽입, 에이전트 체이닝

이 튜토리얼에서는 Atomic-Agents 주변에 고급, end-to-end 학습 파이프라인을 구축하는 방법을 소개합니다. Typed 에이전트 인터페이스, 구조화된 프롬프팅, 프로젝트 문서에 기반을 둔 콤팩트한 검색 레이어를 함께 연결하여 실제 문서를 기반으로 출력을 정립하는 방법을 시연하고 있습니다. 또한 검색 계획을 수립하고 관련 컨텍스트를 검색하고 이를 동적으로 응답 에이전트에 삽입하고 상호 작용 루프를 실행하는 방법을 보여줍니다.

2026년 2월 11일 오후 12시 49분

NVIDIA 연구진, 효율적인 LLM 서빙을 위해 키-값 캐시를 20배로 압축하는 KVTC 변환 코딩 파이프라인 소개

대규모 언어 모델(Large Language Models, LLMs)을 대규모로 제공하는 것은 키-값(Key-Value, KV) 캐시 관리로 인해 엄청난 공학적 도전이다. NVIDIA 연구진은 KVTC(KV Transform Coding)를 소개하여 효율적인 LLM 서빙을 위해 키-값 캐시를 20배로 압축했다.

2026년 2월 10일 오후 11시 38분

구글 AI가 젠파이(Gemini) 기반으로 구축된 NAI(Natively Adaptive Interfaces)를 소개합니다

구글 리서치가 Natively Adaptive Interfaces (NAI)를 통해 접근성 있는 소프트웨어 구축 방법을 제안했습니다. NAI는 다중 모달 AI 에이전트가 주 사용자 인터페이스가 되어 응용 프로그램을 실시간으로 사용자의 능력과 문맥에 맞게 적응시키는 에이전틱 프레임워크입니다.

2026년 2월 10일 오후 7시 03분

복잡한 딥 러닝 텐서 파이프라인 설계하기: Einops를 이용한 비전, 어텐션, 다중 모달 예제

이 튜토리얼에서는 Einops의 고급 사용법을 통해 복잡한 텐서 변환을 명확하고 가독성 있게 표현하는 방법을 안내합니다. rearrange, reduce, repeat, einsum, pack/unpack을 사용하여 텐서를 재구성, 집계 및 결합할 수 있는 방법을 보여줍니다. 비전과 같은 실제 딥러닝 패턴에 초점을 맞춥니다.

2026년 2월 10일 오후 4시 35분

알리바바, Zvec 오픈소스화: SQLite와 유사한 간편함과 고성능을 제공하는 임베디드 벡터 데이터베이스

알리바바의 Tongyi Lab 연구팀이 ‘Zvec’을 발표했다. 이는 엣지 및 장치 내 검색 워크로드를 대상으로 하는 오픈소스 인프로세스 벡터 데이터베이스로, SQLite와 유사한 라이브러리로 작동하여 외부 서비스나 데몬이 필요하지 않다. 검색 증강 생성(RAG)을 위해 설계되었다.

2026년 2월 10일 오전 10시 25분

LoRA를 사용하여 Flower와 PEFT를 활용한 개인 정보 보호를 위한 연합 파이프라인 구축 방법

이 튜토리얼에서는 LoRA를 사용하여 대규모 언어 모델의 연합 미세 조정을 수행하면서 개인 텍스트 데이터를 중앙 집중화하지 않고 어떻게 할 수 있는지 보여줍니다. Flower의 연합 학습 시뮬레이션 엔진을 결합하여 여러 조직을 가상 클라이언트로 시뮬레이션하고 각 클라이언트가 가벼운 LoRA 어댑터 매개변수만 교환하면서 공유 기본 모델을 로컬로 적응하는 방법을 보여줍니다.

2026년 2월 9일 오후 11시 57분

마이크로소프트 AI가 OrbitalBrain 제안: 인공위성 링크와 별자리 인식 리소스 최적화 전략을 통한 우주 분산 기계 학습 활성화

마이크로소프트 연구자들이 ‘OrbitalBrain’ 프레임워크를 소개하여 지구 관측 인공위성이 매일 대량의 고해상도 이미지를 촬영하지만 대부분의 데이터가 지상으로 제때 전달되지 않는 문제를 해결하기 위해 우주 분산 기계 학습을 가능케 하는 방안을 제안했습니다.

2026년 2월 9일 오후 5시 13분

OAT 만나보기: 로봇 공학 세계에 LLM-스타일 스케일링과 유연한 언제든 추론을 가져다주는 새로운 액션 토크나이저

로봇들이 GPT-3 시대로 진입하고 있습니다. 연구자들은 오랫동안 로봇을 대규모 언어 모델 (LLM)을 구동하는 자기 회귀(AR) 모델을 사용하여 훈련하려고 노력해왔습니다. 모델이 문장에서 다음 단어를 예측할 수 있다면 로봇 팔의 다음 움직임도 예측할 수 있어야 합니다. 그러나 기술적 한계가 있었습니다.

2026년 2월 9일 오전 2시 46분

대형 언어 모델을 위한 엄격한 프롬프트 버전 및 회귀 테스트 워크플로우를 수립하기 위한 코딩 구현: MLflow 활용

이 튜토리얼에서는 MLflow를 사용하여 대형 언어 모델의 행동에 대해 프롬프트를 첫 번째로 클래스화된 버전화된 아티팩트로 취급하고 엄격한 회귀 테스트를 적용하는 방법을 보여줍니다. 프롬프트 버전, 차이, 모델 출력 및 여러 품질 메트릭을 완전히 재현 가능한 방식으로 로깅하는 평가 파이프라인을 설계합니다.

2026년 2월 9일 오전 1시 53분

바이트댄스, Protenix-v1 공개: 생체 분자 구조 예측에서 AF3 수준 성능 달성한 새 오픈 소스 모델

바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.

2026년 2월 8일 오후 1시 26분

Polyfactory를 사용하여 Dataclasses, Pydantic, Attrs 및 중첩 모델을 활용한 프로덕션급 목 데이터 파이프라인 설계 방법

이 튜토리얼에서는 Polyfactory를 사용하여 Python 타입 힌트에서 풍부하고 현실적인 목 데이터를 생성하는 방법을 상세히 살펴봅니다. 환경 설정부터 시작하여 데이터 클래스, Pydantic 모델, attrs 기반 클래스에 대한 팩토리를 점진적으로 구축하면서 사용자 정의, 오버라이드, 계산 필드 및 생성을 설명합니다.

2026년 2월 8일 오전 5시 12분

구글 AI가 PaperBanana를 소개합니다: 게재 준비된 방법론 다이어그램과 통계 플롯을 자동화하는 에이전틱 프레임워크

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

2026년 2월 7일 오후 1시 45분

하이브리드 검색, 출처 우선 인용, 수리 루프, 에피소드 기억을 활용한 프로덕션급 에이전틱 AI 시스템 구축 방법

이 튜토리얼에서는 단일 프롬프트 호출이 아닌 프로덕션급 연구 및 추론 시스템처럼 행동하는 고급 에이전틱 AI 워크플로우를 구축한다. 웹 소스를 비동기적으로 수집하여 출처 추적 청크로 분할한 후 TF-IDF(희소)와 OpenAI 임베딩(밀집)을 활용한 하이브리드 검색을 수행하고 결과를 퓨전시켜 더 높은 검색률을 달성한다.

2026년 2월 7일 오전 12시 59분

NVIDIA AI, 분류, 밀집 예측, 세분화 작업에 대한 C-RADIOv4 비전 백본 출시

NVIDIA의 C-RADIOv4는 SigLIP2, DINOv3, SAM3을 하나의 비전 백본으로 통합하여 밀집 또는 세분화 성능을 희생하지 않고 결합하는 방법에 대해 소개합니다. 이 모델은 세 강력한 선생님 모델을 학생 인코더로 결합하여 AM-RADIO 및 RADIOv2.5 라인을 확장하며 계산 비용을 유지하면서 성능을 향상시킵니다.

2026년 2월 6일 오후 7시 31분

Python 프로젝트에서 complexipy를 사용하여 인지 복잡성 측정, 시각화, 강화하는 코딩 데이터 주도 가이드

complexipy를 사용하여 Python 프로젝트의 인지 복잡성을 측정하고 시각화하는 튜토리얼. 원시 코드 문자열부터 복잡성을 측정하여 프로젝트 디렉토리 전체까지 확장하며, 기계 판독 가능한 보고서를 생성하고 데이터프레임으로 정규화하여 복잡성 분포를 시각화함.

2026년 2월 6일 오후 2시 26분

Waymo, Waymo World 모델 소개: 자율 주행을 위한 새로운 시뮬레이터 모델, Genie 3 기반

Waymo가 Waymo World 모델을 소개했다. 이는 Genie 3 기반으로 구축된 자율 주행 시뮬레이션을 위한 새로운 생성 모델로, 사실적이고 제어 가능한 다중 센서 주행 장면을 대규모로 제공한다. Waymo는 이미 거의 2억 마일의 완전 자율 주행을 보고하고 있다.

2026년 2월 6일 오후 2시 01분

Anthropic, 1백만 개의 콘텍스트, 에이전틱 코딩, 적응적 추론 제어 및 확장된 안전 도구 기능을 갖춘 Claude Opus 4.6 출시

Anthropic사는 Claude Opus 4.6을 출시했다. 이 모델은 장기적인 콘텍스트 추론, 에이전트식 코딩 및 고가치 지식 작업에 중점을 둔 최신 모델이다. 이 모델은 클로드 API 및 주요 클라우드 제공업체에서 이용 가능하다.

2026년 2월 5일 오후 5시 34분

오픈에이아이, GPT-5.3-Codex 출시: 프론티어 코드 성능과 전문적 추론을 한 시스템으로 통합한 빠른 코딩 모델

오픈에이아이가 GPT-5.3-Codex를 소개했다. 이 모델은 코딩 및 컴퓨터 작업을 다루는 새로운 코딩 모델로, GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 및 전문 지식 능력을 결합하여 단일 시스템으로 운영되며 25% 빠르다.

2026년 2월 5일 오후 1시 47분

Pandera, Typed 스키마 및 구성 가능한 DataFrame 계약을 사용하여 생산용 데이터 유효성 검사 파이프라인 구축 방법

이 튜토리얼에서는 Pandera를 사용하여 강력하고 생산용 데이터 유효성 검사 파이프라인을 구축하는 방법을 보여줍니다. 실제적이고 불완전한 거래 데이터를 시뮬레이션하고 선언적 체크를 사용하여 엄격한 스키마 제약, 열 수준 규칙 및 교차 열 비즈니스 로직을 점진적으로 적용합니다. 게으른 유효성 검사가 어떻게 여러 문제를 도출하는 데 도움이 되는지 보여줍니다.

2026년 2월 5일 오후 12시 37분

Mistral AI, Voxtral Transcribe 2 출시: 다국어 제작 워크로드를 위한 일괄 다이어리제이션 및 실시간 ASR 결합

Mistral AI가 새로운 Voxtral Transcribe 2 패밀리를 출시했다. 이 제품은 일괄 및 실시간 사용 사례로 깔끔하게 분리되는 2개 모델을 제공하며 비용, 지연 시간 및 배포 제약 조건을 고려하고 있다.

2026년 2월 5일 오전 2시 36분

NVIDIA AI가 발표한 VibeTensor: 코딩 에이전트에 의해 끝에서 끝까지 프로그래밍적으로 구축된 AI 생성 딥러닝 런타임

NVIDIA가 VibeTensor를 공개했는데, 이는 딥러닝을 위한 오픈소스 연구 시스템 소프트웨어 스택이다. VibeTensor는 LLM 기반 코딩 에이전트에 의해 고수준의 인간 안내 아래 생성되었다. 이 시스템은 코딩 에이전트가 Python과 JavaScript API에서 C++ 런타임 구성 요소 및 CUDA 메모리 관리까지 포괄하는 일관된 딥러닝 런타임을 생성할 수 있는지에 대한 구체적인 질문을 제기한다.

2026년 2월 4일 오후 11시 10분

효율적인 에이전틱 추론 시스템 구축 방법: 정확도 유지하면서 다중 사고 경로 동적 가지치기

본 튜토리얼에서는 에이전틱 사고 체인 가지치기 프레임워크를 구현하여 병렬로 다중 추론 경로를 생성하고 합의 신호 및 조기 중지를 사용하여 동적으로 줄입니다. 불필요한 토큰 사용을 줄이고 답변 정확도를 유지하면서 추론 효율성을 향상시키는 데 초점을 맞추며, 자기 일관성 및 가벼운 그래프 기반 합의가 효율적인 프록시 역할을 할 수 있다는 것을 입증합니다.

2026년 2월 4일 오후 6시 23분

구글, 액티브 이미지 이해를 위해 Gemini 3 플래시에 에이전틱 비전 소개

구글의 Gemini 3 플래시에서 새로운 에이전틱 비전 기능인 Agentic Vision이 소개되었습니다. 기존의 이미지 처리 모델들과는 달리 이 기능은 이미지 이해를 더 활발하게 수행하며 시각적 기반의 액티브 루프로 작동합니다.

2026년 2월 4일 오후 3시 16분

오프라인에서 보수적인 Q-Learning을 사용하여 안전 중요한 강화 학습 에이전트를 훈련시키는 코딩 구현

이 튜토리얼에서는 고정된 오프라인 데이터로만 학습하는 안전 중요한 강화 학습 파이프라인을 구축한다. 사용자 정책에서 행동 데이터셋을 생성하고, d3rlpy를 사용하여 행동 복제 기준선과 보수적인 Q-Learning 에이전트를 모두 훈련시킨다.

2026년 2월 3일 오후 11시 49분

Qwen 팀, 코딩 에이전트 및 로컬 개발을 위해 특별히 설계된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시

Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.

2026년 2월 3일 오후 3시 47분

Qrisp를 활용한 고급 양자 알고리즘 구축하기: 그로버 서치, 양자 위상 추정, 그리고 QAOA

이 튜토리얼에서는 Qrisp를 사용하여 어떻게 비트를 활용하여 양자 알고리즘을 구축하고 실행하는지 보여줍니다. 그로버 서치, 양자 위상 추정, MaxCut 문제를 위한 완전한 QAOA 워크플로우를 순차적으로 구현하는 방법을 안내합니다.

2026년 2월 3일 오후 3시 08분

적응적, 어조 변형, 적대적 프롬프트 공격에 대항하기 위한 다층 LLM 안전 필터 구축 방법

이 튜토리얼에서는 대형 언어 모델을 적응적 및 어조 변형 공격으로부터 방어하기 위해 설계된 견고한 다층 안전 필터를 구축하는 방법에 대해 알아본다. 의미론적 유사성 분석, 규칙 기반 패턴 탐지, LLM 주도 의도 분류, 이상 징후 감지를 결합하여 단일 장애점에 의존하지 않는 방어 시스템을 만든다.

2026년 2월 2일 오후 8시 41분

구글, Conductor 출시: 지식을 Markdown으로 저장하고 Agent 워크플로를 조정하는 컨텍스트 중심 Gemini CLI 확장판

구글이 Conductor를 소개했다. 이는 AI 코드 생성을 구조화된 컨텍스트 중심 워크플로로 변환하는 Gemini CLI용 오픈 소스 미리보기 확장판이다. Conductor는 제품 지식, 기술 결정 및 작업 계획을 저장하고, 이를 레포지토리 내부의 버전 관리된 Markdown으로 관리한 후, Gemini 에이전트를 이러한 파일에서 구동시킨다.

2026년 2월 2일 오후 4시 49분

합성곱 신경망(CNNs)에서 Zero Padding의 통계적 비용

Zero padding은 CNNs에서 사용되는 기법으로, 이미지의 가장자리 주변에 0 값을 가진 추가적인 픽셀을 추가하는 것이다. 이는 합성곱 커널이 가장자리 픽셀 위를 이동할 수 있게 하고, 합성곱 후 특징 맵의 공간적 차원이 얼마나 축소되는지를 제어하는 데 도움을 준다.

2026년 2월 2일 오후 1시 29분

NVIDIA AI가 효율적 추론을 위해 Nemotron-3-Nano-30B를 NVFP4로 Quantization Aware Distillation(QAD)과 함께 도입

NVIDIA는 NVFP4 형식의 4비트에서 30B 매개변수 추론 모델을 실행하는 Nemotron-Nano-3-30B-A3B-NVFP4를 출시했다. 이 모델은 NVFP4 배포를 위해 특별히 설계된 Quantization Aware Distillation(QAD)과 혼합 Mamba2 Transformer Mixture of Experts 아키텍처를 결합하며 BF16 기준과 정확도를 유지한다.

2026년 2월 2일 오전 2시 26분

단기, 장기, 서사 기억을 활용한 메모리 중심 AI 에이전트 구축 방법

AI 에이전트를 위한 메모리 엔지니어링 레이어를 구축하는 튜토리얼. 단기 작업 컨텍스트를 장기 벡터 메모리와 서사적 추적으로 분리하고, 임베딩 및 FAISS를 사용하여 의미론적 저장을 구현하며 성공적인 경험을 재사용할 수 있도록 왜 실패했는지를 기록하는 서사 기억을 추가한다.

2026년 2월 1일 오후 11시 40분

분산 피더레이티드 러닝의 코딩과 실험 분석: 고시 프로토콜과 차별화된 프라이버시

이 튜토리얼에서는 전통적인 중앙 집계 서버가 제거되고 완전히 분산된 P2P 고시 메커니즘으로 대체될 때 페더레이티드 러닝이 어떻게 작동하는지 탐색한다. 중앙화된 FedAvg와 분산된 Gossip 페더레이티드 러닝을 구현하고 로컬 모델 업데이트에 보정된 노이즈를 주입하여 클라이언트 측 차별화된 프라이버시를 소개한다. 제어된 실험을 통해 결과를 분석한다.

2026년 2월 1일 오후 8시 14분

Robbyant, LingBot World를 오픈 소스로 공개: 대화형 시뮬레이션과 실제 AI를 위한 실시간 세계 모델

Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.

2026년 1월 30일 오후 8시 53분

AI2, 감독 학습만 사용한 실용적 리포지토리 수준 자동화 워크플로우용 SERA 출시

AI2가 SERA(Soft Verified Efficient Repository Agents)를 소개했다. SERA는 감독 학습과 합성 경로만 사용하여 훨씬 큰 폐쇄 시스템과 맞추기 위해 개발된 코딩 에이전트 패밀리다. SERA는 AI2의 오픈 코딩 에이전트 시리즈의 첫 번째 릴리스이며, 주요 모델인 SERA-32B는…

2026년 1월 30일 오후 5시 53분

PyKEEN을 사용한 지식 그래프 임베딩의 학습, 최적화, 평가 및 해석에 대한 코딩 구현

이 튜토리얼에서는 PyKEEN을 사용하여 지식 그래프 임베딩에 대한 고급 워크플로우를 살펴보며 현대적인 임베딩 모델이 어떻게 실제로 훈련, 평가, 최적화 및 해석되는지를 탐색합니다. 실제 지식 그래프 데이터셋의 구조를 이해한 후 여러 임베딩 모델을 체계적으로 훈련하고 비교하며 하이퍼파라미터를 조정하고 분석합니다.

2026년 1월 30일 오후 4시 18분

Microsoft, Azure 데이터센터용 FP4 및 FP8 최적화 AI 추론 가속기 Maia 200 공개

Microsoft의 Maia 200은 Azure 데이터센터에서 사용되는 새로운 AI 가속기로, 좁은 정밀도 컴퓨팅, 밀도 높은 칩 내 메모리 계층, 이더넷 기반 확장 패브릭을 결합하여 대형 언어 모델 및 추론 워크로드의 토큰 생성 비용을 타겟팅한다. Microsoft이 전용 추론 칩을 만든 이유는 무엇인가?

2026년 1월 30일 오전 4시 01분

DeepSeek AI, 인쇄물 이해를 위한 레이아웃 인식 OCR을 발표

DeepSeek AI가 DeepSeek-OCR 2를 공개했습니다. 이는 레이아웃을 고려한 문서 이해 시스템으로, 인간이 복잡한 문서를 스캔하는 방식과 유사하게 페이지를 읽을 수 있도록 구조화합니다. 핵심 구성 요소는 DeepEncoder V2로, 2D 페이지를 1D 시퀀스로 변환하는 언어 모델 스타일의 트랜스포머입니다.

2026년 1월 30일 오전 3시 21분

Kornia를 활용한 미분 가능한 컴퓨터 비전의 코딩 심층 탐구: 기하 최적화, LoFTR 매칭, GPU 증강 활용

PyTorch를 이용해 현대적이고 미분 가능한 컴퓨터 비전을 구축하는 방법을 보여주는 Kornia 튜토리얼을 구현하고, GPU 가속화된 동기화된 이미지, 마스크, 키포인트 증강 파이프라인을 구축한 후 그래디언트 하강을 통해 직접 호모그래피를 최적화하는 미분 가능한 기하와 LoFTR을 통한 특징 매칭을 소개합니다.

2026년 1월 30일 오전 2시 24분

안트 그룹이 LingBot-VLA를 발표, 현실 세계 로봇 조작을 위한 비전 언어 액션 기반 모델

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

2026년 1월 29일 오후 7시 02분

챗박스 넘어선다: 생성 UI, AG-UI, 그리고 에이전트 주도 인터페이스 뒤의 스택

대부분의 AI 응용 프로그램은 여전히 모델을 챗박스로 보여줍니다. 그 인터페이스는 단순하지만, 에이전트가 실제로 하는 작업을 숨깁니다. 생성 UI는 채팅 상자뿐만 아니라 테이블, 차트, 양식 및 진행 표시기와 같은 실제 인터페이스 요소를 에이전트가 제어하도록 하는 것입니다.

2026년 1월 29일 오후 1시 07분

구글 딥마인드가 알파지놈 공개: 퓨전 트랜스포머와 U-Net을 활용한 통합 시퀀스-펑션 모델을 통해 인간 게놈 해독

구글 딥마인드가 알파지놈을 소개했다. 이는 시퀀스에서 기능으로의 모델링을 위해 디자인된 통합 딥러닝 모델로, 인간 게놈 모델링 방식의 중대한 변화를 나타낸다.

2026년 1월 29일 오전 2시 46분

알리바바, 에이전틱 워크로드를 동력으로 하는 네이티브 툴 사용을 강화하는 테스트 시간 스케일링 추론 모델 ‘Qwen3-Max-Thinking’을 선보여

알리바바의 Qwen3-Max-Thinking은 파라미터 규모를 확장하는 것뿐만 아니라, 추론 방식을 변화시키며 생각의 깊이에 대한 명시적 제어와 검색, 메모리, 코드 실행을 위한 내장 도구를 갖추고 있습니다. 이 모델은 36조 토큰에 사전 훈련된 1조 파라미터 MoE 플래그십 LLM으로, 데이터 및 배포 측면에서 Qwen3-Max-Thinking은 […]

2026년 1월 28일 오후 9시 15분

자가반영적 이중 에이전트 지배 시스템 설계: 안전하고 법적인 금융 운영을 위한 헌법 AI

이 자습서에서는 금융 운영에 헌법 AI 원칙을 적용하는 이중 에이전트 지배 시스템을 구현한다. Worker Agent가 금융 작업을 수행하고 Auditor Agent가 정책, 안전 및 규정을 강제함으로써 실행과 감독을 분리하는 방법을 보여준다. 지배 규칙을 형식적 헌법에 직접 인코딩하고 결합함으로써 […]

2026년 1월 28일 오후 8시 32분

MBZUAI, K2 Think V2 발표: 수학, 코드, 과학을 위한 완전한 주권을 갖춘 70B 추론 모델

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.

2026년 1월 28일 오후 4시 17분

텐센트 훈원, 고성능 LLM 추론 오퍼레이터 라이브러리 HPC-Ops 공개

텐센트 훈원이 HPC-Ops를 공개했다. 이는 대규모 언어 모델 추론 아키텍처 장치를 위한 제작용 오퍼레이터 라이브러리로, Attention, Grouped GEMM, Fused MoE와 같은 핵심 오퍼레이터를 위한 낮은 수준의 CUDA 커널에 초점을 맞추고 있다. HPC-Ops는 기존 추론 스택에 통합할 수 있도록 간결한 C 및 Python API를 통해 이러한 오퍼레이터를 노출시킨다.

2026년 1월 28일 오전 1시 23분

Moonshot AI, Kimi K2.5 공개: 네이티브 스왐 실행 기능을 갖춘 오픈 소스 비주얼 에이전트 인텔리전스 모델

Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.

2026년 1월 27일 오후 6시 55분

DSGym는 데이터 과학 에이전트를 구축하고 평가하기 위한 재사용 가능한 컨테이너 기반 기본체를 제공합니다

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.

2026년 1월 27일 오후 2시 52분

Tree-KG가 전통적인 RAG를 넘어서는 계층적 지식 그래프를 가능하게 하는 방법

Tree-KG는 의미 임베딩과 명시적 그래프 구조를 결합하여 전통적 검색 보강 생성을 넘어선 고급 계층적 지식 그래프 시스템이다. 이를 통해 우리는 넓은 도메인에서 세부 개념까지 인간이 학습하는 방식을 모방하는 트리 구조로 지식을 구성하고, 이 구조를 통해 추론할 수 있다.

2026년 1월 27일 오후 2시 24분

Haystack로 구동되는 멀티 에이전트 시스템이 사건을 감지하고 메트릭 및 로그를 조사하며 생산용 사건 리뷰를 완성하는 방법

이 튜토리얼에서는 Haystack이 고급, 에이전트형 AI 시스템을 구축하는 방법을 보여줍니다. 완전히 실행 가능한 상태에서 장난감 예제를 훨씬 뛰어넘는 시스템을 설계하는 방법을 설명하며, 오케스트레이션, 상태 기반 의사 결정, 도구 실행 및 구조화된 제어 흐름을 강조하는 일관된, 끝까지 완성된 설정에 초점을 맞춥니다.

2026년 1월 26일 오후 9시 59분

NVIDIA, ‘Earth-2’로 기후 기술 혁신: 세계 최초의 완전히 개방형 가속화된 AI 기상 스택

NVIDIA가 ‘Earth-2’ 패밀리를 출시하여 누구에게나 접근 가능한 AI 기상 및 기후 예측을 위한 오픈 모델과 도구를 제공함. 정부 수퍼컴퓨터에만 가능했던 날씨 예측이 이제 기술 스타트업부터 국가 기상 기관까지 모두 이용 가능해졌다.

2026년 1월 26일 오전 10시 43분

Clawdbot는 무엇인가? 로컬 퍼스트 에이전트 스택이 대화를 실제 자동화로 바꾸는 방법

Clawdbot은 오픈 소스 개인용 AI 어시스턴트로, 대규모 언어 모델을 Anthropic 및 OpenAI와 연결하여 메시징 앱, 파일, 쉘, 브라우저, 스마트 홈 기기와 연동하면서 조정 계층을 사용자가 제어합니다.

2026년 1월 26일 오전 12시 05분

StepFun AI가 소개한 Step-DeepResearch: 원자적 능력을 중심으로 구축된 비용 효율적인 심층 연구 에이전트 모델

StepFun은 웹 검색을 실제 연구 워크플로우로 변환하는데 목표를 둔 32B 파라미터 엔드 투 엔드 심층 연구 에이전트 Step-DeepResearch를 소개했다. 모델은 Qwen2.5 32B-Base 위에 구축되었으며 장기적인 추론, 도구 사용 및 구조화된 보고를 통한 웹 검색을 연구로 전환한다.

2026년 1월 25일 오후 4시 08분

DeepEval, 사용자 지정 검색기 및 LLM을 활용한 자동화된 LLM 품질 보증을 위한 코딩 구현

이 튜토리얼은 DeepEval 프레임워크를 사용하여 LLM 애플리케이션에 단위 테스트 엄격성을 더하는 것에 초점을 맞춘 고성능 평가 환경을 구성함으로써 시작된다. 원시 검색과 최종 생성물 간의 간극을 메우면서 모델 출력을 테스트 가능한 코드로 취급하고 LLM-as-a-judge 메트릭을 사용하여 성능을 측정하는 시스템을 구현한다.

2026년 1월 25일 오후 3시 40분

기계 학습과 의미 임베딩이 CVE 취약점을 원시 CVSS 점수 이상으로 재정렬하는 방법

이 튜토리얼에서는 정적 CVSS 점수 이상의 취약점을 우선순위를 지정하기 위해 의미 이해와 기계 학습을 사용하는 AI 보조 취약점 스캐너를 구축합니다. 취약점 설명을 풍부한 언어적 자산으로 취급하고 현대적인 문장 변환기를 사용하여 그것들을 임베딩하며 이러한 표현을 구조 메타데이터와 결합하여 데이터 주도형 우선순위 점수를 생성합니다.

2026년 1월 24일 오전 12시 43분

GitHub, 어떤 앱에도 자체 실행 환경을 포함할 수 있는 Copilot-SDK 공개

GitHub이 Copilot CLI를 구동하는 내부 에이전트 실행 환경을 공개하고 프로그래밍 가능한 SDK로 제공했다. Copilot-SDK를 통해 다른 앱에도 동일한 실행 환경을 임베드하여 에이전트가 도구를 실행하고 파일 편집, 명령 실행이 가능해졌다.

2026년 1월 23일 오후 5시 43분

토큰, 지연 및 도구 호출 예산 제약 조건 하에서 AI 에이전트가 무엇을 선택하는 방법?

이 튜토리얼에서는 토큰 사용, 지연 및 도구 호출 예산과 같은 실제 제약 조건에 대해 결과 품질을 균형 있게 고려하는 비용 인식적인 계획 에이전트를 구축한다. 에이전트는 여러 후보 작업을 생성하고 예상 비용과 이익을 평가한 후, 엄격한 예산 내에서 가치를 극대화하는 실행 계획을 선택하도록 설계된다.

2026년 1월 23일 오후 4시 30분

Microsoft, VibeVoice-ASR 공개: 60분 긴 음성을 한 번에 처리하는 통합 음성-텍스트 모델

Microsoft이 VibeVoice-ASR을 발표했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 사용자 지정 핫워드를 지원한다.

2026년 1월 23일 오전 6시 11분

Qwen 연구진, Qwen3-TTS 공개: 실시간 지연 및 세밀한 음성 제어를 갖춘 오픈 멀티링구얼 TTS 스위트

알리바바 클라우드의 Qwen 팀이 Qwen3-TTS를 오픈소스로 공개했습니다. 이는 음성 클론, 음성 디자인, 고품질 음성 생성이라는 세 가지 핵심 작업을 대상으로 하는 멀티링구얼 텍스트 음성 모델 패밀리입니다. Qwen3-TTS는 12Hz 음성 토크나이저와 2개의 언어 모델 크기(0.6B, 1.7B)를 사용하며, 실시간 세밀한 음성 제어 기능을 제공합니다.

2026년 1월 23일 오전 1시 26분

FlashLabs 연구원들, Chroma 1.0 공개: 개인화 음성 클로닝을 지원하는 4B 실시간 음성 대화 모델

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.

2026년 1월 22일 오전 11시 22분

Inworld AI, 실시간 프로덕션 등급 음성 에이전트를 위한 TTS-1.5 출시

Inworld AI가 실시간 음성 에이전트에 대한 업그레이드 된 Inworld TTS-1.5를 출시했다. TTS-1.5는 지연 시간, 품질 및 비용에 엄격한 제약 조건을 가진 음성 에이전트를 대상으로 하며, 인공 분석에서 최고 순위의 텍스트 음성 변환 시스템으로 소개되었다. 이전 세대보다 표현이 풍부하고 안정적이며, 더욱 향상된 디자인을 가지고 있다.

2026년 1월 22일 오전 8시 23분

Salesforce AI, 미래 광학 흐름 예측 프레임워크 FOFPred 소개

Salesforce AI 연구팀이 FOFPred를 소개했다. FOFPred는 대형 비전 언어 모델과 확산 트랜스포머를 연결하여 제어 및 비디오 생성 환경에서 밀도 높은 움직임 예측을 위한 언어 주도형 광학 흐름 예측 프레임워크이다.

2026년 1월 21일 오후 5시 55분

AutoGluon이 앙상블링과 증류를 통해 제작용 타블러 모델에 현대 AutoML 파이프라인을 가능하게 하는 방법

AutoGluon을 사용하여 현대적인 AutoML 파이프라인을 구축하고 고급 타블러 머신러닝 모델을 생성하는 튜토리얼. 다양한 유형의 데이터셋을 활용하여 앙상블 모델을 훈련하고 성능을 평가하며 실시간 추론을 위해 모델을 최적화하는 방법을 소개.

2026년 1월 21일 오후 5시 07분

Liquid AI, 1.2B 파라미터 추론 모델 ‘LFM2.5-1.2B-Thinking’ 출시: 기기 내 1GB 미만 용량

Liquid AI가 1.2B 파라미터 추론 모델 ‘LFM2.5-1.2B-Thinking’을 출시했다. 최신 폰에서 약 900MB 용량으로 완전히 기기 내에서 실행되며, 구조화된 추론 트레이스, 도구 사용, 수학에 중점을 둔다.

2026년 1월 21일 오후 12시 43분

컨텍스트 그래프란 무엇인가요?

AI 응용 프로그램의 급속한 성장으로 인해, 지식 그래프(KGs)가 기계가 읽을 수 있는 형식으로 지식을 표현하는 데 중요한 구조로 등장했다. 지식 그래프는 머리 엔티티, 관계 및 꼬리 엔티티로 정보를 조직화하여 엔티티를 노드로, 관계를 엣지로 형성하는 그래프와 유사한 구조로 표현된다.

2026년 1월 21일 오전 11시 58분

Anemoi-스타일의 반중앙집중형 에이전트 시스템 코딩 가이드: LangGraph에서 피어 투 피어 비평 루프 활용

이 튜토리얼에서는 매니저나 감독 없이 두 피어 에이전트가 직접 협상하여 작동하는 반중앙집중형 Anemoi-스타일 다중 에이전트 시스템이 어떻게 작동하는지 보여줍니다. 우리는 드래프터와 크리틱이 피어 투 피어 피드백을 통해 출력물을 반복적으로 개선하고, 조정 오버헤드를 줄이면서 품질을 유지하는 방법을 보여줍니다. 우리는 이 패턴을 Colab에서 LangGraph를 사용해 끝에서 끝으로 구현합니다.

2026년 1월 21일 오전 11시 43분

Zhipu AI, 효율적인 로컬 코딩 및 에이전트용 30B-A3B MoE 모델인 GLM-4.7-Flash 발표

Zhipu AI가 GLM-4.7-Flash를 발표했다. 이 모델은 로컬에서 실행하기에 실용적이며 강력한 코딩 및 추론 성능을 원하는 개발자들을 대상으로 한다. 30B-A3B MoE 모델로, 30B 클래스에서 가장 강력한 모델로 경량 배포를 위해 설계되었다.

2026년 1월 21일 오전 4시 54분

End-to-End Latency Budgets, Incremental ASR, LLM Streaming, 및 실시간 TTS로 완전한 스트리밍 음성 에이전트 디자인하는 방법

이 튜토리얼에서는 현대적인 저지연 대화 시스템이 실시간으로 작동하는 방식을 모방하는 완전한 스트리밍 음성 에이전트를 구축합니다. 청크화된 오디오 입력 및 스트리밍 음성 인식부터 점진적 언어 모델 추론 및 스트리밍된 텍스트 음성 출력까지의 파이프라인을 시뮬레이션하며 각 단계에서 명시적으로 지연 시간을 추적합니다.

2026년 1월 20일 오후 1시 24분

« 이전 1 2 3 4 5 … 14 다음 »

최신뉴스 전체보기