Mark Tech Post, 미주투데이의 작성자

포톤, iMessage와 WhatsApp, 텔레그램에 AI 에이전트를 배포하는 오픈소스 TypeScript 프레임워크 '스펙트럼' 출시

포톤이 AI 에이전트를 iMessage, WhatsApp, 텔레그램에 직접 배포할 수 있는 오픈소스 TypeScript 프레임워크 '스펙트럼'을 출시했다. 이 프레임워크는 사용자와의 상호작용을 증진시키기 위해 개발되었다.

2026년 4월 22일 오전 3시 43분

OpenAI, 브라우저 기반의 시각화 도구 'Euphony' 오픈 소스 공개

OpenAI가 AI 에이전트의 디버깅을 돕기 위한 브라우저 기반 시각화 도구 'Euphony'를 오픈 소스로 공개했습니다. 이 도구는 Harmony 채팅 데이터와 Codex 세션 로그를 시각화합니다.

2026년 4월 22일 오전 12시 38분

Hugging Face, LLM 후처리 작업 자동화하는 오픈소스 AI 에이전트 'ml-intern' 출시

Hugging Face가 대형 언어 모델(LLM)의 후처리 작업을 자동화하는 오픈소스 AI 에이전트 'ml-intern'을 출시했다. 이 도구는 문헌 검토, 데이터셋 발견, 훈련 스크립트 실행 등의 작업을 자동으로 수행한다.

2026년 4월 21일 오후 8시 43분

조건부 베이지안 하이퍼파라미터 최적화 파이프라인 구축하기

이 튜토리얼에서는 Hyperopt와 TPE 알고리즘을 사용하여 조건부 베이지안 하이퍼파라미터 최적화 워크플로우를 구현합니다. 다양한 모델 패밀리 간의 동적 전환을 보여주는 검색 공간을 구성합니다.

2026년 4월 21일 오후 8시 04분

구글, 전문 AI 분야를 위한 제어 가능한 합성 데이터셋 생성 프레임워크 '시뮬라' 발표

구글이 전문 AI 분야에서 사용할 수 있는 제어 가능하고 확장 가능한 합성 데이터셋을 생성하는 '시뮬라'라는 새로운 프레임워크를 소개했습니다. 이는 사이버 보안, 법률, 의료 등 다양한 분야에서 필요한 데이터 부족 문제를 해결하기 위한 노력의 일환입니다.

2026년 4월 21일 오후 12시 46분

Qwen 3.6-35B-A3B를 활용한 멀티모달 추론 및 도구 호출 구현 튜토리얼

이번 튜토리얼에서는 Qwen 3.6-35B-A3B 모델을 기반으로 멀티모달 MoE 모델을 실제 워크플로우에 적용하는 방법을 다룹니다. 환경 설정부터 GPU 메모리에 따른 모델 로딩, 재사용 가능한 채팅 프레임워크 구축까지 다양한 내용을 포함합니다.

2026년 4월 21일 오전 3시 54분

문샷 AI, Kimi K2.6 버전 출시 – 장기 코딩 및 300개 서브 에이전트 지원

중국의 AI 연구소 문샷 AI가 Kimi K2.6을 오픈 소스 형태로 출시했습니다. 이 모델은 자율적으로 소프트웨어 공학 문제를 해결하는 데 중점을 두고 있으며, 장기 코딩 에이전트와 자연어 기반 프론트엔드 생성 기능을 제공합니다.

2026년 4월 20일 오후 9시 58분

Microsoft Phi-4-Mini를 활용한 양자화 추론 도구 구현 튜토리얼

이번 튜토리얼에서는 Microsoft의 Phi-4-mini를 사용하여 현대 LLM 워크플로우를 처리하는 방법을 소개합니다. 안정적인 환경 설정과 4비트 양자화를 통한 모델 로딩 과정을 단계별로 설명합니다.

2026년 4월 20일 오후 8시 13분

OpenAI, 사이버 방어를 위한 GPT-5.4-Cyber 모델 배포

OpenAI가 사이버 방어 프로그램의 신뢰할 수 있는 접근 방식을 확대하며, 사이버 보안에 최적화된 GPT-5.4-Cyber 모델을 수천 명의 검증된 방어자에게 제공한다고 발표했다.

2026년 4월 20일 오전 4시 26분

문샷 AI와 칭화대 연구진, LLM 서비스 방식을 재구성하는 PrfaaS 제안

문샷 AI와 칭화대 연구진이 대규모 언어 모델(LLM) 서비스 방식을 혁신적으로 변화시킬 PrfaaS 아키텍처를 제안했습니다. 이 아키텍처는 데이터 센터 간의 KVCache 구조를 통해 LLM의 추론 방식을 개선하는 데 중점을 두고 있습니다.

2026년 4월 19일 오후 8시 51분

OpenMythos: 770M 매개변수로 1.3B 트랜스포머를 재현한 오픈소스 프로젝트

OpenMythos는 Claude Mythos 아키텍처를 이론적으로 재구성한 오픈소스 프로젝트로, PyTorch로 완전히 구축되었습니다. 이 프로젝트는 연구 커뮤니티의 이론을 바탕으로 하고 있습니다.

2026년 4월 19일 오후 3시 47분

TabPFN, In-Context Learning으로 탭형 데이터셋에서 우수한 정확도 달성

TabPFN이 In-Context Learning을 활용하여 랜덤 포레스트와 CatBoost보다 탭형 데이터셋에서 더 높은 정확도를 기록하고 있습니다. 이 기술은 다양한 데이터 유형을 처리하는 데 강점을 보입니다.

2026년 4월 19일 오후 3시 11분

Magika와 OpenAI를 활용한 AI 기반 파일 유형 탐지 및 보안 분석 파이프라인 구축 튜토리얼

이 튜토리얼에서는 Magika의 딥러닝 기반 파일 유형 탐지와 OpenAI의 언어 지능을 결합하여 실용적인 분석 파이프라인을 구축하는 방법을 소개합니다.

2026년 4월 19일 오후 2시 38분

NVIDIA, 하이브리드 양자-고전 시스템을 위한 첫 번째 오픈 양자 AI 모델 '이징' 출시

NVIDIA가 하이브리드 양자-고전 시스템을 위한 첫 번째 오픈 양자 AI 모델인 '이징'을 출시했습니다. 이 모델은 양자 컴퓨터와 고전 컴퓨터의 간극을 줄이기 위한 노력의 일환으로 개발되었습니다.

2026년 4월 19일 오전 3시 54분

xAI, 독립형 Grok 음성 인식 및 음성 합성 API 출시

일론 머스크의 AI 회사 xAI가 독립형 음성 인식(STT) 및 음성 합성(TTS) API를 출시했습니다. 이 API는 Grok Voice의 인프라를 기반으로 하며, 기업 음성 개발자를 겨냥하고 있습니다.

2026년 4월 19일 오전 1시 28분

CUDA에서 PrismML Bonsai 1비트 LLM 실행하기 위한 코딩 튜토리얼

이 튜토리얼에서는 GPU 가속을 활용하여 PrismML의 최적화된 GGUF 배포 스택을 사용해 Bonsai 1비트 대형 언어 모델을 효율적으로 실행하는 방법을 설명합니다.

2026년 4월 19일 오전 12시 33분

상태 기반, 차별적, 변형 테스트 설계를 활용한 속성 기반 테스트 코딩 가이드

이 튜토리얼에서는 Hypothesis를 사용한 속성 기반 테스트를 탐구하며, 전통적인 단위 테스트를 넘어서는 엄격한 테스트 파이프라인을 구축합니다. 다양한 테스트 기법을 통해 시스템의 기능적 정확성과 행동 보장을 검증합니다.

2026년 4월 18일 오후 5시 55분

앤트로픽, 클로드 오퍼스 4.7 출시: 에이전틱 코딩 및 고해상도 비전 향상

앤트로픽이 클로드 오퍼스 4.7을 출시했습니다. 이번 버전은 에이전틱 소프트웨어 엔지니어링과 멀티모달 기능에서 중요한 개선을 이루었으며, 실제 AI 애플리케이션 개발에 큰 도움이 될 것으로 기대됩니다.

2026년 4월 18일 오후 5시 40분

구글 AI, 통합 테스트 실패 진단을 위한 자동 진단 도구 출시

구글이 LLM 기반의 자동 진단 도구인 'Auto-Diagnose'를 발표했다. 이 도구는 통합 테스트 로그를 자동으로 분석하여 오류를 찾아내는 기능을 제공한다.

2026년 4월 18일 오전 2시 00분

최신뉴스 전체보기

OpenAI, Sora 2 및 동의 게이트 Sora iOS 앱 출시

OpenAI는 물리적 타당성, 다중 샷 제어, 동기화된 대화/SFX에 중점을 둔 텍스트-비디오-오디오 모델인 Sora 2를 출시했다. 미국과 캐나다를 대상으로 한 동의 게이트 Sora iOS 앱을 출시하여 소셜 크리에이션, 리믹싱, 검증된 유사성 삽입을 허용한다.

2025년 9월 30일 오후 2시 19분

Delinea, AI 에이전트 자격 증명 액세스에 가드레일 둘러 MCP 서버를 출시

Delinea는 MCP 서버를 출시했는데, 이를 통해 AI 에이전트가 Delinea Secret Server와 Delinea Platform에 저장된 자격 증명에 액세스할 수 있다. 서버는 모든 호출에 신원 확인과 정책 규칙을 적용하여 에이전트 메모리에서 장기적인 비밀을 유지하면서 완전한 감사 가능성 유지를 목표로 한다.

2025년 9월 30일 오전 6시 03분

DeepSeek V3.2-Exp는 DeepSeek Sparse Attention (DSA)로 장문 맥락 비용을 절감하면서 벤치마크 동등성 유지

DeepSeek가 DeepSeek Sparse Attention (DSA)를 추가한 DeepSeek-V3.2-Exp를 출시했다. 이 업데이트는 장문 맥락 효율성을 높이기 위한 훈련 가능한 희소화 경로를 제공한다. 또한 API 가격을 50% 이상 할인하여 효율성 향상을 보여줬다. 새로운 업데이트는 V3/V3.1 스택(MoE + MLA)을 유지하고 두 단계의 어텐션 경로를 삽입했다.

2025년 9월 30일 오전 5시 24분

CrewAI와 Google Gemini를 사용하여 계층적 감독자 에이전트 프레임워크 구축하는 코딩 가이드

이 튜토리얼에서는 CrewAI와 Google Gemini 모델을 활용하여 고급 감독자 에이전트 프레임워크의 설계와 구현 방법을 안내합니다. 연구자, 분석가, 작가, 리뷰어 등 특수 에이전트들을 감독하고 조정하는 감독자 에이전트를 구축하며 구조화된 작업 구성, 계층적 워크플로우 등을 결합합니다.

2025년 9월 30일 오전 4시 30분

Anthropic, 새 코딩 및 혁신적인 결과를 제공하는 Claude Sonnet 4.5 출시

Anthropic는 Claude Sonnet 4.5를 출시하며 소프트웨어 엔지니어링과 현실 세계 컴퓨터 사용에 새로운 기준을 세웠습니다. 이 업데이트에는 제품 표면 변경 사항(Claude Code 체크포인트, 네이티브 VS Code 확장 프로그램, API 메모리/컨텍스트 도구)과 내부적으로 Anthropic이 사용하는 구조를 노출하는 에이전트 SDK도 포함되어 있습니다. 가격은 Sonnet 4와 동일하게 유지됩니다.

2025년 9월 29일 오후 6시 42분

oLLM 만나보기: 8 GB 소비자 GPU로 100K-컨텍스트 LLM 추론을 SSD 오프로드를 통해 제공하는 가벼운 Python 라이브러리—양자화 불필요

oLLM은 Huggingface Transformers와 PyTorch 기반의 가벼운 Python 라이브러리로, NVIDIA GPU에서 대규모 컨텍스트 Transformers를 빠른 지역 SSD로 가중치와 KV-캐시를 공격적으로 오프로드하여 실행합니다. 이 프로젝트는 오프라인, 단일 GPU 워크로드를 대상으로 하며 명시적으로 양자화를 피하며 FP16/BF16 가중치를 사용합니다.

2025년 9월 29일 오후 1시 43분

로컬 및 온라인 배포를 위한 대시 및 플롯리 대시보드의 상호작용 콜백 메커니즘 설계 방법?

이 튜토리얼에서는 Dash, Plotly 및 Bootstrap을 사용하여 고급 대화형 대시보드를 구축하는 방법을 설명합니다. 이 도구들이 레이아웃 및 시각화를 설계하는 데 어떻게 도움을 주고, Dash의 콜백 메커니즘이 컨트롤을 출력에 연결하여 실시간으로 응답 할 수 있도록 하는 방법을 강조합니다.

2025년 9월 28일 오후 11시 39분

실제 환경에서 AI 안전 보장: OpenAI의 모더레이션과 안전 점검을 위한 개발자 안내서

OpenAI는 모델이 안전하고 책임감 있으며 정책과 일치하는 응용 프로그램을 보장하는 데 강한 강조를 두고 있습니다. 이 기사는 OpenAI가 안전을 평가하는 방법과 해당 기준을 충족하기 위해 할 수 있는 일에 대해 설명합니다. 기술적 성능 이상으로, 책임 있는 AI 배포는 잠재적 위험을 예측하는 것을 필요로 합니다.

2025년 9월 28일 오후 11시 28분

AI 연구, 적응형 사이버 보안을 위한 AI 에이전트 면역 시스템 제안: 10% 이하의 오버헤드로 3.4배 빠른 격리

구글과 아칸소소주립대학 교수팀이 제안한 AI 에이전트 면역 시스템은 경량, 자율적인 AI 에이전트를 활용해 보안 위협을 빠르게 격리하는데 도움을 줄 수 있으며, 중앙 왕복 없이 220밀리초 이내에 보안 위협을 분석하고 중화할 수 있다.

2025년 9월 28일 오후 6시 27분

Gemini Robotics 1.5: DeepMind의 ER↔VLA 스택이 현실 세계로 새로운 로봇을 선사합니다

구글 DeepMind의 Gemini Robotics 1.5는 하이-레벨 신체적 추론과 로우-레벨 시각 운동을 위한 두 가지 모델로 분리하여, 연구자처럼 계획하고 장면을 이해하며 로봇 간 동작을 전달할 수 있다고 말합니다.

2025년 9월 28일 오전 4시 29분

2025년의 Top 10 로컬 LLMs: Context Windows, VRAM Targets, 그리고 라이센스 비교

2025년 로컬 LLMs는 빠르게 성숙해졌으며, 안정적인 사양과 일류 로컬 러너를 제공하면서 온프렘 및 랩톱 추론이 실용적으로 가능해졌다.

2025년 9월 28일 오전 2시 21분

최신 Gemini 2.5 플래시-라이트 미리보기는 이제 가장 빠른 프로프리어터리 모델이며 출력 토큰이 50% 더 적습니다

구글은 AI Studio와 Vertex AI에서 Gemini 2.5 플래시 및 Gemini 2.5 플래시-라이트 미리보기 모델의 업데이트 버전을 공개했다. 이들은 외부 테스트에서 가장 빠르다. 실제 운영 안정성을 위해 고정된 문자열을 사용하는 것을 권장하며, 새로운 미리보기 버전이 출시되기 전에 미리 공지할 것이라고 밝혔다.

2025년 9월 27일 오후 7시 08분

Asyncio란 무엇인가? 비동기 Python 시작하기 및 LLM과 함께 Asyncio 사용하기

AI 애플리케이션에서 성능은 중요하다. 대형 언어 모델(Large Language Models, LLM)을 사용할 때 API 응답이나 I/O 작업을 기다리는 시간이 많이 소요된다. 이때 asyncio가 도움이 된다. 많은 개발자들이 LLM을 사용하면서 asyncio를 사용하고 있다.

2025년 9월 27일 오후 6시 26분

자연어 명령 및 대화형 시뮬레이션을 통한 지능적인 AI 데스크톱 자동화 에이전트 구축 방법?

구글 Colab에서 매끄럽게 실행되는 고급 AI 데스크톱 자동화 에이전트 구축 튜토리얼. 자연어 명령 해석, 파일 조작, 브라우저 작업, 워크플로우 등 데스크톱 작업 시뮬레이션 및 가상 환경을 통한 대화형 피드백 제공 설계.

2025년 9월 27일 오전 2시 40분

Qwen3Guard 소개: 글로벌 실시간 AI 안전을 위해 구축된 Qwen3 기반의 다국어 안전 가드레일 모델

알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.

2025년 9월 27일 오전 1시 04분

Hugging Face, Smol2Operator 발표: 2.2B VLM을 Agentic GUI 코더로 훈련시키는 완전 오픈소스 파이프라인

Hugging Face가 Smol2Operator를 발표했다. 이는 UI 경험이 없는 작은 Vision-Language 모델을 GUI 조작 및 도구 사용 에이전트로 변환하는 재현 가능한 레시피이다. 데이터 변환 유틸리티, 훈련 스크립트, 변환된 데이터셋, 2.2B-파라미터 모델 체크포인트 등을 제공하여 GUI 에이전트를 처음부터 구축하는 완벽한 청사진으로 소개되었다.

2025년 9월 26일 오후 4시 51분

Sakana AI가 발표한 ShinkaEvolve: 과학적 발견을 위해 프로그램을 발전시키는 무첨단 샘플 효율성을 가진 오픈소스 프레임워크

Sakana AI가 과학 및 공학 문제를 위해 프로그램을 진화시키기 위해 대형 언어 모델(LLMs)을 사용하는 오픈 소스 프레임워크인 ShinkaEvolve를 공개했다. 평균적인 해를 얻기 위해 필요한 평가 횟수를 현저히 줄이면서 새로운 SOTA를 보고했다.

2025년 9월 26일 오전 5시 15분

구글 AI, 데이터 커먼스를 위한 모델 컨텍스트 프로토콜(MCP) 서버 출시, AI 에이전트에게 공개 통계 자료에 대한 1급 접근 제공

구글은 데이터 커먼스를 위한 모델 컨텍스트 프로토콜(MCP) 서버를 출시했다. 이를 통해 AI 에이전트들은 공개 데이터셋(인구 조사, 건강, 기후, 경제)에 자연어로 쿼리를 할 수 있게 되었다. 빠른 시작 가이드는 Gemini CLI와 Google의 에이전트 개발 키트(ADK)에 제공된다.

2025년 9월 26일 오전 4시 05분

OpenAI, Pro 사용자를 위한 ChatGPT ‘Pulse’ 를 공개

OpenAI가 Pro 사용자를 위해 맞춤형 일일 브리핑을 제공하는 ChatGPT Pulse를 선보였다. 이 기능은 사용자의 채팅, 명시적 피드백, 캘린더/이메일과 같은 연결된 앱에서 정보를 수집하여 사용자 맞춤형 카드를 제공하며, ChatGPT를 요청 중심 도구에서 맥락을 이해하는 어시스턴트로 변화시킨다.

2025년 9월 25일 오후 4시 55분

OpenAI, GDPval 소개: AI의 실제 경제적 가치 작업 측정하는 새평가 스위트

OpenAI가 GDPval을 소개했다. GDPval은 44개 직업, 9개 GDP 지배적 미국 부문에서 AI 모델의 성능을 측정하는 새로운 평가 스위트로, 학술적 벤치마크와는 달리 직업 전문가들이 실제 작업물을 평가한다. OpenAI는 또한 220가지 작업의 “골드” 하위 집합을 공개했다.

2025년 9월 25일 오후 4시 30분

메타 FAIR가 공개한 코드 월드 모델 (CWM): 320억 파라미터의 오픈 가중치 LLM, 월드 모델을 활용한 코드 생성 연구 선도

메타 FAIR가 320억 개의 파라미터로 이루어진 CWM을 공개했다. 이 모델은 코드 생성에 세계 모델링을 삽입하여 실행 추적 및 장기적 상호작용을 통해 학습하며, 코드를 예측함으로써 중간 훈련을 수행한다.

2025년 9월 25일 오전 4시 22분

머신러닝, 해석가능성, 그리고 Gemini AI 도움을 통해 엔드투엔드 데이터 과학 워크플로우 구축하는 방법?

전통적인 머신러닝과 Gemini의 파워를 결합한 고급 데이터 과학 워크플로우를 통해 당뇨병 데이터셋을 준비하고 모델링하며, 평가, 피처 중요도, 부분 의존성에 대해 탐구한다. 중간에 Gemini를 AI 데이터 과학자로 도입한다.

2025년 9월 25일 오전 3시 04분

Vision-RAG vs Text-RAG: 기업 검색을 위한 기술적 비교

텍스트-RAG의 실패는 대부분 검색 단계에서 발생하는데, Vision-RAG는 시각-언어 임베딩을 사용하여 이 문제를 직접 해결함. 시각적으로 풍부한 코퍼스에서 뚜렷한 성과를 보여줌.

2025년 9월 24일 오후 8시 12분

고급 TorchVision v2 변환, MixUp, CutMix 및 최신 CNN 학습 기술 마스터하는 방법은?

TorchVision의 v2 변환, 현대적인 augmentation 전략 및 강력한 학습 향상 기술을 사용하여 고급 컴퓨터 비전 기술을 탐구하는 튜토리얼. 증강 파이프라인 구축, MixUp 및 CutMix 적용, 주의를 기반으로 한 현대적인 CNN 설계, 견고한 학습 루프 구현 과정 소개. Google Colab에서 모든 것을 원활하게 실행하여 최첨단 컴퓨터 비전에 대비.

2025년 9월 24일 오후 6시 55분

알리바바의 Qwen3-Max: 생산 준비 완료된 생각 모드, 1조+ 매개변수, 그리고 첫날 코딩/에이전틱 벤치 신호

알리바바가 Qwen3-Max를 발표했는데, 이는 조합 전문가(MoE) 모델로, Qwen Chat 및 알리바바 클라우드의 Model Studio API를 통해 즉시 공개되었다. Qwen의 2025년 출시 일정을 미리보기에서 생산까지 이동시키며, Qwen3-Max-Instruct와 Qwen3-Max-Thinking 두 가지 변형에 초점을 맞추고 있다.

2025년 9월 24일 오전 11시 20분

CloudFlare AI 팀이 ‘VibeSDK’를 오픈소스로 공개, 한 번의 클릭으로 누구나 완전한 AI Vibe 코딩 플랫폼을 구축하고 배포할 수 있게 함

CloudFlare AI 팀이 VibeSDK를 오픈소스로 공개했다. 이는 한 번의 클릭으로 Cloudflare 네트워크나 GitHub Repo Fork에서 완전한 AI Vibe 코딩 플랫폼을 배포할 수 있는 것으로, 코드 생성, 안전한 실행, 실시간 미리보기, 다중 테넌트 배포를 패키징하여 팀이 인프라를 별도로 연결하지 않고 자체 내부 또는 고객을 대상으로 하는 AI 앱 빌더를 구동할 수 있게 한다.

2025년 9월 24일 오전 1시 11분

구글 AI 연구, 타임즈FM을 퓨-샷 학습기로 변환하는 혁신적인 기계 학습 접근 방식 소개

구글 AI 연구팀이 ‘TimesFM-ICF’라는 시계열 예측을 위한 인-컨텍스트 파인튜닝(ICF)을 소개했다. 이는 명령어에서 직접 제공된 여러 관련 시리즈를 활용하도록 TimesFM에 가르치는 연속된 사전 학습 레시피이다. 결과적으로, 이는 몇 가지 샷 예측기로 변환되어 OOD 벤치마크에서 기본 TimesFM 대비 +6.8% 정확도를 제공한다.

2025년 9월 23일 오후 11시 26분

Hugging Face Optimum, ONNX Runtime 및 양자화를 사용한 엔드 투 엔드 트랜스포머 모델 최적화의 코딩 구현

이 튜토리얼에서는 Hugging Face Optimum을 사용하여 트랜스포머 모델을 최적화하고 정확도를 유지하면서 빠르게 만드는 방법을 안내합니다. DistilBERT를 SST-2 데이터셋에 설정한 다음 일반 PyTorch 및 torch.compile, ONNX Runtime 및 양자화된 ONNX를 비교합니다.

2025년 9월 23일 오후 7시 28분

구글 AI, Chrome DevTools MCP의 공개 미리보기 소개: 코딩 에이전트가 실시간 Chrome 브라우저를 제어하고 검사

구글은 “Chrome DevTools MCP”의 공개 미리보기를 출시했는데, 이는 AI 코딩 에이전트가 실제 Chrome 인스턴스를 제어하고 검사할 수 있는 Model Context Protocol (MCP) 서버로, 성능 추적 기록, DOM 및 CSS 검사, JavaScript 실행, 콘솔 출력 읽기, 사용자 흐름 자동화 등이 가능하다.

2025년 9월 23일 오후 2시 35분

VoXtream 만나보기: 첫 단어부터 말을 시작하는 실시간 사용을 위한 오픈소스 풀 스트림 제로샷 TTS 모델

KTH의 Speech, Music and Hearing 그룹이 공개한 VoXtream은 실시간 TTS 모델로, 사람이 음성을 듣기 전에 잠시의 침묵 없이 말을 시작한다. 이는 실시간 에이전트, 실시간 더빙, 동시 통역 등에 혁명을 일으킬 것으로 기대된다.

2025년 9월 23일 오전 5시 24분

Parlant를 사용하여 신뢰할 수 있는 대화형 AI 에이전트 만드는 방법?

Parlant는 신뢰성이 높고 일관된 작동을 하는 AI 에이전트를 개발하는 데 도움을 주는 프레임워크이다. 대규모 언어 모델 에이전트를 배포할 때 발생하는 일반적인 문제를 해결하기 위해 설계되었으며, 시스템 프롬프트를 무시하거나 부정확하고 관련성 없는 응답을 생성하는 문제를 해결한다.

2025년 9월 22일 오후 11시 21분

Microsoft, 공개 미리보기에서 Azure Logic Apps(Standard)로 MCP 도입, 커넥터를 에이전트 도구로 전환

Microsoft가 Azure Logic Apps(Standard)를 Model Context Protocol (MCP) 서버로 실행할 수 있는 공개 미리보기를 출시했다. 이를 통해 Logic Apps 워크플로우를 에이전트 도구로 노출시켜 MCP 호환 클라이언트(VS Code + Copilot 등)에서 발견하고 호출할 수 있다.

2025년 9월 22일 오후 6시 36분

Perplexity, 일정 및 초안 작성을 위한 Gmail 및 Outlook용 AI 이메일 어시스턴트 에이전트 출시

Perplexity의 AI 에이전트 “이메일 어시스턴트”는 Gmail 및 Outlook에 연결되어 답변 작성, 메시지 자동 라벨링 및 우선순위 설정, 회의 일정 조율까지 가능하며 Perplexity의 Max 플랜에서 제공됩니다.

2025년 9월 22일 오후 5시 33분

알리바바 큐윈 팀, 상용 GPU로 80B/3B-액티브 하이브리드-MoE를 가져오는 Qwen3-Next-80B-A3B의 FP8 빌드를 공개

알리바바의 큐윈 팀이 새로운 Qwen3-Next-80B-A3B 모델을 위한 FP8-양자화된 체크포인트를 공개했으며, Instruct 및 Thinking 두 가지 후 학습 변형으로 고성능 추론을 위해 설계되었습니다. 이 FP8 레포지토리는 BF16 릴리스를 반영하지만 “미세한 FP8” 가중치와 sglang 및 vLLM 신변 배포 노트가 포장되어 있습니다.

2025년 9월 22일 오전 6시 04분

2025년 프론트엔드 개발자를 위한 최고의 15개 Model Context Protocol (MCP) 서버

MCP는 프론트엔드 팀이 디자인 스펙, 저장소/PR, 배포 대상, 가시성, 업무 관리를 편리하게 통합할 수 있는 표준화된 방법을 제공하며, 이 리스트는 FE 워크플로에 매핑되는 제품용 원격 MCP 서버에 초점을 맞추고 있다.

2025년 9월 22일 오전 5시 16분

MIT 연구진, 인공지능(AI) 성능 향상, 계획 수립에서 64배 빠르고 94% 정확도 달성

MIT CSAIL 연구진은 PDDL-INSTRUCT를 소개하여 대화식 계획 수립 성능을 향상시키고 LLM의 심볼릭 계획 성능을 높였다. 조정된 Llama-3-8B 모델은 Blocksworld에서 94%의 유효한 계획을 달성했다.

2025년 9월 22일 오전 3시 06분

유니버설 툴 콜링 프로토콜 (UTCP)

UTCP는 AI 에이전트와 애플리케이션이 추가 래퍼 서버 없이도 도구를 찾고 호출할 수 있는 가벼우면서 안전하고 확장 가능한 방법이다. 전통적인 툴 통합 솔루션의 문제와 UTCP의 주요 기능에 대해 설명한다.

2025년 9월 21일 오후 9시 04분

Meta AI가 제안한 ‘메타인지 재사용’: LLM 사고 체인을 절차적 핸드북으로 변환하여 토큰을 46% 절감

메타 연구원들은 반복되는 추론 패턴을 짧고 이름이 붙은 절차, “행동”,으로 압축한 다음 모델이 추론 시 사용하거나 미세 조정을 통해 정제하는 방법을 소개했다. 결과적으로 MATH에서 추론 토큰 수를 최대 46% 절감하면서 정확도를 유지 또는 향상시키고, AIME에서는 자가 개선 환경에서 최대 10%의 정확도 향상을 이끌어냈다.

2025년 9월 21일 오후 8시 39분

IBM과 ETH 취리히 연구진, 인메모리 AI 하드웨어의 노이즈 대응을 위한 아날로그 퍼운데이션 모델 발표

IBM과 ETH 취리히의 연구진은 아날로그 퍼운데이션 모델(AFMs)을 발표했는데, 이 모델은 대형 언어 모델(LLMs)과 아날로그 인메모리 컴퓨팅(AIMC) 하드웨어 사이의 간극을 메우는 데 사용된다. AIMC는 효율성 측면에서 혁명적인 발전을 약속하며, 임베디드나 엣지 디바이스에 적합한 작은 공간에서 십억 개의 파라미터를 가진 모델을 실행할 수 있다.

2025년 9월 21일 오전 4시 12분

LLM 시스템에서 탈옥 프롬프트를 탐지하고 방어하기 위한 하이브리드 규칙 기반 및 기계 학습 프레임워크 구축

이 튜토리얼에서는 탈옥 방어 기술을 소개하며, 정책 회피 프롬프트를 탐지하고 안전하게 처리하는 방법을 단계별로 소개합니다. 실제 공격 및 양성 예제를 생성하고, 규칙 기반 신호를 만들어 TF-IDF 기능과 결합하여 회피 프롬프트를 차단하지 않고 합법적인 요청을 차단할 수 있는 간결하고 해석 가능한 분류기를 만듭니다.

2025년 9월 21일 오전 3시 30분

LLM-as-a-Judge: 신호가 끊기는 곳, 언제 유지되고, “평가”는 무엇을 의미해야 하는가?

LLM 판사가 1-5 (또는 pairwise) 점수를 할당할 때 정확히 무엇이 측정되는가? 대부분의 “정확성/신뢰성/완전성” 평가 기준은 프로젝트별로 다르며, 작업 기반 정의 없이 스칼라 점수는 업무 결과에서 벗어날 수 있다. LLM-as-a-judge (LAJ) 조사에서는 평가 기준의 모호함과 프롬프트 템플릿 선택이 점수와 사람에게 영향을 준다는 것을 언급하고 있다.

2025년 9월 20일 오후 8시 16분

인공지능 에이전트의 인터넷? Coral 프로토콜이 MCP 네이티브 런타임 및 레지스트리인 Coral v1을 소개합니다

Coral Protocol은 Coral v1을 출시하여 개발자가 이질적인 프레임워크 간에 AI 에이전트를 발견, 구성 및 운영하는 방식을 표준화하고 있습니다. 이 릴리스는 스레드, 언급 주소 지정된 에이전트 간 메시징이 가능한 MCP 기반 런타임(Coral Server), 오케스트레이션 및 가시성을 위한 개발자 워크플로우(CLI + Studio), 그리고 에이전트용 공개 레지스트리에 중점을 두고 있습니다.

2025년 9월 20일 오후 7시 24분

LeRobot를 활용한 엔드 투 엔드 로보틱스 학습을 위한 코딩 가이드: PushT 데이터셋에서 행동 복제 정책 훈련, 평가 및 시각화

이 튜토리얼에서는 Hugging Face의 LeRobot 라이브러리를 사용하여 PushT 데이터셋에서 행동 복제 정책을 훈련하고 평가하는 방법을 단계별로 안내합니다. Google Colab 환경 설정부터 필요한 종속성 설치, LeRobot의 통합 API를 통해 데이터셋을 로드하는 과정을 진행합니다. 그리고 간결한 시각 모터 정책을 설계합니다.

2025년 9월 20일 오후 6시 38분

xAI가 Grok-4-Fast를 출시: 2백만 토큰 컨텍스트와 툴 사용 강화 학습(Reinforcement Learning)을 통한 엔드 투 엔드로 훈련된 통합 추론 및 비추론 모델

xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.

2025년 9월 20일 오전 5시 17분

Xiaomi, 100백만 시간 학습한 7B 말/언어 모델 ‘MiMo-Audio’ 공개

Xiaomi의 MiMo 팀이 100백만 시간 이상의 오디오를 기반으로 한 7조 파라미터 음성 언어 모델 ‘MiMo-Audio’를 공개했다. 새로운 점은 과업별 헤드나 손실 악센트 토큰에 의존하는 대신, RVQ 토크나이저를 사용하여 의미론적 정보 및 음성을 타깃팅한다.

2025년 9월 20일 오전 4시 23분

Octave와 oct2py 라이브러리를 활용하여 Python 내에서 MATLAB 스타일 코드 실행하기

이 튜토리얼에서는 Octave를 oct2py 라이브러리를 통해 연결하여 Python 내에서 MATLAB 스타일 코드를 실행하는 방법을 살펴봅니다. Google Colab에서 환경을 설정하고, NumPy와 Octave 간에 데이터를 교환하며, .m 파일을 작성하고 호출하며, Octave에서 생성된 플롯을 Python 내에서 시각화하고, 툴박스, 구조체 및 .mat 파일과 함께 작업하는 방법을 알아봅니다.

2025년 9월 20일 오전 3시 25분

구글의 Sensible 에이전트, 증강 현실 지원을 “무엇+어떻게” 결정으로 재평가 – 그래서 그것이 어떻게 변화되나?

구글의 Sensible Agent는 실시간 다중 모달 컨텍스트에 따라 행동과 상호작용 방식을 선택하는 AI 연구 프레임워크이다. 이는 “제안할 것”과 “어떻게 물어볼 것”을 분리하여 접근하는 것이 아니라 둘을 연결시켜준다.

2025년 9월 19일 오후 12시 46분

2025년 최고의 컴퓨터 비전 블로그 및 뉴스 웹사이트

2025년 컴퓨터 비전 분야는 새로운 다중 모달 백본, 대규모 오픈 데이터셋, 더 견고한 모델-시스템 통합으로 빠르게 발전했다. 이 목록은 주요 연구 허브, 연구소 블로그, 제품 중심의 엔지니어링 웹사이트를 우선시하여 최신 정보를 제공한다.

2025년 9월 19일 오전 4시 35분

Qwen3-ASR-Toolkit: Qwen-ASR API 3분/10MB 제한 초과를 위한 고급 오픈 소스 파이썬 명령줄 툴킷

Qwen이 Qwen3-ASR-Toolkit을 출시했습니다. 이는 Qwen3-ASR-Flash API의 3분/10MB 제한을 우회하기 위해 VAD 인식 청킹, 병렬 API 호출, FFmpeg를 통한 자동 재샘플링/포맷 정규화를 수행하여 안정적이고 시간 기준의 전사 파이프라인을 제공합니다. Python ≥3.8이 필요하며, 설치 방법은 공식 사이트에서 확인할 수 있습니다.

2025년 9월 19일 오전 3시 55분

물리 AI: 다음 세대 신체화 시스템을 위한 로보틱스, 재료과학, 인공지능 연결

물리 AI란 무엇인가? 로봇 공학에서의 인공지능은 영리한 알고리즘에 그치지 않는다. 로봇은 물리적 세계에서 작동하며, 그들의 지능은 몸과 두뇌의 공동 설계로부터 나온다. 물리 AI는 재료, 구동, 감지 및 계산이 학습 정책이 작동하는 방식에 어떤 형태로 영향을 미치는지를 설명한다.

2025년 9월 19일 오전 12시 38분

AI 에이전트 구축은 5% 인공지능과 100% 소프트웨어 엔지니어링

실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.

2025년 9월 18일 오후 8시 40분

MIT의 LEGO: AI 칩을 위한 컴파일러, 자동으로 빠르고 효율적인 공간 가속기 생성

MIT 연구진은 LEGO를 소개했는데, 이는 텐서 워크로드를 사용하여 공간 가속기에 대한 합성 가능한 RTL을 자동으로 생성하는 컴파일러와 유사한 프레임워크이다. LEGO는 손으로 템플릿을 작성할 필요 없이 텐서 워크로드와 데이터 흐름을 표현하고, 재사용을 위해 FU (기능 장치) 인터커넥트 및 on-chip 메모리 레이아웃을 구축하며, 여러 작업을 퓨징하는 기능을 지원한다.

2025년 9월 18일 오후 8시 13분

어떤 UI에도 AI 에이전트를 가져오기: 실시간, 구조화된 에이전트-프론트엔드 스트림을 위한 AG-UI 프로토콜

AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.

2025년 9월 18일 오후 3시 29분

H회사가 Holo1.5를 출시: GUI 로컬라이제이션 및 UI-VQA에 중점을 둔 오픈 웨이트 컴퓨터 사용 VLMs

H 회사가 Holo1.5를 출시했다. 이는 컴퓨터 사용을 위한 오픈 기반 비전 모델로, 실제 사용자 인터페이스에 스크린샷 및 포인터/키보드 조작을 통해 작동하는 CU 에이전트를 위해 설계되었다. 3B, 7B, 72B 체크포인트가 포함되어 있으며, 크기별로 Holo1 대비 약 10% 정확도 향상이 문서화되어 있다.

2025년 9월 18일 오전 4시 14분

알리바바, 통이 딥리서치 공개: 장기연구용 최적화된 30B 파라미터 오픈소스 에이전틱 LLM

알리바바의 통이 랩이 통이-딥리서치-30B-A3B를 오픈소스로 공개했다. 이 모델은 웹 도구를 활용한 장기, 심층 정보탐색을 위해 구축된 에이전트 특화 대형 언어 모델로, 약 30.5B의 총 파라미터와 토큰당 약 3-3.3B의 활성 파라미터를 사용하여 강력한 추론 성능을 유지하면서 고 처리량을 가능케 한다. ReAct 스타일 하의 멀티턴 연구 워크플로우를 대상으로 한다.

2025년 9월 18일 오전 3시 31분

IBM AI, 그래나이트 독링 258M 공개: 기업용 오픈소스 문서 AI 모델

IBM이 그래나이트 독링 258M을 공개했다. 이는 엔드 투 엔드 문서 변환을 위해 설계된 오픈소스 비전-언어 모델로, 레이아웃-정확한 추출을 목표로 함. 테이블, 코드, 수식, 목록, 캡션 및 읽기 순서를 처리하여 손실이 적은 Markdown이 아닌 구조화된 기계 판독 가능한 표현을 출력함.

2025년 9월 17일 오후 8시 35분

메타 AI 연구진, MapAnything 공개: 이미지로부터 직접 회귀되는 3D 장면 지오메트리

Meta Reality Labs와 Carnegie Mellon University 연구팀이 MapAnything을 소개했다. 이는 Apache 2.0 하에 공개된 end-to-end transformer 구조로, 이미지와 선택적 센서 입력으로부터 직접 3D 장면 지오메트리를 회귀시킨다. MapAnything은 12가지 이상의 3D 비전을 지원하며, 전문 파이프라인을 넘어진다.

2025년 9월 17일 오후 1시 58분

허깅페이스 파이프라인을 활용한 고급 엔드투엔드 음성 AI 에이전트 구축 방법은?

이 튜토리얼에서는 Hugging Face의 무료 모델을 활용해 고급 음성 AI 에이전트를 구축하고, 전체 파이프라인을 Google Colab에서 원활하게 실행할 수 있도록 유지합니다. 우리는 음성 인식을 위해 Whisper, 자연어 추론을 위해 FLAN-T5, 음성 합성을 위해 Bark를 결합하여 전부 트랜스포머 파이프라인을 통해 연결합니다.

2025년 9월 17일 오후 12시 22분

AI2 연구진, 다양한 차원에서 평가를 향상시키는 ‘유동 벤치마킹’을 도입해 벤치마킹 게임을 바꾸고 있음

AI2, 워싱턴대학 및 CMU의 연구진이 유동 벤치마킹을 소개하며, 정적 정확도를 2개 매개변수 IRT 능력 추정 및 Fisher 정보 기반 항목 선택으로 대체하는 적응형 LLM 평가 방법을 도입했다. 모델의 현재 능력에 대해 가장 정보가 풍부한 질문만 하므로 더 부드러운 훈련 곡선을 제공하고 벤치마킹을 지연시킵니다.

2025년 9월 17일 오전 4시 43분

구글 AI, 상인과 지갑 간 상호 운용 가능한 AI 에이전트 체크아웃을 위한 오픈 프로토콜 AP2 소개

구글의 Agent Payments Protocol (AP2)은 에이전트 주도의 결제를 위한 오픈, 상호 운용 가능한 명세서로, 사용자, 에이전트 개발자 또는 상인 중 누가 책임을 져야 하는지에 대한 불신이 해결됨.

2025년 9월 16일 오후 11시 21분

대규모 데이터에 Zarr 구현하는 코딩 가이드: 청킹, 압축, 인덱싱, 시각화 기술

Zarr 라이브러리의 기능을 깊이 파헤치는 튜토리얼. 대규모 다차원 배열의 효율적인 저장 및 조작을 위해 설계된 Zarr의 기본부터 시작하여 청킹 전략 설정, 직접 디스크에서 값 수정 등의 고급 작업까지 탐색.

2025년 9월 16일 오후 7시 17분

Google AI, TimesFM-2.5 출시: GIFT-Eval에서 선두를 달리는 작고 긴 컨텍스트의 기반 모델 (제로샷 예측)

Google Research가 200M 파라미터의 TimesFM-2.5를 공개했다. 이 모델은 16K 컨텍스트 길이와 원천 확률 예측 지원을 갖추고 있으며, GIFT-Eval에서 최상의 정확성 지표(MASE, CRPS)를 기록하고 있다. 시계열 예측은 무엇인가? 시계열 예측은 [ … ]

2025년 9월 16일 오후 12시 29분

스탠포드 연구진이 소개한 MedAgentBench: 의료 AI 에이전트를 위한 현실 세계 벤치마크

스탠포드 대학 연구팀이 의료 분야에서 대형 언어 모델 에이전트를 평가하기 위해 설계된 MedAgentBench를 발표했다. MedAgentBench는 가상 전자 건강 기록 환경을 제공하여 AI 시스템이 상호 작용, 계획 및 다단계 임상 작업을 실행해야 하는 실제 시나리오를 제공한다.

2025년 9월 16일 오전 3시 24분

MoonshotAI, Checkpoint-Engine 출시: LLM 추론 엔진에서 모델 가중치 업데이트를 위한 간단한 미들웨어, 강화 학습에 효과적

MoonshotAI가 checkpoint-engine을 오픈소스로 공개했다. 이는 대규모 언어 모델(Large Language Model, LLM) 배포에서 주요 병목 현상 중 하나인 수천 개의 GPU에서 모델 가중치를 신속하게 업데이트하고 추론을 방해하지 않는 것을 목표로 한 경량 미들웨어이다. 라이브러리는 특히 강화 학습 및 강화 학습과 인간 피드백(RLHF)을 위해 설계되었으며, 모델이 빈번히 업데이트되고 다운타임이 발생하는 경우에 유용하다.

2025년 9월 16일 오전 2시 29분

DNA 서열 분류 및 해석을 위한 주목을 기반으로 한 고급 합성곱 신경망 구축

이 튜토리얼에서는 프로모터 예측, 스플라이스 사이트 감지, 규제 요소 식별 등과 같은 실제 생물학적 작업을 시뮬레이션하는 DNA 서열 분류를 위한 고급 합성곱 신경망을 구축하는 방법을 다룹니다. 원-핫 인코딩, 다중 스케일 합성곱 레이어 및 주목 메커니즘을 결합하여 모델을 설계합니다.

2025년 9월 15일 오후 10시 58분

OpenAI가 GPT-5-Codex를 소개: Codex에서 Agentic 코딩을 위해 더 최적화된 GPT-5의 발전된 버전

OpenAI가 GPT-5-Codex를 발표했다. 이는 Codex 생태계 내에서 “agentic coding” 작업에 더 최적화된 GPT-5의 버전이다. 이번 업데이트의 목표는 Codex가 더 신뢰성 있고 빠르며 자율적인 행동을 보여 팀원처럼 행동할 수 있도록 하는 것이다.

2025년 9월 15일 오후 8시 43분

NVIDIA AI가 ViPE(Video Pose Engine)를 오픈 소스로 공개: 공간 AI를 위한 강력하고 다재다능한 3D 비디오 주석 도구

NVIDIA의 연구진이 ViPE: 3D 기하학 인식을 위한 비디오 포즈 엔진을 공개했다. 이는 비용이 많이 드는 전통적인 방법 없이 로봇학을 위한 AI를 훈련하기 위한 3D 데이터셋을 어떻게 생성하는가에 대한 해결책으로, 3D 컴퓨터 비전 분야의 병목 현상을 해결한다.

2025년 9월 15일 오후 12시 43분

Meta AI가 MobileLLM-R1을 공개: 10억 개 이하의 파라미터를 가진 엣지 추론 모델이 다른 완전 오픈 소스 AI 모델보다 2배~5배의 성능 향상을 이룩

Meta가 MobileLLM-R1을 출시했습니다. 이는 Hugging Face에서 사용 가능한 가벼운 엣지 추론 모델로, 140M에서 950M의 파라미터를 가진 모델들이 포함되어 있습니다. 일반적인 챗봇 모델과는 달리 MobileLLM-R1은 엣지 배포용으로 설계되어 있어 최신 추론 정확도를 제공합니다.

2025년 9월 15일 오전 2시 34분

법의 구조 논리를 위한 설명 가능한 AI 설계

AI 설명과 법적 근거는 서로 다른 지식 평면에서 운영되는데, 이를 연결하는 것은 어려움이 있다. 표준 XAI 기술은 이 간극을 메우지 못한다. 주의 맵과 법적 계층은 이 문제를 해결할 수 있다.

2025년 9월 15일 오전 1시 15분

Hugging Face Trackio를 활용한 대화형 실험 대시보드 구축의 포괄적 코딩 가이드

본 튜토리얼에서는 Hugging Face Trackio를 사용하여 실험을 로컬에서 깔끔하고 직관적으로 추적하는 방법을 단계별로 안내합니다. Google Colab에 Trackio를 설치하고 데이터셋을 준비하며 서로 다른 하이퍼파라미터로 여러 훈련 실행을 설정하는 방법을 탐색합니다. 이 과정에서 메트릭을 로깅하고 혼동 행렬을 테이블로 시각화하며 […]

2025년 9월 15일 오전 12시 58분

AI 엔지니어/개발자를 위한 최고의 노코드 도구 5선

노코드 도구는 코딩 전문 지식이 없어도 누구나 빠르고 효율적으로 솔루션을 구축할 수 있게 해준다. 기업급 RAG 시스템을 개발하거나 멀티 에이전트 워크플로를 설계하거나 수백 개의 LLM을 세밀하게 조정하는 등의 작업이 가능하며, 개발 시간과 노력을 크게 줄여준다.

2025년 9월 14일 오후 3시 16분

AI에 최적화된 GPU용 소프트웨어 프레임워크: CUDA, ROCm, Triton, TensorRT – 컴파일러 경로 및 성능 영향

이 기사에서는 딥러닝 처리량이 어떻게 컴파일러 스택이 텐서 프로그램을 GPU 실행으로 매핑하는지에 달려있음을 설명하며, CUDA, ROCm, Triton, TensorRT과 같은 네 가지 주요 스택에 초점을 맞추고, 실제로 어떤 최적화가 실무에서 중요한지 설명합니다.

2025년 9월 14일 오전 4시 55분

UT Austin과 ServiceNow 연구팀, AU-Harness 발표: 오디오 LLMs의 종합평가를 위한 오픈소스 툴킷

음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.

2025년 9월 14일 오전 3시 11분

2025년 최고의 로보틱스 AI 블로그/뉴스 웹사이트 Top 12

인공지능과 로보틱스는 자동화, 인식 및 인간-기계 협업 분야에서 혁신을 이끌며 전례없는 속도로 융합되고 있습니다. 이러한 발전을 따라가기 위해서는 기술적 심도, 연구 업데이트 및 산업 통찰력을 제공하는 전문 소스를 따라야 합니다. 이 리스트는 2025년 추적해야 할 가장 권위있는 로보틱스 및 AI에 중점을 둔 블로그와 웹사이트 12곳을 강조합니다.

2025년 9월 13일 오후 5시 07분

고정 훈련, 적응 학습, 지능적 의사 결정을 갖춘 강력한 고급 신경 인공지능 에이전트 구축 방법?

고전 신경망 기술과 현대적 안정성 향상 기법을 결합한 고급 신경 에이전트의 설계와 구현을 탐구합니다. Xavier 초기화를 사용하여 균형있는 기울기 흐름을 갖는 네트워크를 구축하고, leaky ReLU, sigmoid, tanh와 같은 안정적 활성화를 추가하여 오버플로우를 피합니다. 훈련을 안정화하기 위해 클리핑을 사용합니다.

2025년 9월 13일 오후 3시 43분

Google AI가 디퍼렌셜 프라이버시로 완전히 훈련된 1B-파라미터로 구축된 최대 및 가장 능력있는 오픈 모델인 VaultGemma 공개

구글 AI 연구팀과 딥마인드가 디퍼렌셜 프라이버시(DP)로 완전히 훈련된 최대 규모의 오픈 가중치 대형 언어 모델인 VaultGemma 1B를 공개했다. 이는 강력하면서도 프라이버시 보호가 가능한 AI 모델 구축으로 나아가는 중요한 한걸음이다.

2025년 9월 13일 오전 3시 54분

IBM AI 연구팀, ModernBERT 아키텍처 기반 두 개의 영어 Granite 임베딩 모델 공개

IBM은 고성능 검색 및 RAG 시스템용으로 설계된 두 개의 새로운 임베딩 모델, granite-embedding-english-r2와 granite-embedding-small-english-r2를 소개했다. 이 모델들은 효율적이고 소형이며 Apache 2.0 라이선스로 제공된다.

2025년 9월 12일 오후 11시 50분

파이썬을 사용하여 EasyOCR과 OpenCV로 다국어 OCR AI 에이전트 구축하는 방법

본 튜토리얼에서는 EasyOCR, OpenCV, Pillow을 사용하여 Google Colab에서 고급 OCR AI 에이전트를 구축한다. GPU 가속을 사용하여 완전 오프라인으로 실행되며, 이미지 전처리 파이프라인을 포함하여 인식 정확도를 향상시킨다. OCR 이외에도 결과를 신뢰도에 따라 필터링하고 텍스트 통계를 생성한다.

2025년 9월 12일 오후 2시 06분

BentoML이 llm-optimizer를 발표: LLM 추론의 벤치마킹과 최적화를 위한 오픈 소스 AI 도구

BentoML은 llm-optimizer를 출시했는데, 이는 self-hosted large language models (LLMs)의 벤치마킹과 성능 튜닝을 간소화하기 위해 설계된 오픈 소스 프레임워크이다. 이 도구는 LLM 배포에서의 최적의 구성을 찾는 것과 같은 일반적인 도전에 대처하며, 수동 시행착오 없이 지연 시간, 처리량 및 비용에 대한 최적화된 구성을 찾는 데 도움을 준다.

2025년 9월 12일 오전 3시 23분

Deepdub, 실시간 AI 음성 모델 ‘Lightning 2.5’ 발표, 확장 가능한 AI 에이전트 및 기업 AI를 위한 2.8배 처리량 향상

이스라엘 음성 AI 스타트업인 Deepdub이 Lightning 2.5를 소개했다. 이 모델은 실시간으로 작동하는 기본 음성 모델로, 성능과 효율성 면에서 상당한 향상을 이뤘다. 이로써 AI 에이전트, 기업 AI 등 실시간 대화 시스템에서 사용할 수 있게 되었다.

2025년 9월 11일 오후 11시 37분

TwinMind, 새 음성 AI 모델 Ear-3 모델을 선보여 정확성, 화자 라벨링, 언어, 가격에서 산업 기록 경신

캘리포니아 소재 음성 AI 스타트업 TwinMind은 Ear-3 음성 인식 모델을 공개하며 탁월한 성능과 다국어 지원을 주장하고 있다. Ear-3은 Deepgram, AssemblyAI, Eleven Labs, Otter, Speechmatics, OpenAI와 같은 기존 ASR 솔루션에 대항하는 경쟁력 있는 제품으로 소개되었다.

2025년 9월 11일 오후 5시 37분

광학 문자 인식(OCR) 모델이란? 최고의 오픈 소스 OCR 모델

OCR은 이미지 속 텍스트를 기계가 읽을 수 있는 텍스트로 변환하는 과정이다. 규칙 기반 시스템에서 출발해 신경 아키텍처와 언어-시각 모델로 발전하며 복잡하고 다국어, 필기체 문서를 읽을 수 있다.

2025년 9월 11일 오후 12시 54분

오픈AI, ChatGPT 개발자 모드에 전체 MCP 도구 지원 추가: 쓰기 동작, 워크플로 자동화, 기업 통합 가능

오픈AI가 ChatGPT의 개발자 모드에 MCP 도구의 전체 지원을 추가하여 쓰기 동작을 수행할 수 있게 했다. 이를 통해 개발자들은 시스템을 직접 업데이트하고 워크플로를 트리거하며 기업 통합을 할 수 있다.

2025년 9월 11일 오전 4시 28분

mmBERT 만나보기: 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용하는 인코더 전용 언어 모델, 이전 모델보다 2-4배 빠름

새로운 다국어 인코더가 필요한 이유와 XLM-RoBERTa가 지배한 다국어 NLP 분야에서 새로운 mmBERT 모델의 소개. 인코더만으로 구성된 mmBERT 모델은 이전 모델보다 2-4배 빠르고 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용한다.

2025년 9월 11일 오전 2시 45분

MCP (Model Context Protocol) 에이전트를 다중 에이전트 조정, 컨텍스트 인식 및 Gemini 통합과 함께 구축하기

본 튜토리얼에서는 Jupyter 또는 Google Colab 내에서 원활히 작동하는 고급 MCP (Model Context Protocol) 에이전트를 구축하는 과정을 안내합니다. 다중 에이전트 조정, 컨텍스트 인식, 메모리 관리 및 동적 도구 사용에 중점을 두어 현실 세계의 실용성을 고려하고 있습니다.

2025년 9월 10일 오후 6시 25분

NVIDIA AI, 보급 가능하고 감사 가능한 딥 리서치 에이전트용 프로토타입 프레임워크 ‘UDR’ 출시

NVIDIA의 새로운 프로토타입 프레임워크 ‘UDR’은 확장 가능하고 감사 가능한 딥 리서치 에이전트를 위해 개발되었다. 기존의 딥 리서치 도구들은 제한적인 워크플로와 모델 교체, 도메인별 프로토콜 적용이 어려운 문제점을 가지고 있었는데, ‘UDR’은 이러한 제약을 극복하고자 한다.

2025년 9월 10일 오후 4시 32분

바이두, ERNIE-4.5-21B-A3B-Thinking 발표: 딥 논리를 위한 소형 MoE 모델

바이두 AI 연구팀이 효율성, 장기적 논리 추론, 도구 통합을 중심으로 설계된 새로운 ERNIE-4.5-21B-A3B-Thinking을 발표했다. 이 모델은 21B 총 매개변수를 가지고 있지만 토큰 당 활성 매개변수는 3B뿐으로, 계산 효율성을 유지하면서 경쟁력 있는 논리 능력을 갖추고 있다.

2025년 9월 10일 오전 3시 43분

MCP 팀, 기업 AI를 위한 연합 검색 레이어 ‘MCP 레지스트리’ 미리보기 버전 출시

MCP 팀이 MCP 레지스트리의 미리보기 버전을 출시했다. 이는 기업 AI를 실제로 운영 가능하게 만드는 마지막 퍼즐 조각일 수 있다. MCP 레지스트리는 MCP 서버를 발견하기 위한 연합 아키텍처를 소개하여 인터넷이 주소 지정을 해결한 방식을 모방한다.

2025년 9월 10일 오전 12시 46분

Python을 사용하여 SpeechBrain을 활용한 음성 개선 및 자동 음성 인식 (ASR) 파이프라인 구축

이 튜토리얼에서는 SpeechBrain을 사용한 고급이면서도 실용적인 워크플로우를 안내합니다. gTTS로 자체 깨끗한 음성 샘플을 생성하고 실제 시나리오를 시뮬레이션하기 위해 음향을 의도적으로 추가한 다음 SpeechBrain의 MetricGAN+ 모델을 적용하여 오디오를 향상시킵니다. 오디오가 소음 제거되면 언어 모델-재점수화를 통해 자동 음성 인식을 실행합니다.

2025년 9월 9일 오후 11시 54분

MBZUAI 연구진, K2 Think 공개: 고급 AI 추론을 위한 32B 오픈소스 시스템 출시 및 20배 큰 추론 모델보다 우수한 성능 발휘

MBZUAI의 연구진이 고급 AI 추론을 위한 32B-파라미터 오픈 추론 시스템 K2 Think을 발표했다. 이 시스템은 강화 학습, 테스트 시 스케일링, 추론 최적화 등을 결합하여 선두적인 성능을 보여준다.

2025년 9월 9일 오후 3시 53분

알리바바 Qwen 팀, Qwen3-ASR 출시: Qwen3-Omni를 기반으로 한 새로운 음성 인식 모델 출시로 견고한 음성 인식 성능 달성

알리바바 클라우드의 Qwen 팀이 Qwen3-ASR Flash를 공개했다. 이는 Qwen3-Omni의 강력한 지능을 기반으로 한 올인원 자동 음성 인식(ASR) 모델로, 여러 시스템을 번갈아가며 사용하지 않고 다국어, 소음, 도메인별 전사를 간단하게 처리한다. 주요 기능은 edtech 플랫폼(강의 캡처, 다국어 지도), 미디어(자막, 성우), 고객 서비스(다국어 IVR) 등이다.

2025년 9월 9일 오전 5시 15분

Vibe 코딩을 위한 상위 7개의 Model Context Protocol (MCP) 서버

MCP는 AI 에이전트를 외부 도구, 데이터, 서비스에 연결하는 표준으로, 대형 언어 모델이 컨텍스트를 요청, 사용 및 유지할 수 있는 구조화된 방법을 제공한다. MCP 서버는 Vibe 코딩에 적합한 상위 7개를 소개한다.

2025년 9월 9일 오전 4시 39분

시퀀셜 추론에서 터널 비전 극복을 위해 원시 병렬 사고로 LLM 테스트 시간 계산 확장하는 ParaThinker

LLM의 시험 시간 계산 확장은 단일 추론 경로를 확장하는 데 의존했지만, 이는 한정된 범위에서는 추론을 개선하지만 성능이 빠르게 수렴한다. 32K 이상의 토큰 예산을 증가시켜도 무의미한 정확도 향상. 이 병목 현상은 초기 토큰에서 발생.

2025년 9월 8일 오후 11시 26분

Notte와 Gemini를 활용한 완전한 멀티도메인 AI 웹 에이전트 구축 방법

이 튜토리얼에서는 Notte AI 에이전트의 고급 구현을 보여줌. Gemini API를 통합하여 추론과 자동화를 구현하며, Notte의 브라우저 자동화 기능과 Pydantic 모델을 결합하여 제품 조사, 소셜 미디어 모니터링, 시장 분석, 취업 기회 스캔 등 다양한 작업을 수행하는 AI 웹 에이전트를 구현한다.

2025년 9월 8일 오후 9시 20분

GibsonAI가 Memori를 공개: AI 에이전트를 위한 오픈 소스 SQL 네이티브 메모리 엔진

메모리는 인간 지능을 생각할 때 먼저 떠오르는 중요한 부분이다. 경험으로부터 배우고 새로운 상황에 적응하며 시간이 흐름에 따라 더 나은 결정을 내릴 수 있게 해준다. 이와 유사하게 AI 에이전트도 메모리를 통해 더 똑똑해진다. GibsonAI가 AI 에이전트를 위한 오픈 소스 SQL 네이티브 메모리 엔진 Memori를 출시했다.

2025년 9월 8일 오후 3시 02분

MIT 연구: 감독된 미세 조정과 비교했을 때 강화 학습이 재앙적인 잊혀짐을 최소화하는 것을 보여줌

MIT의 연구는 강화 학습이 감독된 미세 조정보다 재앙적인 잊혀짐을 덜 일으킨다는 것을 밝혔다. 기존의 능력을 잃는 것을 의미하는 재앙적인 잊혀짐은 인공지능 에이전트를 오랫동안 유지하고 지속적으로 개선하는 데 장애물이 될 수 있다.

2025년 9월 8일 오전 5시 34분

Biopython을 사용하여 DNA 및 단백질 분석을 위한 생물정보학 AI 에이전트 만드는 방법

이 튜토리얼에서는 Biopython과 인기있는 Python 라이브러리를 사용하여 Google Colab에서 원활하게 실행되도록 설계된 고급이면서 접근성 있는 생물정보학 AI 에이전트를 구축하는 방법을 보여줍니다. 이 튜토리얼은 서열 검색, 분자 분석, 시각화, 다중 서열 정렬, 계통수 구축 및 모티프 검색을 하나의 간소화된 클래스로 결합하여 실습적인 방법을 제공합니다.

2025년 9월 7일 오후 9시 36분

메타 초지능 연구소, REFRAG 소개: 16배 더 긴 컨텍스트와 31배 더 빠른 디코딩으로 RAG 확장

메타 초지능 연구소, 싱가포르 국립대학교 및 라이스 대학의 연구진이 REFRAG (REpresentation For RAG)를 발표했다. 이는 RAG 효율성을 재고하는 디코딩 프레임워크로, LLM 컨텍스트 창을 16배로 확장하고 정확도를 저해하지 않으면서 첫 번째 토큰까지의 시간을 최대 30.85배 가속화시킨다.

2025년 9월 7일 오후 4시 49분

Tilde AI, TildeOpen LLM 공개: 300억개 이상의 파라미터를 가진 오픈 소스 대규모 언어 모델, 대부분의 유럽어 지원

Tilde AI가 TildeOpen LLM을 공개했다. 이 모델은 300억개 이상의 파라미터를 가지며 유럽어에 특화되어 있어 소수 언어에도 주목한다. EU 내 언어 균형과 디지털 주권을 강화하는 전략적인 발전이다.

2025년 9월 7일 오전 1시 34분

사전훈련부터 사후훈련까지: 언어 모델이 환각하는 이유와 평가 방법이 문제를 강화하는 방법

대형 언어 모델은 종종 “환각”을 생성하는데, 이는 올바르지만 잘못된 출력을 확신하며 가능성이 있는 것으로 보인다. OpenAI의 새로운 연구는 환각이 교사 지도 학습과 자기 지도 학습의 통계적 특성에서 비롯되며, 그 지속성은 평가 기준의 불일치로 강화된다는 엄밀한 설명을 제공한다.

2025년 9월 7일 오전 12시 56분

« 이전 1 … 5 6 7 8 9 … 14 다음 »