2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.
2026년 3월 6일 오후 2시 53분
YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.
2026년 3월 5일 오전 12시 55분
본 튜토리얼에서는 오픈 소스 instruct 모델을 활용하여 계층적 플래너 에이전트를 구축한다. 이 구조화된 다중 에이전트 아키텍처에는 플래너 에이전트, 실행자 에이전트 및 집계자 에이전트가 포함되어 있으며 각 구성 요소가 복잡한 작업을 해결하는 데 특화된 역할을 수행한다. 플래너 에이전트를 사용하여 고수준 목표를 실행 가능한 단계로 분해한다.
2026년 2월 27일 오후 9시 18분
Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.
2026년 2월 26일 오후 11시 01분
Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 '일시적 에이전트'에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.
2026년 2월 26일 오전 3시 01분
Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.
2026년 2월 25일 오전 3시 37분
알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.
2026년 2월 24일 오후 2시 33분
오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 'Shin Megami Boson'이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.
2026년 2월 21일 오후 4시 10분
NVIDIA가 DreamDojo를 발표했다. 이는 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델로, 기존의 물리 엔진 대신 픽셀에서 직접 로봇 행동의 결과를 '꿈꾼다'.
2026년 2월 20일 오후 3시 30분
Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.
2026년 2월 13일 오후 1시 05분
알리바바의 Tongyi Lab 연구팀이 'Zvec'을 발표했다. 이는 엣지 및 장치 내 검색 워크로드를 대상으로 하는 오픈소스 인프로세스 벡터 데이터베이스로, SQLite와 유사한 라이브러리로 작동하여 외부 서비스나 데몬이 필요하지 않다. 검색 증강 생성(RAG)을 위해 설계되었다.
2026년 2월 10일 오전 10시 25분
NVIDIA의 C-RADIOv4는 SigLIP2, DINOv3, SAM3을 하나의 비전 백본으로 통합하여 밀집 또는 세분화 성능을 희생하지 않고 결합하는 방법에 대해 소개합니다. 이 모델은 세 강력한 선생님 모델을 학생 인코더로 결합하여 AM-RADIO 및 RADIOv2.5 라인을 확장하며 계산 비용을 유지하면서 성능을 향상시킵니다.
2026년 2월 6일 오후 7시 31분
NVIDIA가 VibeTensor를 공개했는데, 이는 딥러닝을 위한 오픈소스 연구 시스템 소프트웨어 스택이다. VibeTensor는 LLM 기반 코딩 에이전트에 의해 고수준의 인간 안내 아래 생성되었다. 이 시스템은 코딩 에이전트가 Python과 JavaScript API에서 C++ 런타임 구성 요소 및 CUDA 메모리 관리까지 포괄하는 일관된 딥러닝 런타임을 생성할 수 있는지에 대한 구체적인 질문을 제기한다.
2026년 2월 4일 오후 11시 10분
Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.
2026년 2월 3일 오후 3시 47분
Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.
2026년 1월 30일 오후 8시 53분
AI2가 SERA(Soft Verified Efficient Repository Agents)를 소개했다. SERA는 감독 학습과 합성 경로만 사용하여 훨씬 큰 폐쇄 시스템과 맞추기 위해 개발된 코딩 에이전트 패밀리다. SERA는 AI2의 오픈 코딩 에이전트 시리즈의 첫 번째 릴리스이며, 주요 모델인 SERA-32B는...
2026년 1월 30일 오후 5시 53분

최신뉴스 전체보기

구글 AI, 안드로이드 개발을 위한 LLMs 평가 프레임워크 및 리더보드 ‘안드로이드 벤치’ 공개

구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.

2026년 3월 6일 오후 2시 53분
YuanLab AI, 강력한 지능과 탁월한 효율성을 위해 만들어진 플래그십 멀티모달 MoE Foundation 모델인 Yuan 3.0 Ultra 공개

YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.

2026년 3월 5일 오전 12시 55분
오픈 소스 LLM을 활용한 계층적 플래너 AI 에이전트 구축의 코딩 구현

본 튜토리얼에서는 오픈 소스 instruct 모델을 활용하여 계층적 플래너 에이전트를 구축한다. 이 구조화된 다중 에이전트 아키텍처에는 플래너 에이전트, 실행자 에이전트 및 집계자 에이전트가 포함되어 있으며 각 구성 요소가 복잡한 작업을 해결하는 데 특화된 역할을 수행한다. 플래너 에이전트를 사용하여 고수준 목표를 실행 가능한 단계로 분해한다.

2026년 2월 27일 오후 9시 18분
Perplexity, 새로운 SOTA Qwen3 양방향 임베딩 모델 pplx-embed를 출시

Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.

2026년 2월 26일 오후 11시 01분
Nous Research가 ‘Hermes Agent’를 발표하여 멀티레벨 메모리와 전용 원격 터미널 액세스 지원으로 AI 망각문제를 해결합니다

Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 ‘일시적 에이전트’에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.

2026년 2월 26일 오전 3시 01분
Liquid AI의 새로운 LFM2-24B-A2B 하이브리드 아키텍처는 최신 LLM의 확장 병목 현상을 해결하기 위해 주의와 합성을 결합함

Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.

2026년 2월 25일 오전 3시 37분
알리바바 Qwen 팀, Qwen 3.5 중간 모델 시리즈 출시: 더 작은 AI 모델이 더 똑똑함을 증명하는 생산 성능 중심

알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.

2026년 2월 24일 오후 2시 33분
팔란티어의 커뮤니티 에디션이 있을까요? 오픈플랜터를 만나보세요: 마이크로 감시용 오픈소스 재귀 인공지능 에이전트

오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 ‘Shin Megami Boson’이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.

2026년 2월 21일 오후 4시 10분
NVIDIA, 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델 DreamDojo 공개

NVIDIA가 DreamDojo를 발표했다. 이는 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델로, 기존의 물리 엔진 대신 픽셀에서 직접 로봇 행동의 결과를 ‘꿈꾼다’.

2026년 2월 20일 오후 3시 30분
Kyutai가 Hibiki-Zero를 발표: GRPO 강화 학습을 사용한 A3B 매개 변수 동시 음성 대 음성 번역 모델, 어떤 단어 수준의 정렬 된 데이터도 필요하지 않음

Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.

2026년 2월 13일 오후 1시 05분
알리바바, Zvec 오픈소스화: SQLite와 유사한 간편함과 고성능을 제공하는 임베디드 벡터 데이터베이스

알리바바의 Tongyi Lab 연구팀이 ‘Zvec’을 발표했다. 이는 엣지 및 장치 내 검색 워크로드를 대상으로 하는 오픈소스 인프로세스 벡터 데이터베이스로, SQLite와 유사한 라이브러리로 작동하여 외부 서비스나 데몬이 필요하지 않다. 검색 증강 생성(RAG)을 위해 설계되었다.

2026년 2월 10일 오전 10시 25분
NVIDIA AI, 분류, 밀집 예측, 세분화 작업에 대한 C-RADIOv4 비전 백본 출시

NVIDIA의 C-RADIOv4는 SigLIP2, DINOv3, SAM3을 하나의 비전 백본으로 통합하여 밀집 또는 세분화 성능을 희생하지 않고 결합하는 방법에 대해 소개합니다. 이 모델은 세 강력한 선생님 모델을 학생 인코더로 결합하여 AM-RADIO 및 RADIOv2.5 라인을 확장하며 계산 비용을 유지하면서 성능을 향상시킵니다.

2026년 2월 6일 오후 7시 31분
NVIDIA AI가 발표한 VibeTensor: 코딩 에이전트에 의해 끝에서 끝까지 프로그래밍적으로 구축된 AI 생성 딥러닝 런타임

NVIDIA가 VibeTensor를 공개했는데, 이는 딥러닝을 위한 오픈소스 연구 시스템 소프트웨어 스택이다. VibeTensor는 LLM 기반 코딩 에이전트에 의해 고수준의 인간 안내 아래 생성되었다. 이 시스템은 코딩 에이전트가 Python과 JavaScript API에서 C++ 런타임 구성 요소 및 CUDA 메모리 관리까지 포괄하는 일관된 딥러닝 런타임을 생성할 수 있는지에 대한 구체적인 질문을 제기한다.

2026년 2월 4일 오후 11시 10분
Qwen 팀, 코딩 에이전트 및 로컬 개발을 위해 특별히 설계된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시

Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.

2026년 2월 3일 오후 3시 47분
Robbyant, LingBot World를 오픈 소스로 공개: 대화형 시뮬레이션과 실제 AI를 위한 실시간 세계 모델

Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.

2026년 1월 30일 오후 8시 53분
AI2, 감독 학습만 사용한 실용적 리포지토리 수준 자동화 워크플로우용 SERA 출시

AI2가 SERA(Soft Verified Efficient Repository Agents)를 소개했다. SERA는 감독 학습과 합성 경로만 사용하여 훨씬 큰 폐쇄 시스템과 맞추기 위해 개발된 코딩 에이전트 패밀리다. SERA는 AI2의 오픈 코딩 에이전트 시리즈의 첫 번째 릴리스이며, 주요 모델인 SERA-32B는…

2026년 1월 30일 오후 5시 53분
DeepSeek AI, 인쇄물 이해를 위한 레이아웃 인식 OCR을 발표

DeepSeek AI가 DeepSeek-OCR 2를 공개했습니다. 이는 레이아웃을 고려한 문서 이해 시스템으로, 인간이 복잡한 문서를 스캔하는 방식과 유사하게 페이지를 읽을 수 있도록 구조화합니다. 핵심 구성 요소는 DeepEncoder V2로, 2D 페이지를 1D 시퀀스로 변환하는 언어 모델 스타일의 트랜스포머입니다.

2026년 1월 30일 오전 3시 21분
안트 그룹이 LingBot-VLA를 발표, 현실 세계 로봇 조작을 위한 비전 언어 액션 기반 모델

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

2026년 1월 29일 오후 7시 02분
MBZUAI, K2 Think V2 발표: 수학, 코드, 과학을 위한 완전한 주권을 갖춘 70B 추론 모델

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.

2026년 1월 28일 오후 4시 17분
DSGym는 데이터 과학 에이전트를 구축하고 평가하기 위한 재사용 가능한 컨테이너 기반 기본체를 제공합니다

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.

2026년 1월 27일 오후 2시 52분
Clawdbot는 무엇인가? 로컬 퍼스트 에이전트 스택이 대화를 실제 자동화로 바꾸는 방법

Clawdbot은 오픈 소스 개인용 AI 어시스턴트로, 대규모 언어 모델을 Anthropic 및 OpenAI와 연결하여 메시징 앱, 파일, 쉘, 브라우저, 스마트 홈 기기와 연동하면서 조정 계층을 사용자가 제어합니다.

2026년 1월 26일 오전 12시 05분
FlashLabs 연구원들, Chroma 1.0 공개: 개인화 음성 클로닝을 지원하는 4B 실시간 음성 대화 모델

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.

2026년 1월 22일 오전 11시 22분
Microsoft Research, OptiMind 출시: 자연어를 솔버용 최적화 모델로 변환하는 20B 파라미터 모델

Microsoft Research가 OptiMind를 출시했다. 이는 자연어로 된 복잡한 의사결정 문제를 최적화 솔버가 실행할 수 있는 수학적 공식으로 변환하는 AI 기반 시스템이다. 이는 전문가 모델러와 수일간의 작업이 필요했던 오퍼레이션 리서치의 병목 현상을 해결한다.

2026년 1월 20일 오후 1시 06분
Vercel, 10년간의 React와 Next.js 최적화 규칙을 갖춘 AI 코딩 에이전트를 위한 패키지 매니저 ‘Agent Skills’ 출시

Vercel이 AI 코딩 에이전트를 위한 패키지 매니저 ‘Agent Skills’를 출시했다. React와 Next.js 성능, 웹 디자인 검토, Vercel에서 배포 가능한 기능을 중점으로 하며, npm과 유사한 명령어로 스킬을 설치할 수 있다.

2026년 1월 19일 오전 12시 43분
NVIDIA, 자연스럽고 풀 더플렉스 대화를 위한 PersonaPlex-7B-v1 발표

NVIDIA의 연구진이 PersonaPlex-7B-v1을 발표했는데, 이는 자연스러운 음성 상호작용을 위한 풀 더플렉스 대화 모델로, 정확한 페르소나 제어를 목표로 한다. ASR→LLM→TTS에서 단일 풀 더플렉스 모델로 진화했다. 기존 음성 어시스턴트는 ASR이 음성을 텍스트로 변환하고, 언어 모델이 텍스트 답변을 생성한 후, 텍스트를 음성으로 변환한다.

2026년 1월 18일 오후 3시 48분
구글 AI가 개발자들을 위한 오픈 메디컬 AI 모델인 MedGemma-1.5를 최신 업데이트

구글 AI 연구팀이 MedGemma-1.5를 발표했다. 이 모델은 의료 영상, 텍스트 및 음성 시스템을 구축하고 지역 워크플로와 규정에 적응하려는 개발자들을 위한 오픈 출발점으로 제공된다.

2026년 1월 14일 오후 4시 30분
SETA 만나보기: 터미널 에이전트를 위한 400가지 태스크와 CAMEL 툴킷을 갖춘 오픈 소스 훈련 강화 학습 환경

SETA는 터미널 에이전트를 위한 강화 학습 툴킷 및 환경 스택으로, 400가지 태스크와 CAMEL 툴킷을 제공한다. CAMEL AI 및 Eigent AI 연구팀이 개발한 이 프로젝트는 구조화된 툴킷, 합성 RL 환경 및 평가에 초점을 맞추고 있다.

2026년 1월 12일 오전 12시 12분
TII 아부다비가 Falcon H1R-7B를 출시: 7B 파라미터로 256k 컨텍스트 창을 갖춘 다른 모델들을 능가하는 새로운 추론 모델

TII 아부다비가 Falcon-H1R-7B를 발표했습니다. 이 모델은 7B 파라미터로 수학, 코딩 및 일반 벤치마크에서 많은 14B에서 47B 모델을 능가하면서도 효율적이고 효율적입니다.

2026년 1월 7일 오후 9시 12분
NVIDIA AI가 Nemotron Speech ASR을 공개: 음성 에이전트와 라이브 자막 등 저지연 사용 사례를 위해 처음부터 설계된 새로운 오픈 소스 전사 모델

NVIDIA가 저지연 음성 에이전트와 라이브 자막을 위해 특별히 제작된 새로운 영어 전사 모델(Nemotron Speech ASR)을 공개했다. 이 모델은 FastConformer 인코더와 RNNT 디코더를 결합한 캐시 인식 아키텍처로 최적화되어 현대 NVIDIA GPU에서 스트리밍 및 배치 작업에 튜닝되었다.

2026년 1월 7일 오후 1시 12분
Liquid AI, 실제 장치 에이전트용 컴팩트 AI 모델 패밀리 LFM2.5 출시

Liquid AI가 LFM2.5를 소개했는데, LFM2 아키텍처를 기반으로 한 작은 foundation 모델 세대로, 장치 및 엣지 배포에 초점을 맞추고 있다. LFM2.5-1.2B-Base와 LFM2.5-1.2B-Instruct를 포함하며 일본어, 시각 언어, 음성 언어 변형도 제공한다. Hugging Face에서 오픈 웨이트로 출시되었다.

2026년 1월 7일 오전 1시 41분
Marktechpost, AI 모델, 벤치마크, 생태계 신호를 위한 ‘AI2025Dev’ 출시

Marktechpost가 AI2025Dev를 출시했습니다. 이는 2025년 분석 플랫폼으로, AI 활동을 쿼리 가능한 데이터셋으로 변환하여 모델 출시, 공개 정도, 교육 규모, 벤치마크 성능, 생태계 참여자를 아우릅니다.

2026년 1월 6일 오후 5시 10분
NVIDIA AI 연구원들이 NitroGen을 공개: 일반 게임 에이전트를 위한 오픈 비전 액션 기반 모델

NVIDIA AI 연구팀은 NitroGen을 발표했는데, 이는 일반 게임 에이전트를 위한 오픈 비전 액션 기반 모델로, 인터넷 비디오를 통해 픽셀과 게임패드 액션을 직접 학습하여 상용 게임을 플레이하는 방법을 익힙니다. NitroGen은 1,000개 이상의 게임에서 40,000시간의 게임 플레이로 훈련되었으며, 오픈 데이터셋과 유니버설 시뮬레이터를 제공합니다.

2025년 12월 29일 오전 2시 51분
NVIDIA AI가 Nemotron 3를 발표: 긴 문맥을 위한 하이브리드 Mamba Transformer MoE 스택

NVIDIA가 Nemotron 3 패밀리를 발표했는데, 이는 agentic AI를 위한 완전한 스택으로, 모델 가중치, 데이터셋 및 강화 학습 도구를 포함한다. 이 패밀리는 Nano, Super, Ultra 세 가지 크기로 나뉘어 있으며, 긴 문맥 추론과 추론 비용에 엄격한 제어가 필요한 다중 에이전트 시스템을 대상으로 한다.

2025년 12월 21일 오전 5시 34분
CopilotKit v1.50가 새로운 useAgent Hook을 통해 AG-UI 에이전트를 직접 앱으로 가져옵니다

CopilotKit은 AI 동료 및 앱 내 에이전트를 직접 구축하기 위한 오픈 소스 프레임워크입니다. 팀들은 에이전트 그래프를 강력한 사용자 인터페이스로 변환하기 위해 여전히 사용자 정의 코드를 작성해야 했는데, CopilotKit은 이를 해결합니다.

2025년 12월 12일 오전 4시 07분
Apple 연구자들, 16배 – 128배 시멘틱 문서 압축을 위한 Continuous Latent Reasoning 프레임워크 CLaRa 발표

Apple과 에든버러 대학의 연구팀이 CLaRa를 발표했다. CLaRa는 연속 잠재 추론을 사용하여 시멘틱 문서를 압축하는 기능을 제공한다.

2025년 12월 6일 오전 5시 20분
DeepSeek AI, DeepSeekMath-V2 발표: 2024년 Putnam 대회에서 118/120점 획득한 오픈 웨이트 수학 모델

DeepSeek AI가 공개 가중치 대규모 언어 모델인 DeepSeekMath-V2를 발표했다. 이 모델은 자연어 정리를 최적화하고 자가 검증을 통해 자신의 추론이 올바른지 확인하면서 복잡한 올림피아드 수학 문제를 해결할 수 있다.

2025년 11월 28일 오후 6시 35분
OceanBase, Seekdb 릴리스: 멀티모델 RAG와 AI 에이전트를 위한 오픈소스 AI 네이티브 하이브리드 검색 데이터베이스

OceanBase가 AI를 위해 고안된 오픈소스 데이터베이스인 seekdb를 출시했다. seekdb는 다양한 데이터 모델과 AI 에이전트를 위한 하이브리드 검색 기능을 제공하며, Apache 2.0 라이센스로 제공된다.

2025년 11월 27일 오후 4시 44분
텐센트 훈유안, HunyuanOCR 공개: 1B 파라미터 엔드 투 엔드 OCR 전문가 VLM

텐센트 훈유안이 OCR 및 문서 이해를 위해 특화된 1B 파라미터 비전 언어 모델인 HunyuanOCR을 공개했다. 이 모델은 멀티모달 아키텍처를 기반으로 하며, 스포팅, 파싱, 정보 추출, 시각적 질문 응답 및 텍스트 이미지 번역을 단일 엔드 투 엔드 파이프라인을 통해 실행한다.

2025년 11월 27일 오전 4시 07분
Amazon SageMaker를 활용한 사용자 정의 컴퓨터 비전 하자 검출 모델 훈련

Amazon Lookout for Vision에서 Amazon SageMaker AI로 컴퓨터 비전 작업을 이전하고, AWS Marketplace에서 제공되는 사전 훈련된 모델을 사용하여 사용자 정의 하자 검출 모델을 훈련하는 방법을 소개합니다. SageMaker Ground Truth로 데이터셋 라벨링, 유연한 하이퍼파라미터 구성으로 모델 훈련, 실시간 또는 일괄 추론을 위한 배포까지 단계별 안내를 제공하여 자동 품질 검사에 대한 제어와 유연성을 높입니다.

2025년 11월 26일 오전 7시 44분AWS Blog
다중 제공업체 생성 AI 게이트웨이 참조 아키텍처로 AI 운영 최적화하기

이 게시물에서는 다중 제공업체 생성 AI 게이트웨이 참조 아키텍처를 소개하며, 이를 통해 LiteLLM을 AWS 환경에 배포하여 여러 모델 제공업체 간의 제너레이티브 AI 워크로드의 관리와 거버넌스를 최적화하는 방법에 대한 지침을 제공합니다. 이 중앙 집중식 게이트웨이 솔루션은 Amazon Bedrock, Amazon SageMaker AI 및 외부 제공업체를 지원하면서 포괄적인 보안, 모니터링 및 제어 기능을 유지하며 제공자 단편화, 분산형 거버넌스, 운영 복잡성 및 비용 관리와 같은 일반적인 기업 과제에 대응합니다.

2025년 11월 22일 오전 5시 34분AWS Blog
Allen Institute for AI (AI2)가 Dolma 3 및 Dolci 스택에서 구축된 오픈 소스 7B 및 32B LLM 패밀리인 Olmo 3를 소개합니다

Allen Institute for AI (AI2)가 오픈 소스로 출시한 Olmo 3는 전체 ‘모델 플로우’를 노출하는데, 원시 데이터 및 코드부터 중간 체크포인트 및 배포 준비 모델까지 포함하고 있습니다. Olmo 3은 7B 및 32B 파라미터 모델을 갖춘 밀도 변환기 스위트입니다.

2025년 11월 21일 오후 12시 07분
Meta AI, 이미지와 비디오에서 프롬프트 가능한 개념 세분화를 위한 Segment Anything Model 3 (SAM 3) 발표

Meta AI 팀이 Meta Segment Anything Model 3 또는 SAM 3을 공개했다. SAM 3은 간단한 프롬프트를 사용하여 대규모 이미지 및 비디오 컬렉션에서 모든 개념의 인스턴스를 신뢰성 있게 찾고 세분화하고 추적하는 데 사용되는 통합 기본 모델이다.

2025년 11월 21일 오전 4시 53분
Uni-MoE-2.0-Omni: 텍스트, 이미지, 오디오 및 비디오 이해를 위한 오픈 Qwen2.5-7B 기반 Omnimodal MoE

Uni-MoE-2.0-Omni은 텍스트, 이미지, 오디오, 비디오를 신뢰성 있게 이해하는 오픈 모델로, 하비른 공과대학의 연구진이 소개했다. 이 시스템은 언어 중심의 다중 모달 추론을 위해 Lychee의 Uni-MoE 라인을 발전시킨 것으로, 효율적으로 운영된다.

2025년 11월 18일 오후 3시 56분
Gelato-30B-A3B: GUI 컴퓨터 사용 작업을 위한 최첨단 그라운딩 모델, GTA1-32B와 같은 컴퓨터 그라운딩 모델을 능가

ML Foundations 연구팀이 소개한 Gelato-30B-A3B는 그래픽 사용자 인터페이스를 위한 최첨단 그라운딩 모델로, AI 에이전트에게 명확한 화면 요소를 찾아 클릭하도록 가르치는 것에 대한 문제를 해결한다.

2025년 11월 10일 오후 4시 30분
StepFun AI, 새로운 오픈소스 3B LLM 등급 오디오 편집 모델 Step-Audio-EditX 출시, 표현력과 반복적인 오디오 편집에서 뛰어남

StepFun AI가 공개한 Step-Audio-EditX는 3B 파라미터 LLM 기반 오디오 모델로, 표현력 있는 음성 편집을 파형 수준 신호 처리 작업이 아닌 토큰 수준 텍스트 작업으로 변환시킴. 개발자들이 제어 가능한 TTS에 관심을 갖는 이유에 대해 설명.

2025년 11월 9일 오전 11시 51분
구글 AI가 ADK Go를 공개: 강력한 AI 에이전트 구축을 위해 Go 개발자에게 역량을 부여하는 새로운 오픈소스 툴킷

구글이 Go용 에이전트 개발 킷인 ADK Go를 출시했다. Go 개발자들은 기존의 Python과 Java를 지원하는 프레임워크로 AI 에이전트를 구축할 수 있게 되었으며, 익숙한 Go 도구 체인 내에서 모든 것을 유지할 수 있다.

2025년 11월 7일 오후 5시 08분
CMU 연구진, 프로액티브 및 개인화된 LLM 에이전트를 훈련시키기 위해 PPP와 UserVille 소개

CMU 연구진은 프로액티브 및 개인화된 LLM 에이전트를 훈련시키기 위해 PPP와 UserVille을 소개했다. 기존 LLM 에이전트들은 과제 성공을 극대화하기 위해 조정되어 있지만 사용자에게 언제 질문할지, 상호작용 선호도를 어떻게 존중할지 신중하게 이유를 생각하지 않는다. 이에 대한 해결책을 모색하고 있다.

2025년 11월 6일 오전 4시 49분
Ant Group, 각 활성화가 추론 능력을 향상시키는 원칙에 따라 구축된 추론 중심 MoE 언어 모델 시리즈인 Ling 2.0 출시

Ant Group의 Inclusion AI 팀이 Ling 2.0을 출시했다. 이 모델은 각 토큰의 계산을 거의 바꾸지 않으면서 용량이 증가하는 언어 모델로, 추론 능력을 향상시키는 원리에 기반한다.

2025년 10월 30일 오후 4시 39분
Liquid AI, LFM2-ColBERT-350M 출시: 다국어 및 교차언어 RAG에 늦은 상호작용 검색 기능 제공하는 새로운 소형 모델

Liquid AI사가 LFM2-ColBERT-350M을 출시했다. 이 모델은 다국어 및 교차언어 검색을 위한 소형 late interaction retriever로, 한 언어로 문서를 색인하고 다른 언어로 쿼리를 작성해도 높은 정확도로 검색 결과를 반환한다.

2025년 10월 29일 오전 2시 32분
Zhipu AI, 시각-텍스트 압축을 통해 컨텍스트 길이 확장하는 AI 프레임워크 ‘Glyph’ 출시

Zhipu AI 연구진은 ‘Glyph’를 발표했다. 긴 텍스트를 이미지로 렌더링하고 VLM을 사용하여 128K 컨텍스트를 1백만 토큰 워크로드로 확장하는 AI 프레임워크로, 3-4배의 토큰 압축을 달성함.

2025년 10월 28일 오전 4시 35분
‘kvcached’ 만나보기: 공유 GPU에서 LLM 서빙을 위한 가상화된 탄력있는 KV 캐시를 가능하게 하는 머신러닝 라이브러리

‘kvcached’는 공유 GPU에서 LLM 서빙을 위해 가상화된 탄력있는 KV 캐시를 가능하게 하는 머신러닝 라이브러리입니다. 기존에는 모델당 큰 정적 KV 캐시 영역을 미리 예약하여 GPU 메모리를 낭비했지만, kvcached를 사용하면 이를 최적화할 수 있습니다.

2025년 10월 26일 오후 7시 23분
DeepSeek, 고성능 OCR 및 구조화된 문서 변환을 위해 디자인된 3B OCR 모델 출시

DeepSeek-AI가 3B DeepSeek-OCR을 출시했다. 이는 텍스트를 작은 집합의 시각 토큰으로 압축한 뒤 언어 모델로 해당 토큰을 디코딩하는 OCR 및 문서 구문 분석 Vision-Language Model(VLM) 시스템이다. 이미지는 텍스트의 간략한 표현을 갖고 있어 디코더의 시퀀스 길이를 줄인다.

2025년 10월 20일 오후 7시 50분
LangChain의 DeepAgents 라이브러리 만나보기 및 DeepAgents가 실제로 어떻게 작동하는지 실제 예제 확인하기

DeepAgents 라이브러리는 계획을 세우고 시간에 걸쳐 작업을 관리할 수 있는 능력이 없는 기본 대형 언어 모델(Large Language Model, LLM) 에이전트를 극복하기 위해 설계되었습니다. 이 라이브러리는 “깊이” 있게 실행될 수 있도록 설계되어 있습니다.

2025년 10월 20일 오전 8시 55분
Kong, 제작 준비 완료 AI 에이전트를 구축하기 위한 TypeScript, MCP 네이티브 SDK Volcano 출시

Kong이 Volcano를 오픈소스로 공개했습니다. 이는 TypeScript SDK로, LLM 고찰 및 실제 활동을 통해 여러 LLM 제공업체 간에 다단계 에이전트 워크플로를 구성하며 MCP 도구 사용이 가능합니다.

2025년 10월 18일 오전 6시 52분
Qualifire AI, Rogue: AI 에이전트의 성능, 준수 및 신뢰성을 평가하기 위해 설계된 종단간 에이전트 AI 테스트 프레임워크 공개 소스화

Qualifire AI가 Rogue를 오픈소스화했습니다. 이 프레임워크는 AI 에이전트를 평가하기 위해 설계되었으며 프로토콜 정확한 대화, 명시적 정책 확인, 기계 판독 가능한 증거를 제공하여 릴리스를 자신 있게 관리할 수 있습니다.

2025년 10월 16일 오후 2시 12분
알리바바의 Qwen AI, FP8 체크포인트와 함께 Compact Dense Qwen3-VL 4B/8B 출시

알리바바의 Qwen 팀이 밀도 높은 Qwen3-VL 4B/8B 모델을 FP8로 축소한 Instruct와 Thinking 두 가지 프로필로 출시했다. VRAM을 적게 사용하면서도 256K→1M 컨텍스트와 전체 능력을 유지한다.

2025년 10월 14일 오후 10시 14분
안드레이 카르파시가 공개한 ‘nanochat’: 약 4시간 동안 약 100달러에 훈련할 수 있는 미니멀한 엔드투엔드 ChatGPT 스타일 파이프라인

안드레이 카르파시가 nanochat을 공개했다. 이는 하나의 멀티 GPU 노드에서 실행 가능한 ChatGPT 스타일 스택을 구현한 경량 코드베이스로, 토크나이저 훈련부터 웹 UI 추론까지를 지원한다. 단일 스크립트 “스피드런”을 제공하여 토큰화, 베이스 사전 훈련, 채팅/다중 선택/도구 사용 데이터에 대한 중간 훈련, 지도된 세부 튜닝(SFT), 선택적 강화 학습을 실행한다.

2025년 10월 14일 오후 1시 40분
Liquid AI, 8.3B 매개변수와 토큰 당 1.5B 활성 매개변수를 갖는 온디바이스 Mixture-of-Experts인 LFM2-8B-A1B를 출시

Liquid AI가 온디바이스 실행을 위해 만들어진 소형 Mixture-of-Experts 모델인 LFM2-8B-A1B를 출시했다. 클라우드 배치 서빙용이 아닌 이 모델은 폰에 최적화되어 있어 메모리, 지연 및 에너지 예산을 엄격하게 고려하며 작동한다.

2025년 10월 11일 오전 12시 54분
구글, 광고 데이터에 대한 LLM-Native 액세스를 제공하는 Google Ads API용 MCP 서버 오픈 소스화

구글은 Model Context Protocol (MCP) 서버를 오픈소스로 공개했는데, 이를 통해 에이전틱 및 LLM 애플리케이션이 Google Ads API에 대한 읽기 전용 액세스를 얻을 수 있다. Python으로 구현된 googleads/google-ads-mcp 레포지토리는 GAQL 쿼리를 통한 광고 계정 검색 및 고객 리소스 열거를 지원한다.

2025년 10월 10일 오전 5시 34분
스탠포드 연구진이 발표한 AgentFlow: 모듈식, 도구 사용 AI 에이전트를 위한 In-the-Flow 강화 학습 RL

AgentFlow는 명시적 메모리와 도구 세트에 의해 조정되는 네 가지 모듈 – Planner, Executor, Verifier, Generator – 을 갖춘 훈련 가능한 에이전트 프레임워크이다. Planner는 Flow-GRPO라는 새로운 온-폴리시 방법을 통해 최적화되며 트라젝토리 수준의 결과 보상을 모든 턴에 방송하고 KL 정규화 및 그룹 정규화된 어드밴티지를 적용하는 토큰 수준의 PPO 스타일 업데이트를 수행한다.

2025년 10월 8일 오후 10시 25분
Salesforce AI Research, 양방향 병렬 토큰 생성을 통한 이산 확산 코드 모델인 CoDA-1.7B 발표

Salesforce AI Research가 CoDA-1.7B를 발표했다. 이는 양방향 컨텍스트를 사용하여 전체 시퀀스를 정제하고, 왼쪽에서 오른쪽으로 다음 토큰 예측이 아닌 병렬로 여러 토큰을 업데이트하는 코드용 확산 기반 언어 모델이다.

2025년 10월 5일 오후 7시 33분
작은 언어 모델이 코드로부터 커널 지연, 메모리 및 모델 정확도를 예측할 수 있을까? 새로운 회귀 언어 모델(RLM)이 그렇다고 말합니다

코넬과 구글의 연구진은 코드 문자열에서 직접 숫자 결과를 예측하는 통합 회귀 언어 모델(RLM)을 소개했습니다. 이 모델은 GPU 커널 지연, 프로그램 메모리 사용량, 심지어 신경망 정확도와 지연까지 손수 조작된 특성 없이 예측합니다. T5-Gemma에서 초기화된 300M 파라미터 인코더-디코더는 단일 텍스트-숫자 디코더를 사용하여 이질적 작업과 언어 간 강력한 순위 상관관계를 달성합니다.

2025년 10월 4일 오전 1시 58분
AWS, AI 에이전트 개발을 간소화하기 위해 Bedrock AgentCore용 MCP 서버 오픈 소스화

AWS가 Amazon Bedrock AgentCore를 위한 오픈소스 Model Context Protocol (MCP) 서버를 출시했는데, 이는 에이전트 IDE의 자연어 프롬프트에서 AgentCore Runtime에 배포 가능한 에이전트로의 직접 경로를 제공한다. 이 패키지는 일반적인 다단계 통합 작업을 대화형 명령으로 압축하는 데 사용된다.

2025년 10월 3일 오후 7시 31분
마이크로소프트, ‘마이크로소프트 에이전트 프레임워크’ 공개: 다중 에이전트 시스템의 오케스트레이션을 간소화하는 오픈소스 SDK 및 런타임

마이크로소프트가 공개한 ‘마이크로소프트 에이전트 프레임워크’는 오픈소스 SDK와 런타임으로, AutoGen과 Semantic Kernel의 핵심 아이디어를 통합하여 팀이 프로덕션급 AI 에이전트 및 다중 에이전트 워크플로를 구축, 배포 및 관찰할 수 있도록 도와줍니다. Python과 .NET용으로 제공되며 직접 통합됩니다.

2025년 10월 3일 오후 1시 49분
Thinking Machines, Tinker 출시: 분산 LLM 파인 튜닝을 숨기지 않고 추상화하는 저수준 학습 API

Thinking Machines사가 Tinker를 출시했다. Tinker는 연구원과 엔지니어들이 로컬에서 학습 루프를 작성하고 플랫폼이 관리되는 분산 GPU 클러스터에서 실행할 수 있는 파이썬 API이다. 데이터, 목표 및 최적화 단계의 완전한 제어를 유지하면서 스케줄링, 장애 허용 및 다중 노드 조율을 자동화한다.

2025년 10월 3일 오전 12시 49분
IBM, 혁신적인 하이브리드 Mamba-2/Transformer 아키텍처를 갖춘 Granite 4.0 모델 출시: 성능 희생 없이 메모리 사용량 대폭 감소

IBM은 Granite 4.0을 출시했는데, 이는 모노리딕 트랜스포머 대신 하이브리드 Mamba-2/Transformer 스택을 사용하여 서빙 메모리를 줄이고 품질을 유지한다. 다양한 사이즈의 모델들이 제공되며, 이들은 Apache-2.0로 공개되었다.

2025년 10월 2일 오후 6시 47분
ServiceNow AI, Apriel-1.5-15B-Thinker 공개: 싱글 GPU 예산으로 프론티어 수준 성능 달성하는 오픈 가중치 다중 모달 추론 모델

ServiceNow AI 연구소가 Apriel-1.5-15B-Thinker를 공개했다. 이 모델은 강화 학습이나 선호도 최적화 없이 데이터 중심 중간 학습 레시피로 훈련된 150억 개의 오픈 가중치 다중 모달 추론 모델로, 단일 GPU 예산에서 SOTA 대비 8배의 비용 절감으로 인공 분석 지능 지수 52를 달성한다.

2025년 10월 2일 오전 1시 05분
자연어 명령 및 대화형 시뮬레이션을 통한 지능적인 AI 데스크톱 자동화 에이전트 구축 방법?

구글 Colab에서 매끄럽게 실행되는 고급 AI 데스크톱 자동화 에이전트 구축 튜토리얼. 자연어 명령 해석, 파일 조작, 브라우저 작업, 워크플로우 등 데스크톱 작업 시뮬레이션 및 가상 환경을 통한 대화형 피드백 제공 설계.

2025년 9월 27일 오전 2시 40분
Hugging Face, Smol2Operator 발표: 2.2B VLM을 Agentic GUI 코더로 훈련시키는 완전 오픈소스 파이프라인

Hugging Face가 Smol2Operator를 발표했다. 이는 UI 경험이 없는 작은 Vision-Language 모델을 GUI 조작 및 도구 사용 에이전트로 변환하는 재현 가능한 레시피이다. 데이터 변환 유틸리티, 훈련 스크립트, 변환된 데이터셋, 2.2B-파라미터 모델 체크포인트 등을 제공하여 GUI 에이전트를 처음부터 구축하는 완벽한 청사진으로 소개되었다.

2025년 9월 26일 오후 4시 51분
CloudFlare AI 팀이 ‘VibeSDK’를 오픈소스로 공개, 한 번의 클릭으로 누구나 완전한 AI Vibe 코딩 플랫폼을 구축하고 배포할 수 있게 함

CloudFlare AI 팀이 VibeSDK를 오픈소스로 공개했다. 이는 한 번의 클릭으로 Cloudflare 네트워크나 GitHub Repo Fork에서 완전한 AI Vibe 코딩 플랫폼을 배포할 수 있는 것으로, 코드 생성, 안전한 실행, 실시간 미리보기, 다중 테넌트 배포를 패키징하여 팀이 인프라를 별도로 연결하지 않고 자체 내부 또는 고객을 대상으로 하는 AI 앱 빌더를 구동할 수 있게 한다.

2025년 9월 24일 오전 1시 11분
Parlant를 사용하여 신뢰할 수 있는 대화형 AI 에이전트 만드는 방법?

Parlant는 신뢰성이 높고 일관된 작동을 하는 AI 에이전트를 개발하는 데 도움을 주는 프레임워크이다. 대규모 언어 모델 에이전트를 배포할 때 발생하는 일반적인 문제를 해결하기 위해 설계되었으며, 시스템 프롬프트를 무시하거나 부정확하고 관련성 없는 응답을 생성하는 문제를 해결한다.

2025년 9월 22일 오후 11시 21분
H회사가 Holo1.5를 출시: GUI 로컬라이제이션 및 UI-VQA에 중점을 둔 오픈 웨이트 컴퓨터 사용 VLMs

H 회사가 Holo1.5를 출시했다. 이는 컴퓨터 사용을 위한 오픈 기반 비전 모델로, 실제 사용자 인터페이스에 스크린샷 및 포인터/키보드 조작을 통해 작동하는 CU 에이전트를 위해 설계되었다. 3B, 7B, 72B 체크포인트가 포함되어 있으며, 크기별로 Holo1 대비 약 10% 정확도 향상이 문서화되어 있다.

2025년 9월 18일 오전 4시 14분
구글 AI, 상인과 지갑 간 상호 운용 가능한 AI 에이전트 체크아웃을 위한 오픈 프로토콜 AP2 소개

구글의 Agent Payments Protocol (AP2)은 에이전트 주도의 결제를 위한 오픈, 상호 운용 가능한 명세서로, 사용자, 에이전트 개발자 또는 상인 중 누가 책임을 져야 하는지에 대한 불신이 해결됨.

2025년 9월 16일 오후 11시 21분
MoonshotAI, Checkpoint-Engine 출시: LLM 추론 엔진에서 모델 가중치 업데이트를 위한 간단한 미들웨어, 강화 학습에 효과적

MoonshotAI가 checkpoint-engine을 오픈소스로 공개했다. 이는 대규모 언어 모델(Large Language Model, LLM) 배포에서 주요 병목 현상 중 하나인 수천 개의 GPU에서 모델 가중치를 신속하게 업데이트하고 추론을 방해하지 않는 것을 목표로 한 경량 미들웨어이다. 라이브러리는 특히 강화 학습 및 강화 학습과 인간 피드백(RLHF)을 위해 설계되었으며, 모델이 빈번히 업데이트되고 다운타임이 발생하는 경우에 유용하다.

2025년 9월 16일 오전 2시 29분
NVIDIA AI가 ViPE(Video Pose Engine)를 오픈 소스로 공개: 공간 AI를 위한 강력하고 다재다능한 3D 비디오 주석 도구

NVIDIA의 연구진이 ViPE: 3D 기하학 인식을 위한 비디오 포즈 엔진을 공개했다. 이는 비용이 많이 드는 전통적인 방법 없이 로봇학을 위한 AI를 훈련하기 위한 3D 데이터셋을 어떻게 생성하는가에 대한 해결책으로, 3D 컴퓨터 비전 분야의 병목 현상을 해결한다.

2025년 9월 15일 오후 12시 43분
Meta AI가 MobileLLM-R1을 공개: 10억 개 이하의 파라미터를 가진 엣지 추론 모델이 다른 완전 오픈 소스 AI 모델보다 2배~5배의 성능 향상을 이룩

Meta가 MobileLLM-R1을 출시했습니다. 이는 Hugging Face에서 사용 가능한 가벼운 엣지 추론 모델로, 140M에서 950M의 파라미터를 가진 모델들이 포함되어 있습니다. 일반적인 챗봇 모델과는 달리 MobileLLM-R1은 엣지 배포용으로 설계되어 있어 최신 추론 정확도를 제공합니다.

2025년 9월 15일 오전 2시 34분
Google AI가 디퍼렌셜 프라이버시로 완전히 훈련된 1B-파라미터로 구축된 최대 및 가장 능력있는 오픈 모델인 VaultGemma 공개

구글 AI 연구팀과 딥마인드가 디퍼렌셜 프라이버시(DP)로 완전히 훈련된 최대 규모의 오픈 가중치 대형 언어 모델인 VaultGemma 1B를 공개했다. 이는 강력하면서도 프라이버시 보호가 가능한 AI 모델 구축으로 나아가는 중요한 한걸음이다.

2025년 9월 13일 오전 3시 54분
IBM AI 연구팀, ModernBERT 아키텍처 기반 두 개의 영어 Granite 임베딩 모델 공개

IBM은 고성능 검색 및 RAG 시스템용으로 설계된 두 개의 새로운 임베딩 모델, granite-embedding-english-r2와 granite-embedding-small-english-r2를 소개했다. 이 모델들은 효율적이고 소형이며 Apache 2.0 라이선스로 제공된다.

2025년 9월 12일 오후 11시 50분
BentoML이 llm-optimizer를 발표: LLM 추론의 벤치마킹과 최적화를 위한 오픈 소스 AI 도구

BentoML은 llm-optimizer를 출시했는데, 이는 self-hosted large language models (LLMs)의 벤치마킹과 성능 튜닝을 간소화하기 위해 설계된 오픈 소스 프레임워크이다. 이 도구는 LLM 배포에서의 최적의 구성을 찾는 것과 같은 일반적인 도전에 대처하며, 수동 시행착오 없이 지연 시간, 처리량 및 비용에 대한 최적화된 구성을 찾는 데 도움을 준다.

2025년 9월 12일 오전 3시 23분
MBZUAI 연구진, K2 Think 공개: 고급 AI 추론을 위한 32B 오픈소스 시스템 출시 및 20배 큰 추론 모델보다 우수한 성능 발휘

MBZUAI의 연구진이 고급 AI 추론을 위한 32B-파라미터 오픈 추론 시스템 K2 Think을 발표했다. 이 시스템은 강화 학습, 테스트 시 스케일링, 추론 최적화 등을 결합하여 선두적인 성능을 보여준다.

2025년 9월 9일 오후 3시 53분
GibsonAI가 Memori를 공개: AI 에이전트를 위한 오픈 소스 SQL 네이티브 메모리 엔진

메모리는 인간 지능을 생각할 때 먼저 떠오르는 중요한 부분이다. 경험으로부터 배우고 새로운 상황에 적응하며 시간이 흐름에 따라 더 나은 결정을 내릴 수 있게 해준다. 이와 유사하게 AI 에이전트도 메모리를 통해 더 똑똑해진다. GibsonAI가 AI 에이전트를 위한 오픈 소스 SQL 네이티브 메모리 엔진 Memori를 출시했다.

2025년 9월 8일 오후 3시 02분
Tilde AI, TildeOpen LLM 공개: 300억개 이상의 파라미터를 가진 오픈 소스 대규모 언어 모델, 대부분의 유럽어 지원

Tilde AI가 TildeOpen LLM을 공개했다. 이 모델은 300억개 이상의 파라미터를 가지며 유럽어에 특화되어 있어 소수 언어에도 주목한다. EU 내 언어 균형과 디지털 주권을 강화하는 전략적인 발전이다.

2025년 9월 7일 오전 1시 34분
Hugging Face, 새로운 비전-언어 모델 학습용 2천400만 샘플을 포함한 멀티모달 데이터셋 FineVision 오픈 소스화

Hugging Face가 FineVision을 공개했다. 이 데이터셋은 17.3백만 개의 이미지, 24.3백만 개의 샘플, 88.9백만 개의 질문-답변 쌍, 약 100억 개의 응답 토큰을 보유하며 비전-언어 모델(VLMs) 학습을 위한 최대 규모의 구조화된 데이터셋 중 하나로 손꼽힌다.

2025년 9월 6일 오전 4시 05분
Elysia 만나보기: 의사결정 트리와 더 똑똑한 데이터 처리로 Agentic RAG 시스템 재정의하는 새로운 오픈소스 파이썬 프레임워크

Elysia는 의사결정 트리와 더 똑똑한 데이터 처리를 통해 Agentic RAG 시스템을 새롭게 정의하는 오픈소스 파이썬 프레임워크입니다.

2025년 9월 1일 오후 11시 03분
NVIDIA AI가 공개한 Jet-Nemotron: 추론 규모에서 98% 비용 절감을 가능케 하는 53배 빠른 하이브리드 아키텍처 언어 모델 시리즈

NVIDIA 연구자들이 대형 언어 모델 추론의 효율성 장벽을 깨고, Jet-Nemotron을 공개했는데 이 모델 시리즈는 선도적인 LLM보다 최대 53.6배 높은 생성 처리량을 제공하면서 정확도를 유지하거나 능가한다. 이는 새로운 사전 훈련을 통해 이루어진 것이 아니라는 점이 가장 중요하다.

2025년 8월 26일 오후 9시 03분
SEA-LION v4: 동남아시아를 위한 다중언어 모델링

AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.

2025년 8월 25일 오후 12시 16분
DeepSeek-V3.1가 무엇이며 왜 모두가 그에 대해 이야기하는가?

중국 AI 스타트업인 DeepSeek가 최신 주력 언어 모델인 DeepSeek-V3.1을 발표했다. DeepSeek-V3의 아키텍처를 기반으로 하여 추론, 도구 사용, 코딩 성능을 중요하게 향상시켰다. 이 모델은 저렴한 비용으로 OpenAI 및 Anthropic 수준의 성능을 제공하여 급속하게 명성을 얻고 있다.

2025년 8월 21일 오전 4시 44분
DeepCode: 연구 논문과 기술 문서를 제품용 코드로 변환하는 오픈 에이전틱 코딩 플랫폼

홍콩 대학 연구진이 출시한 DeepCode는 다중 에이전트 AI 시스템을 활용하여 연구 논문 해석부터 코딩 프로세스를 자동화하는 “오픈 에이전틱 코딩” 패러다임을 제안한다.

2025년 8월 21일 오전 3시 58분
Liquid AI, LFM2-VL 출시: 저지연 및 장치 인식 배포용 초고속 오픈가중치 비전-언어 모델

Liquid AI사가 저지연, 장치 내 배포를 위해 최적화된 새로운 비전-언어 기반 모델인 LFM2-VL을 공식 출시했다. LFM2-VL-450M 및 LFM2-VL-1.6B 두 가지 효율적인 변형으로, 스마트폰, 노트북, 웨어러블 및 임베디드 시스템에 다중 모달 AI를 속도나 정확도를 희생하지 않고 도입하는 중요한 발전을 이루었다.

2025년 8월 20일 오후 8시 21분
NVIDIA AI, Nemotron Nano 2 AI 모델 출시: 제품용 기업 AI 모델 패밀리, 유사 크기 모델보다 6배 빠름

NVIDIA가 Nemotron Nano 2 패밀리를 공개했는데, 이는 최첨단 추론 정확도를 끌어올리는 하이브리드 Mamba-Transformer 대형 언어 모델을 소개하며 유사한 크기의 모델보다 최대 6배 높은 추론 처리량을 제공합니다. 이 릴리스는 데이터 및 방법론에 대한 전례없는 투명성으로 눈에 띕니다.

2025년 8월 19일 오후 1시 40분
OpenAI, 열풍을 일으키는 최신 오픈 가중치 LLMs 공개: gpt-oss-120B (고성능 노트북에서 실행) 및 gpt-oss-20B (휴대폰에서 실행)

OpenAI가 GPT-2 이후 처음으로 오픈 가중치 언어 모델 두 개를 공개했다. gpt-oss-120b와 gpt-oss-20b는 누구나 다운로드하고 검토하며 자신의 하드웨어에서 실행할 수 있는 모델이다. 이 런칭은 AI 세계를 바꾸는 중요한 사건으로 평가된다.

2025년 8월 5일 오후 7시 53분
AgentSociety: 대규모 사회 상호작용 시뮬레이션을 위한 LLM 에이전트를 활용한 오픈 소스 AI 프레임워크

AgentSociety는 대규모 에이전트 모집단을 시뮬레이션하는 첨단 오픈 소스 프레임워크로, 각각의 에이전트는 대형 언어 모델 (LLM)에 의해 구동되어 인간 사회에서 발견되는 복잡한 상호작용을 현실적으로 모델링합니다. Ray와 같은 강력한 분산 처리 기술을 활용하여 이 프로젝트는 실제로 수만 명의 활성화된 에이전트로 구성된 시뮬레이션을 달성하며, 각각의 에이전트는 자세하고 현실적인 환경에 내재되어 있습니다.

2025년 7월 31일 오후 5시 12분
Amazon Strands Agents SDK: 에이전트 아키텍처와 관측 가능성에 대한 기술적인 심층 탐구

Amazon Strands Agents SDK는 AWS 환경과 통합되어 안전하고 확장 가능한 배포를 제공하며, 생산 환경에서 풍부한 관측 가능성을 제공합니다. 실용적인 사용 사례를 살펴보고 Strands를 활용한 단계별 예시를 제시합니다.

2025년 7월 31일 오후 12시 22분AWS Blog
AI 시스템 보호: NVIDIA의 오픈소스 안전 레시피

대형 언어 모델이 단순 텍스트 생성기에서 계획 수립, 추론, 자율 조치가 가능한 시스템으로 진화함에 따라 능력과 관련 위험이 증가하고 있다. 기업들이 자동화를 위해 AI를 채택하면서 목표 불일치, 프롬프트 주입, 의도치 않은 행동, 데이터 누출과 같은 새로운 도전에 직면하게 된다.

2025년 7월 29일 오전 1시 58분
TikTok 연구원들, 저장소 수준 코드 성능 최적화를 위한 최초의 벤치마크 ‘SWE-Perf’ 소개

TikTok과 협력 기관의 연구원들이 소프트웨어 엔지니어링 작업에서 대형 언어 모델(LLMs)이 성능 최적화를 어떻게 하는지를 평가하는 데 특히 저장소 수준에서 처음으로 설계된 벤치마크 ‘SWE-Perf’를 소개했다.

2025년 7월 21일 오전 4시 56분
NVIDIA AI, OpenReasoning-Nemotron 출시: DeepSeek R1 0528에서 유래된 추론 강화 LLMs 스위트

NVIDIA AI가 복잡한 추론 작업에서 뛰어난 성과를 내는 대규모 언어 모델인 OpenReasoning-Nemotron을 소개했다. 이 모델 스위트는 1.5B, 7B, 14B 및 32B 매개변수 버전으로 구성되어 있으며, 671B DeepSeek R1 0528 모델에서 추론 능력을 캡처하여 훨씬 작고 효율적인 모델로 압축했다.

2025년 7월 20일 오전 12시 38분
NVIDIA AI가 DiffusionRenderer를 공개: 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 위한 AI 모델

AI 기반 비디오 생성 기술이 빠르게 발전하고 있으며, NVIDIA의 DiffusionRenderer는 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 생성하는 AI 모델을 소개했다. 이 모델은 놀라운 현실감을 가진 비디오를 생성하는 능력을 갖추고 있다. 그러나 이제는 전문적이고 현실적인 편집 기능이 추가되어 사용자가 비디오를 보다 전문적으로 수정할 수 있다.

2025년 7월 10일 오후 5시 25분
구글 AI가 스켈러블 다중 모달 의학 추론을 위해 MedGemma 27B와 MedSigLIP를 오픈 소스로 공개

구글 DeepMind와 구글 연구가 MedGemma 우산 아래 두 가지 새로운 모델을 소개했습니다. MedGemma 27B는 대규모 비전-언어 기반 모델이며 MedSigLIP는 가벼운 의학 이미지-텍스트 인코더입니다. 이들은 건강 인공지능 분야에서 가장 능력있는 오픈 소스 모델입니다.

2025년 7월 10일 오전 3시 35분
Microsoft, 모든 개발자를 위해 GitHub Copilot 채팅 익스텐션 무료로 공개

Microsoft이 AI 기반 코딩 어시스턴트인 GitHub Copilot 채팅 익스텐션을 모든 개발자에게 무료로 공개했다. 이전에는 구독이 필요했던 기능이 이제 MIT 라이선스로 공개되어 누구나 사용 가능하다.

2025년 7월 9일 오전 3시 19분
Hugging Face, SmolLM3 공개: 3B 길이의 다국어 추론 모델

Hugging Face가 SmolLM3을 공개했다. 3B 파라미터 아키텍처를 사용하여 강력한 다국어 추론을 제공하며 상태-of-the-art 성능을 획득하였다. 더 적은 파라미터로 비용 효율적이고 제약된 환경에서도 배포 가능하다.

2025년 7월 8일 오후 9시 04분