2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.
2026년 3월 5일 오전 12시 55분
구글이 Gemini 3.1 Flash-Lite를 공개했다. 고성능 작업에 최적화된 이 모델은 낮은 지연시간과 토큰 당 비용을 중점으로 고안되었다. 현재 Gemini API 및 Vertex AI를 통해 Public Preview로 이용 가능하다.
2026년 3월 3일 오후 1시 28분
Generative AI의 발전은 잠재 확산 모델(LDMs)에 많이 의존하고 있습니다. 잠재 공간으로 데이터를 압축함으로써 모델이 효과적으로 확장될 수 있습니다. 그러나 낮은 정보 밀도는 잠재 변수를 학습하기 쉽게 만들지만 재구성 품질을 희생시키는 기본적인 트레이드오프가 존재합니다.
2026년 2월 27일 오후 10시 58분
Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.
2026년 2월 26일 오후 11시 01분
Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.
2026년 2월 25일 오전 3시 37분
알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.
2026년 2월 24일 오후 2시 33분
Zyphra가 EEG 신호에 특화된 380M 파라미터 foundation 모델인 ZUNA를 공개했다. ZUNA는 채널 인필링과 초해상도를 수행하는 마스크된 확산 오토인코더로, Apache-2.0 라이선스 하에 가중치가 포함되어 있다.
2026년 2월 19일 오전 1시 43분
Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 '거친 계곡'을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.
2026년 2월 18일 오후 6시 12분
Cohere AI Labs가 Tiny Aya를 발표했습니다. Tiny Aya는 70개 언어를 지원하며 3.35B-파라미터 아키텍처를 사용하여 최신 번역 및 생성 기능을 제공합니다. 이 릴리스에는 Tiny Aya Base(사전 훈련), Tiny Aya Global(균형 조정된 지시) 등 5가지 모델이 포함되어 있습니다.
2026년 2월 18일 오전 1시 33분
구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, '에이전틱 웹'이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.
2026년 2월 16일 오전 2시 04분
Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.
2026년 2월 13일 오후 1시 05분
NVIDIA의 C-RADIOv4는 SigLIP2, DINOv3, SAM3을 하나의 비전 백본으로 통합하여 밀집 또는 세분화 성능을 희생하지 않고 결합하는 방법에 대해 소개합니다. 이 모델은 세 강력한 선생님 모델을 학생 인코더로 결합하여 AM-RADIO 및 RADIOv2.5 라인을 확장하며 계산 비용을 유지하면서 성능을 향상시킵니다.
2026년 2월 6일 오후 7시 31분
Anthropic사는 Claude Opus 4.6을 출시했다. 이 모델은 장기적인 콘텍스트 추론, 에이전트식 코딩 및 고가치 지식 작업에 중점을 둔 최신 모델이다. 이 모델은 클로드 API 및 주요 클라우드 제공업체에서 이용 가능하다.
2026년 2월 5일 오후 5시 34분
구글의 Gemini 3 플래시에서 새로운 에이전틱 비전 기능인 Agentic Vision이 소개되었습니다. 기존의 이미지 처리 모델들과는 달리 이 기능은 이미지 이해를 더 활발하게 수행하며 시각적 기반의 액티브 루프로 작동합니다.
2026년 2월 4일 오후 3시 16분
Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.
2026년 2월 3일 오후 3시 47분
Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.
2026년 1월 30일 오후 8시 53분

최신뉴스 전체보기

YuanLab AI, 강력한 지능과 탁월한 효율성을 위해 만들어진 플래그십 멀티모달 MoE Foundation 모델인 Yuan 3.0 Ultra 공개

YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.

2026년 3월 5일 오전 12시 55분
구글, 고성능 AI를 위한 비용 효율적인 Gemini 3.1 Flash-Lite 공개

구글이 Gemini 3.1 Flash-Lite를 공개했다. 고성능 작업에 최적화된 이 모델은 낮은 지연시간과 토큰 당 비용을 중점으로 고안되었다. 현재 Gemini API 및 Vertex AI를 통해 Public Preview로 이용 가능하다.

2026년 3월 3일 오후 1시 28분
구글 딥마인드가 통합 잠재 변수 (UL)를 소개합니다: 확산 사전과 디코더를 사용하여 잠재 변수를 공동으로 규제하는 머신러닝 프레임워크

Generative AI의 발전은 잠재 확산 모델(LDMs)에 많이 의존하고 있습니다. 잠재 공간으로 데이터를 압축함으로써 모델이 효과적으로 확장될 수 있습니다. 그러나 낮은 정보 밀도는 잠재 변수를 학습하기 쉽게 만들지만 재구성 품질을 희생시키는 기본적인 트레이드오프가 존재합니다.

2026년 2월 27일 오후 10시 58분
Perplexity, 새로운 SOTA Qwen3 양방향 임베딩 모델 pplx-embed를 출시

Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.

2026년 2월 26일 오후 11시 01분
Liquid AI의 새로운 LFM2-24B-A2B 하이브리드 아키텍처는 최신 LLM의 확장 병목 현상을 해결하기 위해 주의와 합성을 결합함

Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.

2026년 2월 25일 오전 3시 37분
알리바바 Qwen 팀, Qwen 3.5 중간 모델 시리즈 출시: 더 작은 AI 모델이 더 똑똑함을 증명하는 생산 성능 중심

알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.

2026년 2월 24일 오후 2시 33분
Zyphra가 EEG 데이터용 380M 파라미터 BCI Foundation 모델인 ZUNA 발표, 비침습적 사고를 텍스트로 발전시킴

Zyphra가 EEG 신호에 특화된 380M 파라미터 foundation 모델인 ZUNA를 공개했다. ZUNA는 채널 인필링과 초해상도를 수행하는 마스크된 확산 오토인코더로, Apache-2.0 라이선스 하에 가중치가 포함되어 있다.

2026년 2월 19일 오전 1시 43분
Tavus가 Phoenix-4를 출시: 실시간 감성 지능과 생성 비디오 AI에 서브-600ms 지연 시간을 제공하는 가우시안 확산 모델

Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 ‘거친 계곡’을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.

2026년 2월 18일 오후 6시 12분
Cohere가 Tiny Aya를 출시: 70개 언어를 지원하고 폰에서도 로컬로 실행되는 3B-파라미터 소형 언어 모델

Cohere AI Labs가 Tiny Aya를 발표했습니다. Tiny Aya는 70개 언어를 지원하며 3.35B-파라미터 아키텍처를 사용하여 최신 번역 및 생성 기능을 제공합니다. 이 릴리스에는 Tiny Aya Base(사전 훈련), Tiny Aya Global(균형 조정된 지시) 등 5가지 모델이 포함되어 있습니다.

2026년 2월 18일 오전 1시 33분
구글 딥마인드, 미래 경제를 위한 신흥 에이전틱 웹을 안전하게 하는 지능적 AI 위임을 위한 새로운 프레임워크 제안

구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, ‘에이전틱 웹’이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.

2026년 2월 16일 오전 2시 04분
Kyutai가 Hibiki-Zero를 발표: GRPO 강화 학습을 사용한 A3B 매개 변수 동시 음성 대 음성 번역 모델, 어떤 단어 수준의 정렬 된 데이터도 필요하지 않음

Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.

2026년 2월 13일 오후 1시 05분
NVIDIA AI, 분류, 밀집 예측, 세분화 작업에 대한 C-RADIOv4 비전 백본 출시

NVIDIA의 C-RADIOv4는 SigLIP2, DINOv3, SAM3을 하나의 비전 백본으로 통합하여 밀집 또는 세분화 성능을 희생하지 않고 결합하는 방법에 대해 소개합니다. 이 모델은 세 강력한 선생님 모델을 학생 인코더로 결합하여 AM-RADIO 및 RADIOv2.5 라인을 확장하며 계산 비용을 유지하면서 성능을 향상시킵니다.

2026년 2월 6일 오후 7시 31분
Anthropic, 1백만 개의 콘텍스트, 에이전틱 코딩, 적응적 추론 제어 및 확장된 안전 도구 기능을 갖춘 Claude Opus 4.6 출시

Anthropic사는 Claude Opus 4.6을 출시했다. 이 모델은 장기적인 콘텍스트 추론, 에이전트식 코딩 및 고가치 지식 작업에 중점을 둔 최신 모델이다. 이 모델은 클로드 API 및 주요 클라우드 제공업체에서 이용 가능하다.

2026년 2월 5일 오후 5시 34분
구글, 액티브 이미지 이해를 위해 Gemini 3 플래시에 에이전틱 비전 소개

구글의 Gemini 3 플래시에서 새로운 에이전틱 비전 기능인 Agentic Vision이 소개되었습니다. 기존의 이미지 처리 모델들과는 달리 이 기능은 이미지 이해를 더 활발하게 수행하며 시각적 기반의 액티브 루프로 작동합니다.

2026년 2월 4일 오후 3시 16분
Qwen 팀, 코딩 에이전트 및 로컬 개발을 위해 특별히 설계된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시

Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.

2026년 2월 3일 오후 3시 47분
Robbyant, LingBot World를 오픈 소스로 공개: 대화형 시뮬레이션과 실제 AI를 위한 실시간 세계 모델

Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.

2026년 1월 30일 오후 8시 53분
안트 그룹이 LingBot-VLA를 발표, 현실 세계 로봇 조작을 위한 비전 언어 액션 기반 모델

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

2026년 1월 29일 오후 7시 02분
MBZUAI, K2 Think V2 발표: 수학, 코드, 과학을 위한 완전한 주권을 갖춘 70B 추론 모델

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.

2026년 1월 28일 오후 4시 17분
DSGym는 데이터 과학 에이전트를 구축하고 평가하기 위한 재사용 가능한 컨테이너 기반 기본체를 제공합니다

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.

2026년 1월 27일 오후 2시 52분
StepFun AI가 소개한 Step-DeepResearch: 원자적 능력을 중심으로 구축된 비용 효율적인 심층 연구 에이전트 모델

StepFun은 웹 검색을 실제 연구 워크플로우로 변환하는데 목표를 둔 32B 파라미터 엔드 투 엔드 심층 연구 에이전트 Step-DeepResearch를 소개했다. 모델은 Qwen2.5 32B-Base 위에 구축되었으며 장기적인 추론, 도구 사용 및 구조화된 보고를 통한 웹 검색을 연구로 전환한다.

2026년 1월 25일 오후 4시 08분
FlashLabs 연구원들, Chroma 1.0 공개: 개인화 음성 클로닝을 지원하는 4B 실시간 음성 대화 모델

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.

2026년 1월 22일 오전 11시 22분
Liquid AI, 1.2B 파라미터 추론 모델 ‘LFM2.5-1.2B-Thinking’ 출시: 기기 내 1GB 미만 용량

Liquid AI가 1.2B 파라미터 추론 모델 ‘LFM2.5-1.2B-Thinking’을 출시했다. 최신 폰에서 약 900MB 용량으로 완전히 기기 내에서 실행되며, 구조화된 추론 트레이스, 도구 사용, 수학에 중점을 둔다.

2026년 1월 21일 오후 12시 43분
Zhipu AI, 효율적인 로컬 코딩 및 에이전트용 30B-A3B MoE 모델인 GLM-4.7-Flash 발표

Zhipu AI가 GLM-4.7-Flash를 발표했다. 이 모델은 로컬에서 실행하기에 실용적이며 강력한 코딩 및 추론 성능을 원하는 개발자들을 대상으로 한다. 30B-A3B MoE 모델로, 30B 클래스에서 가장 강력한 모델로 경량 배포를 위해 설계되었다.

2026년 1월 21일 오전 4시 54분
Microsoft Research, OptiMind 출시: 자연어를 솔버용 최적화 모델로 변환하는 20B 파라미터 모델

Microsoft Research가 OptiMind를 출시했다. 이는 자연어로 된 복잡한 의사결정 문제를 최적화 솔버가 실행할 수 있는 수학적 공식으로 변환하는 AI 기반 시스템이다. 이는 전문가 모델러와 수일간의 작업이 필요했던 오퍼레이션 리서치의 병목 현상을 해결한다.

2026년 1월 20일 오후 1시 06분
NVIDIA, 자연스럽고 풀 더플렉스 대화를 위한 PersonaPlex-7B-v1 발표

NVIDIA의 연구진이 PersonaPlex-7B-v1을 발표했는데, 이는 자연스러운 음성 상호작용을 위한 풀 더플렉스 대화 모델로, 정확한 페르소나 제어를 목표로 한다. ASR→LLM→TTS에서 단일 풀 더플렉스 모델로 진화했다. 기존 음성 어시스턴트는 ASR이 음성을 텍스트로 변환하고, 언어 모델이 텍스트 답변을 생성한 후, 텍스트를 음성으로 변환한다.

2026년 1월 18일 오후 3시 48분
구글 AI가 개발자들을 위한 오픈 메디컬 AI 모델인 MedGemma-1.5를 최신 업데이트

구글 AI 연구팀이 MedGemma-1.5를 발표했다. 이 모델은 의료 영상, 텍스트 및 음성 시스템을 구축하고 지역 워크플로와 규정에 적응하려는 개발자들을 위한 오픈 출발점으로 제공된다.

2026년 1월 14일 오후 4시 30분
LLM 시대의 AI 관측성 층 이해하기

AI 관측성은 AI 시스템을 이해하고 모니터링하며 고유한 메트릭을 추적하여평가하는 능력을 의미합니다. 대형 언어 모델(LLMs) 및 다른 생성형 AI 응용 프로그램은 확률적이므로 고정된 투명한 실행 경로를 따르지 않습니다.

2026년 1월 13일 오후 11시 37분
TII 아부다비가 Falcon H1R-7B를 출시: 7B 파라미터로 256k 컨텍스트 창을 갖춘 다른 모델들을 능가하는 새로운 추론 모델

TII 아부다비가 Falcon-H1R-7B를 발표했습니다. 이 모델은 7B 파라미터로 수학, 코딩 및 일반 벤치마크에서 많은 14B에서 47B 모델을 능가하면서도 효율적이고 효율적입니다.

2026년 1월 7일 오후 9시 12분
MIT의 청사진에서 Prime Intellect의 RLMEnv로: 장기간 LLM 에이전트를 위한 Recursive Language Models (RLMs)

Recursive Language Models는 대규모 언어 모델에서 일반적으로 발생하는 문맥 길이, 정확도 및 비용 사이의 상충 관계를 깨려고 한다. RLM은 모델이 하나의 거대한 프롬프트를 한 번에 읽도록 강요하는 대신, 프롬프트를 외부 환경으로 취급하고 모델이 코드로 어떻게 조사할지 결정한 다음 재귀적으로 호출한다.

2026년 1월 3일 오전 5시 54분
LLMRouter 만나보기: 각 쿼리에 가장 적합한 모델을 동적으로 선택하여 LLM 추론 최적화하는 지능형 라우팅 시스템

LLMRouter는 일리노이스 대학교 어바나 샴페인 캠퍼스의 U Lab에서 개발된 오픈 소스 라우팅 라이브러리로, 각 쿼리에 대해 작업 복잡성, 품질 목표 및 비용을 기반으로 모델을 선택하여 모델 선택을 시스템 문제로 취급합니다.

2025년 12월 30일 오후 5시 52분
Gemma 3 270M에서 FunctionGemma까지, Google AI가 엣지 워크로드를 위한 소형 함수 호출 전문가를 어떻게 만들었는가

구글이 FunctionGemma를 출시했다. Gemma 3 270M 모델을 기반으로 훈련된 이 모델은 함수 호출을 위해 특별히 설계되었고 자연어를 실행 가능한 API 액션으로 매핑하는 엣지 에이전트로 작동한다.

2025년 12월 27일 오전 4시 26분
구글 헬스 AI가 MedASR을 공개: 임상 사전작성을 위한 콘포머 기반 의료 음성 대본 모델

구글 헬스 AI 팀이 MedASR을 공개했다. MedASR은 임상 사전작성과 의사-환자 대화를 대상으로 한 오픈 가중치 의료 음성 대본 모델로, 현대 AI 워크플로에 직접 통합될 수 있도록 설계되었다. MedASR은 Conformer 아키텍처를 기반으로 한 음성 대본 모델이다.

2025년 12월 24일 오후 1시 10분
구글 딥마인드 연구원들, Gemma 3 모델을 위한 풀 스택 해석성 스위트 Gemma Scope 2 공개

구글 딥마인드 연구원들이 Gemma Scope 2를 소개했다. 이는 Gemma 3 언어 모델이 270M에서 27B 파라미터에 이르는 모든 레이어에서 정보를 처리하고 표현하는 방법을 노출하는 해석성 도구 모음이다. 주요 목표는 AI 안전 및 정렬 팀들이 모델 동작을 내부 기능으로 역추적할 수 있는 실용적인 방법을 제공하는 것이다.

2025년 12월 23일 오후 1시 39분
NVIDIA AI가 Nemotron 3를 발표: 긴 문맥을 위한 하이브리드 Mamba Transformer MoE 스택

NVIDIA가 Nemotron 3 패밀리를 발표했는데, 이는 agentic AI를 위한 완전한 스택으로, 모델 가중치, 데이터셋 및 강화 학습 도구를 포함한다. 이 패밀리는 Nano, Super, Ultra 세 가지 크기로 나뉘어 있으며, 긴 문맥 추론과 추론 비용에 엄격한 제어가 필요한 다중 에이전트 시스템을 대상으로 한다.

2025년 12월 21일 오전 5시 34분
구글, SigLIP 및 128K 컨텍스트를 통해 다중모달 입력을 사용하는 T5Gemma 2: 인코더 디코더 모델 소개

구글이 T5Gemma 2를 발표했다. Gemma 3 사전 훈련 가중치를 인코더-디코더 레이아웃으로 적응시킨 후, UL2 목적으로 사전 훈련을 계속했다. 개발자들을 위해 사전 훈련된 상태로 제공되며 특정 작업을 위해 추가 훈련할 수 있도록 의도되었다.

2025년 12월 19일 오후 10시 12분
Unsloth AI와 NVIDIA가 혁신적인 로컬 LLM Fine-Tuning을 혁신하고 있습니다: RTX 데스크탑부터 DGX Spark까지

Unsloth와 NVIDIA는 RTX 데스크탑부터 DGX Spark까지 NVIDIA RTX AI PC를 사용하여 인기 있는 AI 모델을 빠르게 Fine-tuning하여 코딩, 창의적 작업 및 복잡한 업무에 맞는 맞춤형 어시스턴트를 구축할 수 있습니다.

2025년 12월 19일 오후 12시 57분
Thinking Machines Lab, Tinker를 일반적으로 사용 가능하게 만들며 Kimi K2 Thinking과 Qwen3-VL Vision Input을 추가

Thinking Machines Lab은 Tinker 훈련 API를 일반적으로 사용 가능하게 하고, Kimi K2 Thinking 추론 모델 지원, OpenAI 호환 샘플링, Qwen3-VL 비전 언어 모델을 통한 이미지 입력을 추가했습니다. AI 엔지니어들에게는 분산 훈련을 구축하지 않고도 선두 모델을 세밀하게 조정할 수 있는 실용적인 방법으로 변모시켰습니다.

2025년 12월 17일 오후 1시 36분
머신 러닝의 양극화: Marktechpost의 최신 ML 글로벌 영향 보고서, ML 도구 원산지와 연구 채택 사이의 지리적 불균형 밝혀

Marktechpost의 ML 글로벌 영향 보고서에 따르면, ML 도구의 원산지와 연구 채택 사이에 지리적 불균형이 있음을 밝혀냄. 125개국에서 발표된 5,000여편의 논문을 분석한 결과, 특정 연구 영역에서의 불균형을 보여줌.

2025년 12월 12일 오전 2시 56분
Mistral AI, Devstral 2 코딩 모델 및 Mistral Vibe CLI 출시

Mistral AI가 소프트웨어 엔지니어링 에이전트를 위한 다음 세대 코딩 모델인 Devstral 2 및 터미널 또는 Agent Communication Protocol을 지원하는 IDE 내에서 실행되는 오픈 소스 명령줄 코딩 도우미인 Mistral Vibe CLI를 소개했습니다.

2025년 12월 10일 오후 2시 19분
Apple 연구자들, 16배 – 128배 시멘틱 문서 압축을 위한 Continuous Latent Reasoning 프레임워크 CLaRa 발표

Apple과 에든버러 대학의 연구팀이 CLaRa를 발표했다. CLaRa는 연속 잠재 추론을 사용하여 시멘틱 문서를 압축하는 기능을 제공한다.

2025년 12월 6일 오전 5시 20분
NVIDIA와 Mistral AI, GB200 NVL72 GPU 시스템에서 Mistral 3 패밀리를 위한 10배 빠른 추론 속도 제공

NVIDIA와 Mistral AI의 전략적 협력 확대로 Mistral 3 패밀리의 새로운 모델 출시와 함께 추론 속도가 10배 향상되었다. 이는 하드웨어 가속화와 오픈 소스 모델 아키텍처가 만나 성능 기준을 재정의한 중대한 순간이다.

2025년 12월 3일 오전 11시 26분
DeepSeek 연구자들, 장문맥 추론과 에이전트 워크로드를 위한 DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale 소개

DeepSeek 연구팀이 DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale을 소개했다. 이 모델들은 에이전트를 위한 고품질 추론, 장문맥, 에이전트 워크플로우를 지향하며 열린 가중치와 제품 API를 갖췄다.

2025년 12월 2일 오전 9시 53분
MiniMax-M2: 상호 작용적 사고에 대한 에이전틱 코딩 워크플로에 대한 기술적 탐구

MiniMax-M2는 AI 코딩 환경을 혁신하며, 고성능이 높은 비용이나 레이턴시로 이어지는 문제를 해결한다. 이 기사는 MiniMax-M2에 대한 기술적 개요를 제공한다.

2025년 12월 2일 오전 2시 23분
DeepSeek AI, DeepSeekMath-V2 발표: 2024년 Putnam 대회에서 118/120점 획득한 오픈 웨이트 수학 모델

DeepSeek AI가 공개 가중치 대규모 언어 모델인 DeepSeekMath-V2를 발표했다. 이 모델은 자연어 정리를 최적화하고 자가 검증을 통해 자신의 추론이 올바른지 확인하면서 복잡한 올림피아드 수학 문제를 해결할 수 있다.

2025년 11월 28일 오후 6시 35분
텐센트 훈유안, HunyuanOCR 공개: 1B 파라미터 엔드 투 엔드 OCR 전문가 VLM

텐센트 훈유안이 OCR 및 문서 이해를 위해 특화된 1B 파라미터 비전 언어 모델인 HunyuanOCR을 공개했다. 이 모델은 멀티모달 아키텍처를 기반으로 하며, 스포팅, 파싱, 정보 추출, 시각적 질문 응답 및 텍스트 이미지 번역을 단일 엔드 투 엔드 파이프라인을 통해 실행한다.

2025년 11월 27일 오전 4시 07분
Allen Institute for AI (AI2)가 Dolma 3 및 Dolci 스택에서 구축된 오픈 소스 7B 및 32B LLM 패밀리인 Olmo 3를 소개합니다

Allen Institute for AI (AI2)가 오픈 소스로 출시한 Olmo 3는 전체 ‘모델 플로우’를 노출하는데, 원시 데이터 및 코드부터 중간 체크포인트 및 배포 준비 모델까지 포함하고 있습니다. Olmo 3은 7B 및 32B 파라미터 모델을 갖춘 밀도 변환기 스위트입니다.

2025년 11월 21일 오후 12시 07분
Uni-MoE-2.0-Omni: 텍스트, 이미지, 오디오 및 비디오 이해를 위한 오픈 Qwen2.5-7B 기반 Omnimodal MoE

Uni-MoE-2.0-Omni은 텍스트, 이미지, 오디오, 비디오를 신뢰성 있게 이해하는 오픈 모델로, 하비른 공과대학의 연구진이 소개했다. 이 시스템은 언어 중심의 다중 모달 추론을 위해 Lychee의 Uni-MoE 라인을 발전시킨 것으로, 효율적으로 운영된다.

2025년 11월 18일 오후 3시 56분
MBZUAI 연구자들이 PAN을 소개: 상호작용 가능한 장기 시뮬레이션을 위한 일반적인 세계 모델

MBZUAI의 연구진이 PAN이라는 새로운 모델을 소개했다. 이 모델은 시간이 지남에 따라 도착하는 작업에 따라 지속되는 내부 세계 상태를 유지하지 않는 대부분의 텍스트에서 비디오 모델과는 달리, 상호작용 가능한 일반적인 세계 모델로 작용하도록 설계되었다.

2025년 11월 15일 오후 12시 13분
Gelato-30B-A3B: GUI 컴퓨터 사용 작업을 위한 최첨단 그라운딩 모델, GTA1-32B와 같은 컴퓨터 그라운딩 모델을 능가

ML Foundations 연구팀이 소개한 Gelato-30B-A3B는 그래픽 사용자 인터페이스를 위한 최첨단 그라운딩 모델로, AI 에이전트에게 명확한 화면 요소를 찾아 클릭하도록 가르치는 것에 대한 문제를 해결한다.

2025년 11월 10일 오후 4시 30분
Kosmos를 만나보세요: 데이터 주도적 발견을 자동화하는 AI 과학자

Edison Scientific이 만든 Kosmos는 데이터세트와 자연어 목표를 받아들여 반복적인 데이터 분석, 문헌 검색, 가설 생성을 수행하고 결과를 완전히 인용된 과학 보고서로 합성하는 자율 발견 시스템이다.

2025년 11월 10일 오전 2시 35분
CMU 연구진, 프로액티브 및 개인화된 LLM 에이전트를 훈련시키기 위해 PPP와 UserVille 소개

CMU 연구진은 프로액티브 및 개인화된 LLM 에이전트를 훈련시키기 위해 PPP와 UserVille을 소개했다. 기존 LLM 에이전트들은 과제 성공을 극대화하기 위해 조정되어 있지만 사용자에게 언제 질문할지, 상호작용 선호도를 어떻게 존중할지 신중하게 이유를 생각하지 않는다. 이에 대한 해결책을 모색하고 있다.

2025년 11월 6일 오전 4시 49분
구글 AI, 아부지파와 탈옥 스타일 프롬프트에서 안전한 언어 모델을 위한 일관성 훈련 소개

구글 AI가 일관성 훈련을 도입하여 언어 모델이 아부지파 프롬프트와 탈옥 스타일 공격에 저항하면서 능력을 유지하는 방법. 대형 언어 모델은 종종 칭찬이나 롤플레이로 둘러싸인 동일한 작업에 대해 안전하게 응답한 뒤 행동을 바꿀 수 있다. DeepMind 연구원들은 이를 위해 간단한 훈련 렌즈에서 일관성 훈련을 제안한다.

2025년 11월 5일 오전 10시 32분
대규모 언어 모델 간의 KV-Cache 퓨전을 통한 캐시 간 직접 의미적 통신인 ‘캐시-투-캐시(C2C)’

대규모 언어 모델이 텍스트 토큰을 보내지 않고 협업할 수 있는지 연구팀이 증명했다. 캐시-투-캐시(C2C)는 대규모 언어 모델이 KV-Cache를 통해 정보를 교환하는 새로운 통신 패러다임이다.

2025년 11월 4일 오전 3시 32분
LongCat-Flash-Omni: 560B 매개변수를 갖고 27B 활성화된 SOTA 오픈소스 옴니 모달 모델, 실시간 오디오-비주얼 상호작용에서 뛰어남

Meituan의 LongCat 팀이 LongCat Flash Omni를 발표했다. 이 모델은 5600억 개 매개변수와 토큰 당 약 27억 개 활성화를 갖춘 오픈소스 옴니 모달 모델로, 텍스트, 이미지, 비디오, 오디오를 실시간으로 듣고 보고 읽고 응답할 수 있는 효율적인 단일 모델을 설계하는 방법이다.

2025년 11월 2일 오전 10시 44분
Anthropics의 새로운 연구, Claude가 주입된 개념을 감지할 수 있지만 제어된 층에서만 가능

Anthropics의 새 연구는 대형 언어 모델인 Claude가 자체 내부 상태를 인지하는지 아니면 훈련 데이터에서 반복하는지 구별하는 방법을 살펴봅니다. 현재 Claude 모델이 자신의 능력에 대해 이야기하는 것 이상을 할 수 있는지 살펴보며, 주입된 개념을 감지할 수 있는지에 대해 질문을 제기합니다.

2025년 11월 1일 오전 5시 10분
Ant Group, 각 활성화가 추론 능력을 향상시키는 원칙에 따라 구축된 추론 중심 MoE 언어 모델 시리즈인 Ling 2.0 출시

Ant Group의 Inclusion AI 팀이 Ling 2.0을 출시했다. 이 모델은 각 토큰의 계산을 거의 바꾸지 않으면서 용량이 증가하는 언어 모델로, 추론 능력을 향상시키는 원리에 기반한다.

2025년 10월 30일 오후 4시 39분
Liquid AI, LFM2-ColBERT-350M 출시: 다국어 및 교차언어 RAG에 늦은 상호작용 검색 기능 제공하는 새로운 소형 모델

Liquid AI사가 LFM2-ColBERT-350M을 출시했다. 이 모델은 다국어 및 교차언어 검색을 위한 소형 late interaction retriever로, 한 언어로 문서를 색인하고 다른 언어로 쿼리를 작성해도 높은 정확도로 검색 결과를 반환한다.

2025년 10월 29일 오전 2시 32분
Zhipu AI, 시각-텍스트 압축을 통해 컨텍스트 길이 확장하는 AI 프레임워크 ‘Glyph’ 출시

Zhipu AI 연구진은 ‘Glyph’를 발표했다. 긴 텍스트를 이미지로 렌더링하고 VLM을 사용하여 128K 컨텍스트를 1백만 토큰 워크로드로 확장하는 AI 프레임워크로, 3-4배의 토큰 압축을 달성함.

2025년 10월 28일 오전 4시 35분
‘kvcached’ 만나보기: 공유 GPU에서 LLM 서빙을 위한 가상화된 탄력있는 KV 캐시를 가능하게 하는 머신러닝 라이브러리

‘kvcached’는 공유 GPU에서 LLM 서빙을 위해 가상화된 탄력있는 KV 캐시를 가능하게 하는 머신러닝 라이브러리입니다. 기존에는 모델당 큰 정적 KV 캐시 영역을 미리 예약하여 GPU 메모리를 낭비했지만, kvcached를 사용하면 이를 최적화할 수 있습니다.

2025년 10월 26일 오후 7시 23분
Liquid AI의 LFM2-VL-3B가 3B 파라미터 비전 언어 모델(VLM)을 엣지 기기로 가져옵니다

Liquid AI가 이미지 텍스트를 텍스트로 변환하는 작업을 위한 3B 파라미터 비전 언어 모델인 LFM2-VL-3B를 출시했습니다. 450M 및 1.6B 변형을 넘어 LFM2-VL 패밀리를 확장했으며, 정확도를 높이면서 LFM2 아키텍처의 속도 프로필을 유지합니다.

2025년 10월 24일 오후 5시 14분
DeepSeek, 고성능 OCR 및 구조화된 문서 변환을 위해 디자인된 3B OCR 모델 출시

DeepSeek-AI가 3B DeepSeek-OCR을 출시했다. 이는 텍스트를 작은 집합의 시각 토큰으로 압축한 뒤 언어 모델로 해당 토큰을 디코딩하는 OCR 및 문서 구문 분석 Vision-Language Model(VLM) 시스템이다. 이미지는 텍스트의 간략한 표현을 갖고 있어 디코더의 시퀀스 길이를 줄인다.

2025년 10월 20일 오후 7시 50분
로컬 AI 혁명: GPT-OSS-20B와 NVIDIA RTX AI PC로 확장되는 생성 AI

AI 분야의 풍경이 확장되고 있다. 최강의 LLMs(대형 언어 모델) 중 많은 것들이 클라우드에 주로 위치하고 있지만, 이제 강력한 새로운 패러다임이 등장하고 있다. 개인의 프라이버시 문제와 업로드 파일 수나 로딩 기간 제한에 대한 우려도 존재한다.

2025년 10월 20일 오후 12시 19분
Weak-for-Strong (W4S): 약한 메타 에이전트를 강한 LLM으로 강화하는 혁신적인 강화 학습 알고리즘

스탠포드, EPFL, UNC의 연구진은 약한 메타 에이전트가 강한 실행 모델을 부르는 코드 워크플로를 설계하고 개선하는 새로운 강화 학습 프레임워크인 Weak-for-Strong Harnessing, W4S를 소개했다. 이 메타 에이전트는 강한 모델을 세밀하게 조정하는 것이 아니라 조정하는 방법을 학습한다. W4S는 워크플로 디자인을 다중 턴으로 형식화한다.

2025년 10월 19일 오전 2시 48분
바이두의 PaddlePaddle 팀, PaddleOCR-VL (0.9B) 출시: NaViT 스타일 + ERNIE-4.5-0.3B VLM을 통한 end-to-end 다국어 문서 구문 분석

바이두의 PaddlePaddle 팀이 PaddleOCR-VL을 출시했습니다. 이 모델은 다국어 문서를 Markdown/JSON으로 변환하는데 사용되며, 텍스트, 표, 수식, 차트, 필기체 등을 구문 분석하는 데 적합합니다.

2025년 10월 17일 오전 4시 28분
구글 AI, 복잡한 단일 세포 유전자 발현 데이터를 ‘셀 문장’으로 번역하는 C2S-Scale 27B 모델 발표

구글 AI 팀이 C2S-Scale 27B 모델을 발표했다. 이 모델은 270억 개의 매개변수를 갖춘 단일 세포 분석을 위한 모델로, 단일 세포 RNA-seq(scRNA-seq) 프로필을 ‘셀 문장’으로 형식화하여 언어 모델이 세포 상태를 자연스럽게 분석할 수 있게 했다.

2025년 10월 17일 오전 3시 42분
Anthropic, 소넷-4 수준의 코딩 성능 제공하는 작은 AI 모델 ‘Claude Haiku 4.5’ 출시

Anthropic사가 Claude Haiku 4.5를 출시했다. Claude Sonnet 4와 유사한 코딩 성능을 제공하면서도 비용은 1/3, 속도는 2배 이상 빠르다. 이 모델은 Anthropic의 API 및 아마존 Bedrock, 구글 클라우드 Vertex AI 파트너 카탈로그를 통해 즉시 이용 가능하며, 가격은 $1/MTok 입력이다.

2025년 10월 15일 오후 1시 52분
안드레이 카르파시가 공개한 ‘nanochat’: 약 4시간 동안 약 100달러에 훈련할 수 있는 미니멀한 엔드투엔드 ChatGPT 스타일 파이프라인

안드레이 카르파시가 nanochat을 공개했다. 이는 하나의 멀티 GPU 노드에서 실행 가능한 ChatGPT 스타일 스택을 구현한 경량 코드베이스로, 토크나이저 훈련부터 웹 UI 추론까지를 지원한다. 단일 스크립트 “스피드런”을 제공하여 토큰화, 베이스 사전 훈련, 채팅/다중 선택/도구 사용 데이터에 대한 중간 훈련, 지도된 세부 튜닝(SFT), 선택적 강화 학습을 실행한다.

2025년 10월 14일 오후 1시 40분
SwiReasoning: 추론 LLM을 위한 잠재적 및 명시적 사고 체인의 엔트로피 주도 교대

SwiReasoning은 추론 LLM이 다음 토큰 분포의 엔트로피 추세를 기반으로 블록 단위 신뢰도를 추정하여 잠재 공간에서 생각할지 명시적 사고 체인을 쓸지 결정할 수 있는 디코딩 시간 프레임워크다. 이 방법은 훈련 없이 모델에 대해 Pareto-우수한 정확도/효율성 트레이드오프를 목표로 하며, 수학 및 STEM 벤치마크에서 +1.5%~2.8% 평균 정확도 향상을 보여준다.

2025년 10월 13일 오전 3시 24분
오픈TSLM 만나보기: 의료 시계열 분석을 혁신하는 시계열 언어 모델(TSLMs) 패밀리

스탠포드 대학의 연구진과 ETH 취리히, Google Research, Amazon과의 협업으로 새로운 시계열 언어 모델인 OpenTSLM이 소개되었다. 이 모델은 현재의 LLMs의 한계를 극복하여 의료 분석에 혁신을 가져오고 있다.

2025년 10월 11일 오후 6시 47분
Liquid AI, 8.3B 매개변수와 토큰 당 1.5B 활성 매개변수를 갖는 온디바이스 Mixture-of-Experts인 LFM2-8B-A1B를 출시

Liquid AI가 온디바이스 실행을 위해 만들어진 소형 Mixture-of-Experts 모델인 LFM2-8B-A1B를 출시했다. 클라우드 배치 서빙용이 아닌 이 모델은 폰에 최적화되어 있어 메모리, 지연 및 에너지 예산을 엄격하게 고려하며 작동한다.

2025년 10월 11일 오전 12시 54분
Salesforce AI Research, 양방향 병렬 토큰 생성을 통한 이산 확산 코드 모델인 CoDA-1.7B 발표

Salesforce AI Research가 CoDA-1.7B를 발표했다. 이는 양방향 컨텍스트를 사용하여 전체 시퀀스를 정제하고, 왼쪽에서 오른쪽으로 다음 토큰 예측이 아닌 병렬로 여러 토큰을 업데이트하는 코드용 확산 기반 언어 모델이다.

2025년 10월 5일 오후 7시 33분
텍스트에서 연속 값 예측을 위한 트랜스포머 기반 회귀 언어 모델 구축 코딩 구현

이 코딩 구현에서는 텍스트 시퀀스에서 연속적인 수치 값을 직접 예측하는 회귀 언어 모델(RLM)을 구축한다. 자연어 설명 안에 숨겨진 양적 관계를 학습하는 트랜스포머 기반 아키텍처를 훈련하는데 초점을 맞춘다. 합성 텍스트-숫자 데이터 생성부터 시작해서 효율적으로 토큰화한다.

2025년 10월 5일 오전 12시 05분
구글이 제안하는 TUMIX: 도구 사용 혼합을 통한 다중 에이전트 테스트 시간 스케일링

Google Cloud AI Research과 MIT, 하버드, Google DeepMind의 협력자들이 TUMIX (도구 사용 혼합)를 소개했다. 이는 이질적인 에이전트 스타일(텍스트, 코드, 검색, 가이드된 변형)을 앙상블하는 테스트 시간 프레임워크이다.

2025년 10월 4일 오후 6시 47분
IBM, 혁신적인 하이브리드 Mamba-2/Transformer 아키텍처를 갖춘 Granite 4.0 모델 출시: 성능 희생 없이 메모리 사용량 대폭 감소

IBM은 Granite 4.0을 출시했는데, 이는 모노리딕 트랜스포머 대신 하이브리드 Mamba-2/Transformer 스택을 사용하여 서빙 메모리를 줄이고 품질을 유지한다. 다양한 사이즈의 모델들이 제공되며, 이들은 Apache-2.0로 공개되었다.

2025년 10월 2일 오후 6시 47분
ServiceNow AI, Apriel-1.5-15B-Thinker 공개: 싱글 GPU 예산으로 프론티어 수준 성능 달성하는 오픈 가중치 다중 모달 추론 모델

ServiceNow AI 연구소가 Apriel-1.5-15B-Thinker를 공개했다. 이 모델은 강화 학습이나 선호도 최적화 없이 데이터 중심 중간 학습 레시피로 훈련된 150억 개의 오픈 가중치 다중 모달 추론 모델로, 단일 GPU 예산에서 SOTA 대비 8배의 비용 절감으로 인공 분석 지능 지수 52를 달성한다.

2025년 10월 2일 오전 1시 05분
DeepSeek V3.2-Exp는 DeepSeek Sparse Attention (DSA)로 장문 맥락 비용을 절감하면서 벤치마크 동등성 유지

DeepSeek가 DeepSeek Sparse Attention (DSA)를 추가한 DeepSeek-V3.2-Exp를 출시했다. 이 업데이트는 장문 맥락 효율성을 높이기 위한 훈련 가능한 희소화 경로를 제공한다. 또한 API 가격을 50% 이상 할인하여 효율성 향상을 보여줬다. 새로운 업데이트는 V3/V3.1 스택(MoE + MLA)을 유지하고 두 단계의 어텐션 경로를 삽입했다.

2025년 9월 30일 오전 5시 24분
메타 FAIR가 공개한 코드 월드 모델 (CWM): 320억 파라미터의 오픈 가중치 LLM, 월드 모델을 활용한 코드 생성 연구 선도

메타 FAIR가 320억 개의 파라미터로 이루어진 CWM을 공개했다. 이 모델은 코드 생성에 세계 모델링을 삽입하여 실행 추적 및 장기적 상호작용을 통해 학습하며, 코드를 예측함으로써 중간 훈련을 수행한다.

2025년 9월 25일 오전 4시 22분
MIT 연구진, 인공지능(AI) 성능 향상, 계획 수립에서 64배 빠르고 94% 정확도 달성

MIT CSAIL 연구진은 PDDL-INSTRUCT를 소개하여 대화식 계획 수립 성능을 향상시키고 LLM의 심볼릭 계획 성능을 높였다. 조정된 Llama-3-8B 모델은 Blocksworld에서 94%의 유효한 계획을 달성했다.

2025년 9월 22일 오전 3시 06분
H회사가 Holo1.5를 출시: GUI 로컬라이제이션 및 UI-VQA에 중점을 둔 오픈 웨이트 컴퓨터 사용 VLMs

H 회사가 Holo1.5를 출시했다. 이는 컴퓨터 사용을 위한 오픈 기반 비전 모델로, 실제 사용자 인터페이스에 스크린샷 및 포인터/키보드 조작을 통해 작동하는 CU 에이전트를 위해 설계되었다. 3B, 7B, 72B 체크포인트가 포함되어 있으며, 크기별로 Holo1 대비 약 10% 정확도 향상이 문서화되어 있다.

2025년 9월 18일 오전 4시 14분
스탠포드 연구진이 소개한 MedAgentBench: 의료 AI 에이전트를 위한 현실 세계 벤치마크

스탠포드 대학 연구팀이 의료 분야에서 대형 언어 모델 에이전트를 평가하기 위해 설계된 MedAgentBench를 발표했다. MedAgentBench는 가상 전자 건강 기록 환경을 제공하여 AI 시스템이 상호 작용, 계획 및 다단계 임상 작업을 실행해야 하는 실제 시나리오를 제공한다.

2025년 9월 16일 오전 3시 24분
Meta AI가 MobileLLM-R1을 공개: 10억 개 이하의 파라미터를 가진 엣지 추론 모델이 다른 완전 오픈 소스 AI 모델보다 2배~5배의 성능 향상을 이룩

Meta가 MobileLLM-R1을 출시했습니다. 이는 Hugging Face에서 사용 가능한 가벼운 엣지 추론 모델로, 140M에서 950M의 파라미터를 가진 모델들이 포함되어 있습니다. 일반적인 챗봇 모델과는 달리 MobileLLM-R1은 엣지 배포용으로 설계되어 있어 최신 추론 정확도를 제공합니다.

2025년 9월 15일 오전 2시 34분
Google AI가 디퍼렌셜 프라이버시로 완전히 훈련된 1B-파라미터로 구축된 최대 및 가장 능력있는 오픈 모델인 VaultGemma 공개

구글 AI 연구팀과 딥마인드가 디퍼렌셜 프라이버시(DP)로 완전히 훈련된 최대 규모의 오픈 가중치 대형 언어 모델인 VaultGemma 1B를 공개했다. 이는 강력하면서도 프라이버시 보호가 가능한 AI 모델 구축으로 나아가는 중요한 한걸음이다.

2025년 9월 13일 오전 3시 54분
IBM AI 연구팀, ModernBERT 아키텍처 기반 두 개의 영어 Granite 임베딩 모델 공개

IBM은 고성능 검색 및 RAG 시스템용으로 설계된 두 개의 새로운 임베딩 모델, granite-embedding-english-r2와 granite-embedding-small-english-r2를 소개했다. 이 모델들은 효율적이고 소형이며 Apache 2.0 라이선스로 제공된다.

2025년 9월 12일 오후 11시 50분
BentoML이 llm-optimizer를 발표: LLM 추론의 벤치마킹과 최적화를 위한 오픈 소스 AI 도구

BentoML은 llm-optimizer를 출시했는데, 이는 self-hosted large language models (LLMs)의 벤치마킹과 성능 튜닝을 간소화하기 위해 설계된 오픈 소스 프레임워크이다. 이 도구는 LLM 배포에서의 최적의 구성을 찾는 것과 같은 일반적인 도전에 대처하며, 수동 시행착오 없이 지연 시간, 처리량 및 비용에 대한 최적화된 구성을 찾는 데 도움을 준다.

2025년 9월 12일 오전 3시 23분
Python을 사용하여 SpeechBrain을 활용한 음성 개선 및 자동 음성 인식 (ASR) 파이프라인 구축

이 튜토리얼에서는 SpeechBrain을 사용한 고급이면서도 실용적인 워크플로우를 안내합니다. gTTS로 자체 깨끗한 음성 샘플을 생성하고 실제 시나리오를 시뮬레이션하기 위해 음향을 의도적으로 추가한 다음 SpeechBrain의 MetricGAN+ 모델을 적용하여 오디오를 향상시킵니다. 오디오가 소음 제거되면 언어 모델-재점수화를 통해 자동 음성 인식을 실행합니다.

2025년 9월 9일 오후 11시 54분
MBZUAI 연구진, K2 Think 공개: 고급 AI 추론을 위한 32B 오픈소스 시스템 출시 및 20배 큰 추론 모델보다 우수한 성능 발휘

MBZUAI의 연구진이 고급 AI 추론을 위한 32B-파라미터 오픈 추론 시스템 K2 Think을 발표했다. 이 시스템은 강화 학습, 테스트 시 스케일링, 추론 최적화 등을 결합하여 선두적인 성능을 보여준다.

2025년 9월 9일 오후 3시 53분
Tilde AI, TildeOpen LLM 공개: 300억개 이상의 파라미터를 가진 오픈 소스 대규모 언어 모델, 대부분의 유럽어 지원

Tilde AI가 TildeOpen LLM을 공개했다. 이 모델은 300억개 이상의 파라미터를 가지며 유럽어에 특화되어 있어 소수 언어에도 주목한다. EU 내 언어 균형과 디지털 주권을 강화하는 전략적인 발전이다.

2025년 9월 7일 오전 1시 34분
사전훈련부터 사후훈련까지: 언어 모델이 환각하는 이유와 평가 방법이 문제를 강화하는 방법

대형 언어 모델은 종종 “환각”을 생성하는데, 이는 올바르지만 잘못된 출력을 확신하며 가능성이 있는 것으로 보인다. OpenAI의 새로운 연구는 환각이 교사 지도 학습과 자기 지도 학습의 통계적 특성에서 비롯되며, 그 지속성은 평가 기준의 불일치로 강화된다는 엄밀한 설명을 제공한다.

2025년 9월 7일 오전 12시 56분
알리바바 AI, Qwen3-Max 미리보기 발표: 초고속 및 품질을 갖춘 조수 모델

알리바바의 Qwen 팀이 1조 개 이상의 파라미터를 갖춘 새로운 플래그십 대형 언어 모델인 Qwen3-Max-Preview를 발표했다. 이 모델은 Qwen Chat, 알리바바 클라우드 API, OpenRouter에서 접근 가능하며 Hugging Face의 AnyCoder 도구에서 기본으로 제공된다. 이 모델은 현재의 대형 언어 모델 환경에 어떻게 맞는지 살펴보자.

2025년 9월 6일 오전 3시 16분
액센쳐 연구팀, MCP-Bench 소개: MCP 서버를 통해 복잡한 현실 세계 과제에서 LLM 에이전트를 평가하는 대규모 벤치마크

최신 대형 언어 모델(Large Language Models, LLMs)은 단순한 텍스트 생성을 넘어섰다. 현실 세계 응용 프로그램들은 이제 이러한 모델이 API, 데이터베이스, 소프트웨어 라이브러리와 같은 외부 도구를 사용하여 복잡한 과제를 해결해야 한다. 그러나 AI 에이전트가 도구 간에 계획을 세우고 추론하며 조정할 수 있는지를 어떻게 정확히 알 수 있을까?

2025년 8월 30일 오전 2시 18분
Memory-R1: 강화 학습이 LLM 메모리 에이전트에 어떻게 도움을 주는가

대형 언어 모델(LLM)은 AI의 다양한 분야에서 중요한 역할을 하고 있지만, 이들은 상태를 유지하지 못하는 한계가 있다. 쿼리마다 이전 정보를 기억하지 못하고 고정된 컨텍스트 창으로 장기 대화나 멀티세션 작업에서 계속된 지식을 축적할 수 없다. 이를 해결하기 위해 강화 학습이 LLM 메모리 에이전트를 어떻게 강화하는지 알아보자.

2025년 8월 28일 오후 11시 50분
의료 AI를 전문가가 라벨링한 데이터에 근거로: 방사선 보고서를 위한 최초의 다중 모달, 이중 언어, 문장 수준 데이터 집합에 대한 사례 연구

의료 AI의 최근 발전은 모델의 정교함뿐만 아니라 기반 데이터의 품질과 풍부함에 달려있다. Centaur.ai, Microsoft Research 및 University of Alicante의 협력으로 성과를 거둔 PadChest-GR은 최초의 다중 모달, 이중 언어, 문장 수준 데이터셋이다.

2025년 8월 28일 오후 4시 30분
호주의 대형 언어 모델 현황: 기술 평가

호주의 주요 노력인 카카룸 LLM은 호주 영어와 문화에 맞춘 주권 보장, 오픈소스 대형 언어 모델을 구축하기 위한 노력이다. 호주 특유의 유머, 속어, 법적/윤리적 규범을 이해하는 모델을 만들기 위한 목표를 가지고 있다.

2025년 8월 28일 오전 3시 09분
Nous 연구팀, 하이브리드 추론을 사용한 Hermes 4 공개

Nous 연구팀이 Hermes 4를 발표했다. 이 모델은 순수 사후 훈련 기술을 통해 선두 수준의 성능을 달성하는데, 복잡한 문제에 대한 심층 고찰이 필요할 때 모델이 표준 응답과 명시적 추론 사이를 전환할 수 있는 하이브리드 추론을 소개했다.

2025년 8월 28일 오전 1시 03분
NVIDIA AI가 공개한 Jet-Nemotron: 추론 규모에서 98% 비용 절감을 가능케 하는 53배 빠른 하이브리드 아키텍처 언어 모델 시리즈

NVIDIA 연구자들이 대형 언어 모델 추론의 효율성 장벽을 깨고, Jet-Nemotron을 공개했는데 이 모델 시리즈는 선도적인 LLM보다 최대 53.6배 높은 생성 처리량을 제공하면서 정확도를 유지하거나 능가한다. 이는 새로운 사전 훈련을 통해 이루어진 것이 아니라는 점이 가장 중요하다.

2025년 8월 26일 오후 9시 03분
구글 AI가 Gemini 2.5 플래시 이미지를 소개: 이미지를 간단히 설명함으로써 생성하고 편집할 수 있는 새로운 모델

구글 AI는 Gemini 2.5 플래시 이미지를 공개했습니다. 이 모델은 사용자가 이미지를 설명함으로써 생성하고 편집할 수 있도록 설계되었는데, 정확하고 일관된 고품질 편집을 빠르고 광범위하게 제공하는 것이 혁신적입니다.

2025년 8월 26일 오후 3시 09분
SEA-LION v4: 동남아시아를 위한 다중언어 모델링

AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.

2025년 8월 25일 오후 12시 16분
한국의 LLM 강자 만나보기: HyperClova, AX, Solar Pro, 그리고 더

한국은 대규모 언어 모델(LLM) 분야에서 중요한 혁신가로 자리매김하고 있으며 정부 투자, 기업 연구, 오픈 소스 협력을 통해 한국어 처리 및 국내 응용 프로그램에 맞는 모델을 만들고 있다. 이는 외국 AI 기술에 대한 의존성을 줄이고 데이터 개인 정보 보호를 향상시키며 의료, 교육 등의 분야를 지원한다.

2025년 8월 21일 오전 3시 31분
NVIDIA AI, Nemotron Nano 2 AI 모델 출시: 제품용 기업 AI 모델 패밀리, 유사 크기 모델보다 6배 빠름

NVIDIA가 Nemotron Nano 2 패밀리를 공개했는데, 이는 최첨단 추론 정확도를 끌어올리는 하이브리드 Mamba-Transformer 대형 언어 모델을 소개하며 유사한 크기의 모델보다 최대 6배 높은 추론 처리량을 제공합니다. 이 릴리스는 데이터 및 방법론에 대한 전례없는 투명성으로 눈에 띕니다.

2025년 8월 19일 오후 1시 40분
Memp: LLM 기반 에이전트에서 프로시저 메모리를 핵심 최적화 대상으로 끌어올리는 작업에 중립적인 프레임워크

LLM 에이전트는 웹 연구, 보고서 작성, 데이터 분석 및 다단계 소프트웨어 워크플로우와 같은 복잡한 작업을 처리하는 데 충분히 강력해졌지만, 절차적 메모리에 어려움을 겪고 있습니다. 이 프레임워크는 프로시저 메모리를 핵심 최적화 대상으로 끌어올려 에이전트를 견고하게 만듭니다.

2025년 8월 19일 오전 4시 25분