2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.
2026년 3월 5일 오전 12시 55분
구글이 Gemini 3.1 Flash-Lite를 공개했다. 고성능 작업에 최적화된 이 모델은 낮은 지연시간과 토큰 당 비용을 중점으로 고안되었다. 현재 Gemini API 및 Vertex AI를 통해 Public Preview로 이용 가능하다.
2026년 3월 3일 오후 1시 28분
산업용 추천 시스템에서 Large Language Models (LLMs)를 활용한 Generative Retrieval (GR)이 일반적인 임베딩 기반의 검색을 대체하고 있으며, 이에 따라 엄격한 비즈니스 로직을 준수하는 STATIC 프레임워크가 속도 향상을 제공한다.
2026년 3월 1일 오후 4시 47분
Generative AI의 발전은 잠재 확산 모델(LDMs)에 많이 의존하고 있습니다. 잠재 공간으로 데이터를 압축함으로써 모델이 효과적으로 확장될 수 있습니다. 그러나 낮은 정보 밀도는 잠재 변수를 학습하기 쉽게 만들지만 재구성 품질을 희생시키는 기본적인 트레이드오프가 존재합니다.
2026년 2월 27일 오후 10시 58분
Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.
2026년 2월 26일 오후 11시 01분
Microsoft의 연구진은 CORPGEN을 소개했는데, 이는 계층적 계획과 메모리를 활용하여 자율형 디지털 직원을 통해 현실적인 조직 업무의 복잡성을 관리하는 데 사용되는 아키텍처에 중립적인 프레임워크이다. 기존의 AI 에이전트는 단일 작업에 대해 평가되지만, 실제 기업 환경에서는 복잡한 종속성을 가진 여러 작업을 동시에 처리해야 한다.
2026년 2월 26일 오후 7시 32분
Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 '일시적 에이전트'에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.
2026년 2월 26일 오전 3시 01분
Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.
2026년 2월 25일 오전 3시 37분
알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.
2026년 2월 24일 오후 2시 33분
구글 딥마인드 연구팀은 MARL 분야에서 진보를 위해 직관에 의존했던 기존의 방식을 변화시켜, CFR 및 PSRO와 같은 알고리즘을 수동으로 개선하는 대신 의미론적 진화를 적용하여 우수한 알고리즘 수렴을 이룩했다.
2026년 2월 24일 오전 4시 48분
오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 'Shin Megami Boson'이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.
2026년 2월 21일 오후 4시 10분
NVIDIA가 DreamDojo를 발표했다. 이는 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델로, 기존의 물리 엔진 대신 픽셀에서 직접 로봇 행동의 결과를 '꿈꾼다'.
2026년 2월 20일 오후 3시 30분
Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 '거친 계곡'을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.
2026년 2월 18일 오후 6시 12분
구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, '에이전틱 웹'이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.
2026년 2월 16일 오전 2시 04분
Moonshot AI가 OpenClaw 프레임워크의 기능을 브라우저로 직접 제공하기 시작했다. 새로운 Kimi Claw는 kimi.com에서 네이티브로 제공되며 개발자와 데이터 과학자에게 지속적인 24/7 AI 에이전트 환경을 제공한다. 이 업데이트로 프로젝트가 로컬 설정에서 클라우드 네이티브 강자로 이동했다.
2026년 2월 15일 오후 3시 33분
이 튜토리얼에서는, 에이전트를 위한 자기 조직화 메모리 시스템을 구축하는 방법에 대해 알아본다. 이 시스템은 대화 내용을 단순히 저장하는 것을 넘어 상호작용을 지속적이고 의미 있는 지식 단위로 구조화한다. 추론과 메모리 관리가 명확히 분리되어 있어 정보를 추출, 압축, 정리하는 전용 구성 요소를 허용한다.
2026년 2월 14일 오후 3시 00분

최신뉴스 전체보기

Skywork AI가 멀티모달 추론을 발전시킴: 하이브리드 강화 학습을 도입한 Skywork R1V2 소개

Skywork AI는 강점인 특화된 추론 능력을 강화하면서도 다양한 작업에 대한 일반화를 유지하는 것에 대한 도전에 집중하고 있습니다. 최근의 연구에서, 시각적 이해 작업에 대한 성능 저하와 시각적 환각 증세 증가로 인해 ‘느린 사고’ 모델이 제안되었습니다.

2025년 4월 25일 오후 5시 25분
GenAI 데모에서 제품 생산까지: 구조화된 워크플로우의 필요성

Generative AI 애플리케이션은 인상적인 능력을 보여주지만, 제품 시스템의 요구사항에 부딪힐 때 종종 실패하는 현실이 있다. 산업 조사는 이 문제의 규모를 보여준다.

2025년 4월 25일 오후 5시 10분
밀라 & 몬트리올 대학 연구진, 효율성 희생 없이 장거리 맥락 언어 모델링을 촉진하는 Forgetting Transformer (FoX) 소개

밀라와 몬트리올 대학 연구진은 FoX를 소개하여 장거리 맥락 언어 모델링을 향상시키고 효율성을 희생하지 않는다. 이 모델은 트랜스포머의 장점을 살리면서 순환 신경망에서 발견되는 핵심 기능도 갖추고 있다.

2025년 4월 25일 오후 3시 29분
NVIDIA AI, 수학 추론을 위한 OpenMath-Nemotron-32B 및 14B-Kaggle 공개: AIMO-2 대회에서 1위 차지하며 새로운 기록 설정

NVIDIA AI가 OpenMath-Nemotron-32B 및 14B-Kaggle을 발표했다. 이는 수학 추론을 위한 고급 AI 모델로, AIMO-2 대회에서 1위를 차지하고 새로운 기록을 세웠다.

2025년 4월 25일 오전 1시 49분
Meta AI, 시각 표현 학습을 위한 확장 가능하고 언어에 구애받지 않는 접근 방식인 Web-SSL 발표

최근 대조적 언어-이미지 모델인 CLIP가 시각 표현 학습에서 표준 선택으로 자리매김했지만, 이는 언어 감독을 통해 의미론적 근거를 통합함으로써 텍스트 의존성을 도입한다. Meta AI는 이러한 제약을 해결하기 위해 Web-SSL을 발표했다.

2025년 4월 24일 오후 4시 01분
OpenAI가 gpt-image-1 API 출시: 개발자들에게 고품질 이미지 생성 기술 제공

OpenAI는 gpt-image-1 모델을 기반으로 한 이미지 생성 API를 공식으로 출시했다. 이 런칭은 ChatGPT의 다중 모달 기능을 개발자들에게 제공함으로써 이미지 생성에 프로그래밍적 접근을 가능케 하며, 지능적 디자인 도구, 창의적 애플리케이션, 다중 모달 에이전트 시스템 구축을 위한 필수 단계를 제공한다.

2025년 4월 24일 오후 1시 02분
Sequential-NIAH: 장문에서 순차 정보 추출에 대한 LLM 평가 벤치마크

긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.

2025년 4월 24일 오전 1시 52분
NVIDIA AI, 어떤 것이든 설명하는 30억 모달 LLM: 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 공개

NVIDIA가 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 모델인 ‘Describe Anything 3B’를 발표했다. 시각-언어 모델에서 이미지나 비디오의 특정 영역을 설명하는 것은 어려운 문제인데, 이 모델은 세부적이고 지역별 설명을 생성하는 데 탁월한 성과를 보여준다.

2025년 4월 23일 오후 12시 51분
Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화: Microsoft 연구원들이 지연 일반화에 미치는 옵티마이저의 영향 탐구

그동안 딥러닝 모델이 기억에서 일반화로의 지연된 전환을 보이는 현상인 ‘그록킹’에 대한 연구가 늘어나고 있는데, 마이크로소프트 연구원들이 옵티마이저가 이 지연된 일반화에 미치는 영향을 탐구하며 Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화하는 것을 발견했다.

2025년 4월 23일 오전 2시 10분
디커플드 디퓨전 트랜스포머: 시멘틱 디테일 분리와 인코더 공유를 통한 고품질 이미지 생성 가속화

디커플드 디퓨전 트랜스포머는 이미지 생성 작업에서 우수한 성능을 보이며 기존 GAN 및 자기 회귀 아키텍처를 능가한다. 이미지에 점진적으로 노이즈를 추가하고 이 과정을 거꾸로 되돌리는 방식으로 작동하여 데이터 분포를 근사하는 모델을 구현한다.

2025년 4월 22일 오후 6시 56분
대규모 모델이 필요하지 않는 긴 문맥 다중모달 이해: NVIDIA AI, Eagle 2.5 소개

Eagle 2.5는 GPT-4o와 같은 비디오 작업에서 8B 매개변수를 사용하여 일반적인 비전-언어 모델로 작동하며, 긴 문맥 다중모달 데이터를 효과적으로 처리하는 능력을 갖추고 있음.

2025년 4월 22일 오전 2시 36분
LLMs는 여전히 의학 자료를 신뢰할 수 없을 정도로 언급하는 데 어려움을 겪고 있음: 스탠포드 연구진이 AI 생성 응답에서 사실적인 지원을 감사하기 위한 SourceCheckup을 소개

LLMs가 의료 분야에서 중요해지면서 신뢰할 수 있는 소스가 그들의 결과물을 뒷받침하는 것이 점점 중요해지고 있다. 아직 FDA가 임상 의사 결정에 승인한 LLM은 없지만, GPT-4o, Claude, MedPaLM과 같은 최고 모델은 USMLE과 같은 표준 시험에서 의사를 능가했다. 이러한 모델들은 이미 정신 건강과 같은 현실적 상황에서 활용되고 있다.

2025년 4월 21일 오후 4시 51분
스탠포드 연구진, FramePack 제안: 장기 시퀀스 비디오 생성에서 Drifting과 Forgetting 대응하는 압축 기반 AI 프레임워크

비디오 생성은 시간에 걸쳐 움직임과 시각적 현실을 시뮬레이트하는 이미지 시퀀스를 만드는 컴퓨터 비전 및 머신 러닝 분야다. 스탠포드 대학 연구진은 FramePack라는 압축 기반 AI 프레임워크를 제안하여 장기 시퀀스 비디오 생성 시 발생하는 Drifting과 Forgetting 문제를 효율적인 컨텍스트 관리와 샘플링을 이용해 해결하는 방안을 제시했다.

2025년 4월 21일 오후 12시 46분
OpenAI, 기업 워크플로우에서 AI 활용 사례 식별과 확장에 대한 실용적 가이드 발표

OpenAI가 “Identifying and Scaling AI Use Cases”라는 포괄적인 프로세스 지향 가이드를 발행했다. 300개 이상의 사례 연구와 통찰을 바탕으로 기업이 AI를 측정 가능한 영향을 창출하는 방법을 결정하는 것이 주요 과제다.

2025년 4월 21일 오전 2시 46분
LLMs가 유휴 상태에서도 생각할 수 있다: Letta 및 UC 버클리 연구자들, ‘슬립 타임 컴퓨트’를 소개하여 추론 비용을 낮추고 정확도를 높이지만 지연 시간 희생 없이

대형 언어 모델(LLMs)은 복잡한 추론 작업을 처리하는 능력으로 주목받고 있으며, Letta와 UC 버클리의 연구자들은 유휴 상태에서 컴퓨팅을 확장하여 더 어려운 문제에 더 많은 리소스를 할당함으로써 더 높은 정확도를 달성하는 ‘슬립 타임 컴퓨트’를 소개했다.

2025년 4월 20일 오후 10시 32분
푸리에 신경 오퍼레이터가 터보 부스트를 받았다: UC 리버사이드의 연구자들이 PyTorch보다 최대 150% 속도 향상을 달성한 TurboFNO를 소개했다

푸리에 신경 오퍼레이터(FNO)는 편미분 방정식 해결 오퍼레이터를 학습하는 강력한 도구이지만, 아키텍처에 대한 최적화가 부족하다. FFT – GEMM – iFFT의 계산 패턴이 더 많은 주목을 받고 있다. UC 리버사이드의 연구자들은 TurboFNO를 소개하여 PyTorch보다 최대 150% 속도 향상을 달성했다.

2025년 4월 20일 오후 4시 16분
Meta AI, 협업 추론자 (코랄)를 소개합니다: LLM에서 협업 추론 기술을 평가하고 향상시키기 위해 특별히 설계된 AI 프레임워크

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.

2025년 4월 20일 오전 2시 15분
NVIDIA, 언어 모델 사전 학습을 위한 반복적 데이터 혼합 최적화 프레임워크 CLIMB 소개

NVIDIA가 CLIMB 프레임워크를 소개했다. 대규모 언어 모델이 커짐에 따라, 사전 학습 데이터 선택은 중요해졌다. CLIMB은 최적화된 데이터 혼합을 위한 프레임워크로, 이는 후속 성능에 영향을 미친다.

2025년 4월 19일 오후 4시 59분
LLMs는 이제 다시 시도하는 법을 배울 수 있습니다: Menlo의 연구자들이 RAG 시스템에서 검색 기반 추론을 개선하기 위해 쿼리 다시 시도를 보상하는 ReZero라는 강화 학습 프레임워크를 소개했습니다

최근 LLMs의 영역은 외부 지식을 추론 프로세스에 통합하는 도구를 포함하도록 신속히 발전해왔습니다. 이 방향으로의 중요한 발전 중 하나는 RAG(검색 증강 생성)인데, 이를 통해 모델이 데이터베이스와 검색 엔진을 쿼리하여 훈련 중에 포함되지 않은 최신이나 특수 정보를 얻을 수 있습니다. RAG는 지식 집중적 작업에서 성능을 향상시킵니다.

2025년 4월 19일 오전 1시 06분
Meta AI가 소개하는 Perception Encoder: 이미지와 비디오에 걸쳐 여러 시각 작업에서 뛰어난 성과를 내는 대규모 비전 인코더

Meta AI가 소개한 Perception Encoder는 이미지와 비디오에 걸쳐 다양한 시각 작업을 뛰어나게 처리하는 대규모 비전 인코더다. AI 시스템이 점점 다중 모달로 발전함에 따라 시각 지각 모델의 역할은 더 복잡해지고 있다. 기존의 비전 인코더는 물체와 장면을 인식하는 것뿐만 아니라 캡션, 질문 응답, 세부 인식, 문서 구문 분석, 이미지와 비디오 모두에 걸쳐 공간 추론을 지원해야 한다.

2025년 4월 18일 오전 11시 23분
IBM, 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B 발표

IBM이 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B를 발표했다. 이 모델은 자동 음성 인식(ASR) 및 자동 음성 번역(AST)에서 뛰어난 성능을 보여준다.

2025년 4월 18일 오전 3시 08분
트랜스포머 모델이 정말 추론 모델에 필요한가?: TogetherAI, Cornell, Geneva, Princeton 연구진이 M1 소개 – 최신 성능 3배 속도로 달성

수학 및 프로그래밍 분야의 복잡한 문제 해결에 효율적인 추론이 중요하며, LLMs는 연쇄 추론을 통해 상당한 향상을 보여줌. 그러나 트랜스포머 기반 모델은 장기 시퀀스를 효율적으로 처리하는 것이 어렵기 때문에 한계가 있음. 이에 TogetherAI, Cornell, Geneva, Princeton 연구진이 M1이라는 하이브리드 AI를 소개하며 최신 성능을 3배의 추론 속도로 달성함.

2025년 4월 17일 오후 11시 56분
복잡한 Vision-Language 파이프라인이 여전히 필요한가요? 바이트댄스와 WHU의 연구자들이 픽셀-SAIL을 소개합니다 – 픽셀 수준 이해를 위한 단일 트랜스포머 모델로 7B MLLMs를 능가합니다

MLLM은 최근 세밀한 픽셀 수준 시각적 이해를 다루는 데 진전되어 정확한 영역 기반 편집 및 분할과 같은 작업에 확장되었습니다. 기존 방법들은 복잡한 아키텍처에 의존하는데, 이를 극복하기 위해 바이트댄스와 WHU의 연구자들이 픽셀-SAIL을 소개하며 7B MLLMs를 능가했습니다.

2025년 4월 17일 오후 1시 05분