
이번 연구에서는 복잡한 3D 형상을 간단하고 해석 가능한 기하학적 단위로 분해하는 모양 기본 추상화가 소개되었습니다. 최근 3D 생성 방법들은 메쉬, 포인트 클라우드, 신경장 등의 표현을 사용하여 고품질 콘텐츠 생성을 가능케 했지만, 종종 의미적 깊이와 해석 가능성이 부족합니다.

이번 연구에서는 복잡한 3D 형상을 간단하고 해석 가능한 기하학적 단위로 분해하는 모양 기본 추상화가 소개되었습니다. 최근 3D 생성 방법들은 메쉬, 포인트 클라우드, 신경장 등의 표현을 사용하여 고품질 콘텐츠 생성을 가능케 했지만, 종종 의미적 깊이와 해석 가능성이 부족합니다.

알리바바의 ZeroSearch는 강화 학습과 시뮬레이션 문서를 활용하여 대형 언어 모델의 검색을 실시간 검색 없이 가르치는 방법을 제시하고 있다. 기존의 정적 데이터셋으로 훈련된 언어 모델은 시간이 지남에 따라 오래되어 문제가 발생하는데, ZeroSearch는 이를 극복하기 위해 새로운 방법론을 제시하고 있다.

Tsinghua 대학의 ‘Absolute Zero’는 외부 데이터 없이 LLM을 훈련시키는데 성공하였다. 현재의 RLVR 작업은 규모 확장 문제에 직면하고 있지만, ‘Absolute Zero’는 중간 추론 단계를 모방하는 대신 결과 기반 피드백에 의존하여 추론 능력을 향상시켰다.

중국 연구진이 만든 LLaMA-Omni2는 실시간 음성 대화를 가능하게 하는 모듈식 프레임워크를 소개했다. 이 모델은 음성 지각과 합성을 언어 이해와 통합하여 이전의 계층적 시스템과 달리 실시간 대화를 가능케 한다.

Transformer 아키텍처를 기반으로 한 LLM은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪는다. RWKV와 같은 선형 아키텍처는 이 문제를 해결하나, 긴 문맥을 이해하는 데 어려움을 겪는다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 한다.

대형 언어 모델이 다양한 작업에서 놀라운 추론 능력을 보여주고 있으며, 강화 학습은 그들의 심층 사고 능력을 개선하는 중요한 메커니즘으로 작용합니다. 이 연구는 수학적 추론 및 코딩 영역에서의 강화 학습 기술의 성공을 보여주었지만, 이를 넓은 추론 맥락으로 확장하는 것이 중요합니다.

인공 일반 지능(AGI)으로 나아가는 최첨단 AI 기업들은 강력한 시스템이 조절 가능하고 유익하게 유지되도록 보장하는 기술이 필요하다. 이에 대한 주요 접근 방식은 Recursive Reward Modeling, Iterated Amplification 및 Scalable Oversight와 같은 방법을 포함한다. 이들은 약한 시스템이 강력한 시스템을 효과적으로 감독할 수 있도록 하는 것을 목표로 한다.

대형 언어 모델(LLMs)은 새로운 방식의 추론 능력을 갖고 있으며, UC 버클리 및 UCSF 연구진은 적응적 병렬 추론을 도입하여 추론을 효율적으로 확장하고 콘텍스트 창을 초과하지 않도록 했다. 현재 방법론은 긴 출력 순서를 생성하여 지연 시간과 효율성에 위험을 초래한다.

최근 LLMs의 발전으로 OpenAI-o1, DeepSeek-R1, Kimi-1.5 등이 복잡한 수학적 추론 작업에서 성능을 크게 향상시켰다. 규칙 기반 보상을 사용하는 강화 학습은 이러한 개선에 중요한 역할을 한다. 최종 결과물을 향상시키는 RLVR은 모델의 문제 해결 방법이 올바른지를 나타내는 바이너리 신호를 일반적으로 사용한다.

Google 연구원들은 REFVNLI를 소개하여 텍스트 프롬프트와 함께 참조 이미지를 통합하는 표준 T2I 모델을 강화하는 주제 중심의 방법을 통해 텍스트-이미지(T2I) 생성을 강화했다. 현재의 메트릭은 주로 텍스트 프롬프트에 초점을 맞추거나 주제 중심 T2I 생성에 대한 신뢰할 수 있는 자동 평가 방법이 부족한 도전에 직면하고 있다.

MiMo-7B는 더 큰 모델보다 더 우수한 수학 및 코드 추론 능력을 갖추고, 사전 훈련과 강화 학습을 통해 개발되었다. 인간 지능에서 독점적으로 여겨졌던 추론 능력이 이제 보다 효율적이고 널리 사용 가능한 소형 모델에서도 활발히 연구되고 있다.

대형 언어 모델 에이전트가 기업 및 연구 생태계 전반에 걸쳐 주목을 받는 가운데, 에이전트들의 통신 역량을 제한하는 표준화된 프로토콜의 부재로 인해 커뮤니케이션 병목 현상이 발생했다. 이로 인해 에이전트들의 상호 조정 능력 및 외부 도구와의 인터페이스가 제약을 받고 있다.
DeepSeek-Prover-V2는 공식 이론 증명을 위해 설계된 대형 언어 모델로, 서브 골 분해와 강화 학습을 활용한다. 수학적 추론은 강력한 논리 일관성을 요구하는데, 이 모델은 Lean, Coq, Isabelle과 같은 증명 어시스턴트의 역할을 한다.
Meta AI가 ReasonIR-8B를 소개했다. 이는 효율성과 RAG 성능을 최적화한 추론 중심의 검색기다. 현재 대부분의 검색기는 짧은 사실성 질문 데이터셋으로 훈련되어 있어 복잡한 다단계 추론 작업에 대한 정보를 검색하는 것이 여전히 어려운 도전으로 남아있다.
대형 언어 모델은 정보를 유지하는 데 어려움을 겪지만, Mem0는 장기적인 참여가 필요한 응용 프로그램에 통합될 때 더욱 중요해집니다. Mem0는 구조적인 기억을 유지하며 여러 세션에 걸쳐 정보를 지속적으로 보관하는 확장 가능한 메모리 아키텍처입니다.
트랜스포머 기반 LLM의 능력 향상을 위해 희소 어텐션은 중요하며, 연구진들은 장기 시퀀스 다루기 위해 어텐션 메커니즘을 재고 중. 표준 자기 어텐션 메커니즘은 시퀀스 길이에 따라 계산 비용이 기하급수적으로 증가하는 문제를 개선하기 위한 노력 진행 중.
CLIP 프레임워크는 이미지-텍스트 검색과 같은 다중 모달 표현 학습에서 중요한 역할을 하고 있지만, 텍스트 입력에 제한이 있고 이미지와 텍스트 처리를 분리하는 이중 인코더 설계 등 몇 가지 한계가 있습니다. UniME는 이러한 한계를 극복하고 세분화된 표현을 캡처하는 데 효과적입니다.
LLMs와 추론 작업에 더 많은 계산을 활용하기 위해 고품질의 프로세스 보상 모델(PRMs)이 필요하다. 이 모델은 문제-해결 쌍에 점수를 매겨 해결책이 올바른지 나타내며, 판별적 분류기로 구현되어 왔다. 그러나 이러한 모델은 인간 주석, 골드 단계별 솔루션 등 많은 리소스를 필요로 한다.
AI 모델은 음성, 음악 및 기타 형태의 오디오 콘텐츠 생성에서 놀라운 발전을 이루어왔으며, 교류, 엔터테인먼트, 인간-컴퓨터 상호작용 분야에서 가능성을 확장시켰다. 그러나 이러한 모델이 성장함에 따라 평가가 더 중요해지고 있다.
USC 연구진은 LoRA를 이용해 비용 효율적인 강화 학습을 위한 Tina를 소개했습니다. Tina는 강력한 다단계 추론을 달성함에 있어 중요한 역할을 합니다. 과학 연구와 전략 계획과 같은 복잡한 문제 해결 분야에서 이러한 추론이 중요합니다. 모델들이 단계별 추론 데모를 통해 학습하는 지도 미세조정(SFT)을 포함한 전통적인 추론 기술을 향상시키는 것이 주요 과제입니다.
LLM 기반의 다중 에이전트 시스템은 계획, 추론, 도구 사용, 기억 능력을 가지며 챗봇, 코드 생성, 수학, 로봇학 등 다양한 응용 프로그램의 기반을 형성한다. 그러나 수동으로 설계되어 고인적인 비용과 확장성 제약으로 인해 중요한 도전에 직면했다. 그래프 기반 방법은 워크플로 디자인을 자동화하기 위해 노력해왔다.
언어 모델은 다양한 작업에서 뛰어난 성능을 보이지만 복잡한 추론은 계산 리소스와 전문 기술이 추가로 필요하여 도전적이다. 이에 따라 추론 시간 계산(ITC) 스케일링 방법이 발전되었는데, 이는 모델 출력을 향상시키기 위해 추가 계산 리소스를 할당하는 방법이다.
고해상도 이미지에 대한 AR 모델의 확장은 계산 비용이 급증하는 문제를 제기하고 있는데, Meta AI가 이미지 토큰을 줄이는 간단한 AI 접근 방법인 Token-Shuffle을 소개했다.
AgentA/B는 LLM 에이전트를 활용하여 실제 사용자 행동을 시뮬레이션하고 라이브 웹 플랫폼에서 전통적인 A/B 테스팅을 변형하는 확장 가능한 AI 시스템이다. 웹 인터페이스 설계 및 평가는 디지털 선도적인 세계에서 가장 중요한 작업 중 하나이며, 레이아웃, 요소 위치, 또는 탐색 논리의 변경은 사용자가 웹사이트와 상호 작용하는 방식에 영향을 줄 수 있다.
Skywork AI는 강점인 특화된 추론 능력을 강화하면서도 다양한 작업에 대한 일반화를 유지하는 것에 대한 도전에 집중하고 있습니다. 최근의 연구에서, 시각적 이해 작업에 대한 성능 저하와 시각적 환각 증세 증가로 인해 ‘느린 사고’ 모델이 제안되었습니다.
밀라와 몬트리올 대학 연구진은 FoX를 소개하여 장거리 맥락 언어 모델링을 향상시키고 효율성을 희생하지 않는다. 이 모델은 트랜스포머의 장점을 살리면서 순환 신경망에서 발견되는 핵심 기능도 갖추고 있다.

최근 대조적 언어-이미지 모델인 CLIP가 시각 표현 학습에서 표준 선택으로 자리매김했지만, 이는 언어 감독을 통해 의미론적 근거를 통합함으로써 텍스트 의존성을 도입한다. Meta AI는 이러한 제약을 해결하기 위해 Web-SSL을 발표했다.
긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.
NVIDIA가 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 모델인 ‘Describe Anything 3B’를 발표했다. 시각-언어 모델에서 이미지나 비디오의 특정 영역을 설명하는 것은 어려운 문제인데, 이 모델은 세부적이고 지역별 설명을 생성하는 데 탁월한 성과를 보여준다.

그동안 딥러닝 모델이 기억에서 일반화로의 지연된 전환을 보이는 현상인 ‘그록킹’에 대한 연구가 늘어나고 있는데, 마이크로소프트 연구원들이 옵티마이저가 이 지연된 일반화에 미치는 영향을 탐구하며 Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화하는 것을 발견했다.
디커플드 디퓨전 트랜스포머는 이미지 생성 작업에서 우수한 성능을 보이며 기존 GAN 및 자기 회귀 아키텍처를 능가한다. 이미지에 점진적으로 노이즈를 추가하고 이 과정을 거꾸로 되돌리는 방식으로 작동하여 데이터 분포를 근사하는 모델을 구현한다.

Eagle 2.5는 GPT-4o와 같은 비디오 작업에서 8B 매개변수를 사용하여 일반적인 비전-언어 모델로 작동하며, 긴 문맥 다중모달 데이터를 효과적으로 처리하는 능력을 갖추고 있음.
LLMs가 의료 분야에서 중요해지면서 신뢰할 수 있는 소스가 그들의 결과물을 뒷받침하는 것이 점점 중요해지고 있다. 아직 FDA가 임상 의사 결정에 승인한 LLM은 없지만, GPT-4o, Claude, MedPaLM과 같은 최고 모델은 USMLE과 같은 표준 시험에서 의사를 능가했다. 이러한 모델들은 이미 정신 건강과 같은 현실적 상황에서 활용되고 있다.
비디오 생성은 시간에 걸쳐 움직임과 시각적 현실을 시뮬레이트하는 이미지 시퀀스를 만드는 컴퓨터 비전 및 머신 러닝 분야다. 스탠포드 대학 연구진은 FramePack라는 압축 기반 AI 프레임워크를 제안하여 장기 시퀀스 비디오 생성 시 발생하는 Drifting과 Forgetting 문제를 효율적인 컨텍스트 관리와 샘플링을 이용해 해결하는 방안을 제시했다.
Reinforcement learning은 LLM의 추론 능력을 향상시키는 강력한 기법이지만, 숫자 계산이나 기호 조작이 필요한 작업에서 한계가 있다. ReTool은 이러한 한계를 극복하기 위한 도구-Augmented 강화 학습 프레임워크다.
대형 언어 모델(LLMs)은 복잡한 추론 작업을 처리하는 능력으로 주목받고 있으며, Letta와 UC 버클리의 연구자들은 유휴 상태에서 컴퓨팅을 확장하여 더 어려운 문제에 더 많은 리소스를 할당함으로써 더 높은 정확도를 달성하는 ‘슬립 타임 컴퓨트’를 소개했다.
대형 언어 모델(LLMs)은 방대한 양의 텍스트 데이터를 소화하면서 지식을 업데이트하는데 그들을 속일 수 있는 놀라운 데이터가 있을 수 있다. Google DeepMind는 이를 예측하고 줄이기 위한 새로운 기술을 소개하고 있다.
푸리에 신경 오퍼레이터(FNO)는 편미분 방정식 해결 오퍼레이터를 학습하는 강력한 도구이지만, 아키텍처에 대한 최적화가 부족하다. FFT – GEMM – iFFT의 계산 패턴이 더 많은 주목을 받고 있다. UC 리버사이드의 연구자들은 TurboFNO를 소개하여 PyTorch보다 최대 150% 속도 향상을 달성했다.

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.

NVIDIA가 CLIMB 프레임워크를 소개했다. 대규모 언어 모델이 커짐에 따라, 사전 학습 데이터 선택은 중요해졌다. CLIMB은 최적화된 데이터 혼합을 위한 프레임워크로, 이는 후속 성능에 영향을 미친다.
UC 버클리와 AI2 연구원들이 발표한 연구에 따르면, LLMs는 소량의 데이터로도 어려운 수학 문제를 해결할 수 있게 되었습니다. 최근 소규모 지도 파인튜닝 접근법들이 수학 문제 해결 능력을 현저히 향상시켰으며, 모델이 훈련 데이터를 넘어 일반화하는지 여부에 대한 근본적인 질문이 남아 있습니다.
최근 LLMs의 영역은 외부 지식을 추론 프로세스에 통합하는 도구를 포함하도록 신속히 발전해왔습니다. 이 방향으로의 중요한 발전 중 하나는 RAG(검색 증강 생성)인데, 이를 통해 모델이 데이터베이스와 검색 엔진을 쿼리하여 훈련 중에 포함되지 않은 최신이나 특수 정보를 얻을 수 있습니다. RAG는 지식 집중적 작업에서 성능을 향상시킵니다.
Meta AI가 소개한 Perception Encoder는 이미지와 비디오에 걸쳐 다양한 시각 작업을 뛰어나게 처리하는 대규모 비전 인코더다. AI 시스템이 점점 다중 모달로 발전함에 따라 시각 지각 모델의 역할은 더 복잡해지고 있다. 기존의 비전 인코더는 물체와 장면을 인식하는 것뿐만 아니라 캡션, 질문 응답, 세부 인식, 문서 구문 분석, 이미지와 비디오 모두에 걸쳐 공간 추론을 지원해야 한다.
수학 및 프로그래밍 분야의 복잡한 문제 해결에 효율적인 추론이 중요하며, LLMs는 연쇄 추론을 통해 상당한 향상을 보여줌. 그러나 트랜스포머 기반 모델은 장기 시퀀스를 효율적으로 처리하는 것이 어렵기 때문에 한계가 있음. 이에 TogetherAI, Cornell, Geneva, Princeton 연구진이 M1이라는 하이브리드 AI를 소개하며 최신 성능을 3배의 추론 속도로 달성함.
MLLM은 최근 세밀한 픽셀 수준 시각적 이해를 다루는 데 진전되어 정확한 영역 기반 편집 및 분할과 같은 작업에 확장되었습니다. 기존 방법들은 복잡한 아키텍처에 의존하는데, 이를 극복하기 위해 바이트댄스와 WHU의 연구자들이 픽셀-SAIL을 소개하며 7B MLLMs를 능가했습니다.