
YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.

YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.

구글이 Gemini 3.1 Flash-Lite를 공개했다. 고성능 작업에 최적화된 이 모델은 낮은 지연시간과 토큰 당 비용을 중점으로 고안되었다. 현재 Gemini API 및 Vertex AI를 통해 Public Preview로 이용 가능하다.

Generative AI의 발전은 잠재 확산 모델(LDMs)에 많이 의존하고 있습니다. 잠재 공간으로 데이터를 압축함으로써 모델이 효과적으로 확장될 수 있습니다. 그러나 낮은 정보 밀도는 잠재 변수를 학습하기 쉽게 만들지만 재구성 품질을 희생시키는 기본적인 트레이드오프가 존재합니다.

Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.

Microsoft의 연구진은 CORPGEN을 소개했는데, 이는 계층적 계획과 메모리를 활용하여 자율형 디지털 직원을 통해 현실적인 조직 업무의 복잡성을 관리하는 데 사용되는 아키텍처에 중립적인 프레임워크이다. 기존의 AI 에이전트는 단일 작업에 대해 평가되지만, 실제 기업 환경에서는 복잡한 종속성을 가진 여러 작업을 동시에 처리해야 한다.
이 튜토리얼에서는 asyncio를 사용하여 Practical Byzantine Fault Tolerance (PBFT) 시뮬레이터를 구현한다. 비동기 메시지 패싱, 구성 가능한 지연 및 프로토콜에서 의도적으로 벗어나는 바이잔틴 노드를 모델링하여 PBFT가 적대적 상황에서 합의를 달성하는 방법을 탐색한다.

알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.
구글 딥마인드 연구팀은 MARL 분야에서 진보를 위해 직관에 의존했던 기존의 방식을 변화시켜, CFR 및 PSRO와 같은 알고리즘을 수동으로 개선하는 대신 의미론적 진화를 적용하여 우수한 알고리즘 수렴을 이룩했다.

Zyphra가 EEG 신호에 특화된 380M 파라미터 foundation 모델인 ZUNA를 공개했다. ZUNA는 채널 인필링과 초해상도를 수행하는 마스크된 확산 오토인코더로, Apache-2.0 라이선스 하에 가중치가 포함되어 있다.

Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 ‘거친 계곡’을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.
구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, ‘에이전틱 웹’이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.

NVIDIA가 VibeTensor를 공개했는데, 이는 딥러닝을 위한 오픈소스 연구 시스템 소프트웨어 스택이다. VibeTensor는 LLM 기반 코딩 에이전트에 의해 고수준의 인간 안내 아래 생성되었다. 이 시스템은 코딩 에이전트가 Python과 JavaScript API에서 C++ 런타임 구성 요소 및 CUDA 메모리 관리까지 포괄하는 일관된 딥러닝 런타임을 생성할 수 있는지에 대한 구체적인 질문을 제기한다.
이 튜토리얼에서는 고정된 오프라인 데이터로만 학습하는 안전 중요한 강화 학습 파이프라인을 구축한다. 사용자 정책에서 행동 데이터셋을 생성하고, d3rlpy를 사용하여 행동 복제 기준선과 보수적인 Q-Learning 에이전트를 모두 훈련시킨다.

Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.

AI2가 SERA(Soft Verified Efficient Repository Agents)를 소개했다. SERA는 감독 학습과 합성 경로만 사용하여 훨씬 큰 폐쇄 시스템과 맞추기 위해 개발된 코딩 에이전트 패밀리다. SERA는 AI2의 오픈 코딩 에이전트 시리즈의 첫 번째 릴리스이며, 주요 모델인 SERA-32B는…
이 튜토리얼에서는 PyKEEN을 사용하여 지식 그래프 임베딩에 대한 고급 워크플로우를 살펴보며 현대적인 임베딩 모델이 어떻게 실제로 훈련, 평가, 최적화 및 해석되는지를 탐색합니다. 실제 지식 그래프 데이터셋의 구조를 이해한 후 여러 임베딩 모델을 체계적으로 훈련하고 비교하며 하이퍼파라미터를 조정하고 분석합니다.
PyTorch를 이용해 현대적이고 미분 가능한 컴퓨터 비전을 구축하는 방법을 보여주는 Kornia 튜토리얼을 구현하고, GPU 가속화된 동기화된 이미지, 마스크, 키포인트 증강 파이프라인을 구축한 후 그래디언트 하강을 통해 직접 호모그래피를 최적화하는 미분 가능한 기하와 LoFTR을 통한 특징 매칭을 소개합니다.

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.
StepFun은 웹 검색을 실제 연구 워크플로우로 변환하는데 목표를 둔 32B 파라미터 엔드 투 엔드 심층 연구 에이전트 Step-DeepResearch를 소개했다. 모델은 Qwen2.5 32B-Base 위에 구축되었으며 장기적인 추론, 도구 사용 및 구조화된 보고를 통한 웹 검색을 연구로 전환한다.
이 튜토리얼에서는 정적 CVSS 점수 이상의 취약점을 우선순위를 지정하기 위해 의미 이해와 기계 학습을 사용하는 AI 보조 취약점 스캐너를 구축합니다. 취약점 설명을 풍부한 언어적 자산으로 취급하고 현대적인 문장 변환기를 사용하여 그것들을 임베딩하며 이러한 표현을 구조 메타데이터와 결합하여 데이터 주도형 우선순위 점수를 생성합니다.

Chroma 1.0은 스피커 식별을 유지하면서 오디오를 입력으로 받아들이고 출력으로 반환하는 실시간 음성-음성 대화 모델이다. 낮은 대기 시간 상호작용과 높은 품질의 개인화된 음성 클로닝을 결합한 최초의 오픈 소스 음성 대화 시스템으로 소개된다.
AutoGluon을 사용하여 현대적인 AutoML 파이프라인을 구축하고 고급 타블러 머신러닝 모델을 생성하는 튜토리얼. 다양한 유형의 데이터셋을 활용하여 앙상블 모델을 훈련하고 성능을 평가하며 실시간 추론을 위해 모델을 최적화하는 방법을 소개.

Liquid AI가 1.2B 파라미터 추론 모델 ‘LFM2.5-1.2B-Thinking’을 출시했다. 최신 폰에서 약 900MB 용량으로 완전히 기기 내에서 실행되며, 구조화된 추론 트레이스, 도구 사용, 수학에 중점을 둔다.
Microsoft Research가 OptiMind를 출시했다. 이는 자연어로 된 복잡한 의사결정 문제를 최적화 솔버가 실행할 수 있는 수학적 공식으로 변환하는 AI 기반 시스템이다. 이는 전문가 모델러와 수일간의 작업이 필요했던 오퍼레이션 리서치의 병목 현상을 해결한다.

구글 AI 연구팀이 MedGemma-1.5를 발표했다. 이 모델은 의료 영상, 텍스트 및 음성 시스템을 구축하고 지역 워크플로와 규정에 적응하려는 개발자들을 위한 오픈 출발점으로 제공된다.

AI 관측성은 AI 시스템을 이해하고 모니터링하며 고유한 메트릭을 추적하여평가하는 능력을 의미합니다. 대형 언어 모델(LLMs) 및 다른 생성형 AI 응용 프로그램은 확률적이므로 고정된 투명한 실행 경로를 따르지 않습니다.

스탠포드 의학 연구진이 SleepFM Clinical을 소개했는데, 이는 임상 다중 모달 수면 기반 모델로, 임상 다중모달 다뇨종합검사로부터 학습하고 단 하룻밤의 수면으로 장기 질병 위험을 예측한다.

TII 아부다비가 Falcon-H1R-7B를 발표했습니다. 이 모델은 7B 파라미터로 수학, 코딩 및 일반 벤치마크에서 많은 14B에서 47B 모델을 능가하면서도 효율적이고 효율적입니다.

Liquid AI가 LFM2.5를 소개했는데, LFM2 아키텍처를 기반으로 한 작은 foundation 모델 세대로, 장치 및 엣지 배포에 초점을 맞추고 있다. LFM2.5-1.2B-Base와 LFM2.5-1.2B-Instruct를 포함하며 일본어, 시각 언어, 음성 언어 변형도 제공한다. Hugging Face에서 오픈 웨이트로 출시되었다.

Recursive Language Models는 대규모 언어 모델에서 일반적으로 발생하는 문맥 길이, 정확도 및 비용 사이의 상충 관계를 깨려고 한다. RLM은 모델이 하나의 거대한 프롬프트를 한 번에 읽도록 강요하는 대신, 프롬프트를 외부 환경으로 취급하고 모델이 코드로 어떻게 조사할지 결정한 다음 재귀적으로 호출한다.
LLMRouter는 일리노이스 대학교 어바나 샴페인 캠퍼스의 U Lab에서 개발된 오픈 소스 라우팅 라이브러리로, 각 쿼리에 대해 작업 복잡성, 품질 목표 및 비용을 기반으로 모델을 선택하여 모델 선택을 시스템 문제로 취급합니다.
구글이 FunctionGemma를 출시했다. Gemma 3 270M 모델을 기반으로 훈련된 이 모델은 함수 호출을 위해 특별히 설계되었고 자연어를 실행 가능한 API 액션으로 매핑하는 엣지 에이전트로 작동한다.
이 튜토리얼에서는 Agentic AI의 최첨단 기술을 활용하여 인간 뇌처럼 정보를 조직하는 “Zettelkasten” 메모리 시스템을 구축한다. 표준 검색 방법을 넘어 에이전트가 입력을 원자적 사실로 자율적으로 분해하고 의미론적으로 연결하는 동적 지식 그래프를 구축한다.
구글 헬스 AI 팀이 MedASR을 공개했다. MedASR은 임상 사전작성과 의사-환자 대화를 대상으로 한 오픈 가중치 의료 음성 대본 모델로, 현대 AI 워크플로에 직접 통합될 수 있도록 설계되었다. MedASR은 Conformer 아키텍처를 기반으로 한 음성 대본 모델이다.
구글 딥마인드 연구원들이 Gemma Scope 2를 소개했다. 이는 Gemma 3 언어 모델이 270M에서 27B 파라미터에 이르는 모든 레이어에서 정보를 처리하고 표현하는 방법을 노출하는 해석성 도구 모음이다. 주요 목표는 AI 안전 및 정렬 팀들이 모델 동작을 내부 기능으로 역추적할 수 있는 실용적인 방법을 제공하는 것이다.

NVIDIA가 Nemotron 3 패밀리를 발표했는데, 이는 agentic AI를 위한 완전한 스택으로, 모델 가중치, 데이터셋 및 강화 학습 도구를 포함한다. 이 패밀리는 Nano, Super, Ultra 세 가지 크기로 나뉘어 있으며, 긴 문맥 추론과 추론 비용에 엄격한 제어가 필요한 다중 에이전트 시스템을 대상으로 한다.

구글이 T5Gemma 2를 발표했다. Gemma 3 사전 훈련 가중치를 인코더-디코더 레이아웃으로 적응시킨 후, UL2 목적으로 사전 훈련을 계속했다. 개발자들을 위해 사전 훈련된 상태로 제공되며 특정 작업을 위해 추가 훈련할 수 있도록 의도되었다.
Unsloth와 NVIDIA는 RTX 데스크탑부터 DGX Spark까지 NVIDIA RTX AI PC를 사용하여 인기 있는 AI 모델을 빠르게 Fine-tuning하여 코딩, 창의적 작업 및 복잡한 업무에 맞는 맞춤형 어시스턴트를 구축할 수 있습니다.

Thinking Machines Lab은 Tinker 훈련 API를 일반적으로 사용 가능하게 하고, Kimi K2 Thinking 추론 모델 지원, OpenAI 호환 샘플링, Qwen3-VL 비전 언어 모델을 통한 이미지 입력을 추가했습니다. AI 엔지니어들에게는 분산 훈련을 구축하지 않고도 선두 모델을 세밀하게 조정할 수 있는 실용적인 방법으로 변모시켰습니다.

Marktechpost의 ML 글로벌 영향 보고서에 따르면, ML 도구의 원산지와 연구 채택 사이에 지리적 불균형이 있음을 밝혀냄. 125개국에서 발표된 5,000여편의 논문을 분석한 결과, 특정 연구 영역에서의 불균형을 보여줌.

Apple과 에든버러 대학의 연구팀이 CLaRa를 발표했다. CLaRa는 연속 잠재 추론을 사용하여 시멘틱 문서를 압축하는 기능을 제공한다.

NVIDIA와 Mistral AI의 전략적 협력 확대로 Mistral 3 패밀리의 새로운 모델 출시와 함께 추론 속도가 10배 향상되었다. 이는 하드웨어 가속화와 오픈 소스 모델 아키텍처가 만나 성능 기준을 재정의한 중대한 순간이다.

DeepSeek 연구팀이 DeepSeek-V3.2 및 DeepSeek-V3.2-Speciale을 소개했다. 이 모델들은 에이전트를 위한 고품질 추론, 장문맥, 에이전트 워크플로우를 지향하며 열린 가중치와 제품 API를 갖췄다.

MiniMax-M2는 AI 코딩 환경을 혁신하며, 고성능이 높은 비용이나 레이턴시로 이어지는 문제를 해결한다. 이 기사는 MiniMax-M2에 대한 기술적 개요를 제공한다.

UNC-Chapel Hill, Salesforce Research 및 Stanford University의 연구자들이 소개한 ‘Agent0’는 외부 데이터 없이 고성능 에이전트를 다단계 공진을 통해 진화시키는 완전 자율형 프레임워크이다.

Allen Institute for AI (AI2)가 오픈 소스로 출시한 Olmo 3는 전체 ‘모델 플로우’를 노출하는데, 원시 데이터 및 코드부터 중간 체크포인트 및 배포 준비 모델까지 포함하고 있습니다. Olmo 3은 7B 및 32B 파라미터 모델을 갖춘 밀도 변환기 스위트입니다.

Uni-MoE-2.0-Omni은 텍스트, 이미지, 오디오, 비디오를 신뢰성 있게 이해하는 오픈 모델로, 하비른 공과대학의 연구진이 소개했다. 이 시스템은 언어 중심의 다중 모달 추론을 위해 Lychee의 Uni-MoE 라인을 발전시킨 것으로, 효율적으로 운영된다.
이 튜토리얼에서는 JAX, Flax, 및 Optax를 사용하여 효율적이고 모듈화된 방식으로 고급 신경망을 구축하고 훈련하는 방법을 탐구합니다. 잔여 연결 및 Self-Attention 메커니즘을 통합한 심층 아키텍처를 설계한 후 학습률 스케줄링과 같은 정교한 최적화 전략을 구현합니다.

구글 연구자들이 소개한 Nested Learning은 모델을 하나의 외부 루프로 훈련된 단일 네트워크가 아닌 작은 중첩 최적화 문제의 모음으로 처리하는 기계 학습 접근 방식으로, 이전에 학습한 내용을 잊지 않고 새로운 정보를 계속 학습할 수 있는 AI 시스템을 구축하는 방법을 모색한다.
이 튜토리얼에서는 전사체, 단백체, 대사체를 포함한 통합 옴익스 데이터를 해석하여 주요 생물학적 통찰을 발견하는 고급 다중 에이전트 파이프라인을 구축합니다. 실제 생물학적 추세를 모방하는 일관된 합성 데이터 세트를 생성하고, 통계 분석, 네트워크 추론, 경로 풍부화, 약물 재활용을 위해 설계된 에이전트를 단계별로 진행합니다.

MIT 박사과정 학생들이 MIT-IBM 왓슨 AI 연구소 여름 프로그램에 인턴으로 참여해 AI 도구를 더 유연하고 효율적이며 진실에 기반한 방향으로 발전시키고 있다.

구글 AI가 일관성 훈련을 도입하여 언어 모델이 아부지파 프롬프트와 탈옥 스타일 공격에 저항하면서 능력을 유지하는 방법. 대형 언어 모델은 종종 칭찬이나 롤플레이로 둘러싸인 동일한 작업에 대해 안전하게 응답한 뒤 행동을 바꿀 수 있다. DeepMind 연구원들은 이를 위해 간단한 훈련 렌즈에서 일관성 훈련을 제안한다.

대규모 언어 모델이 텍스트 토큰을 보내지 않고 협업할 수 있는지 연구팀이 증명했다. 캐시-투-캐시(C2C)는 대규모 언어 모델이 KV-Cache를 통해 정보를 교환하는 새로운 통신 패러다임이다.

Anthropics의 새 연구는 대형 언어 모델인 Claude가 자체 내부 상태를 인지하는지 아니면 훈련 데이터에서 반복하는지 구별하는 방법을 살펴봅니다. 현재 Claude 모델이 자신의 능력에 대해 이야기하는 것 이상을 할 수 있는지 살펴보며, 주입된 개념을 감지할 수 있는지에 대해 질문을 제기합니다.

Ant Group의 Inclusion AI 팀이 Ling 2.0을 출시했다. 이 모델은 각 토큰의 계산을 거의 바꾸지 않으면서 용량이 증가하는 언어 모델로, 추론 능력을 향상시키는 원리에 기반한다.

Liquid AI사가 LFM2-ColBERT-350M을 출시했다. 이 모델은 다국어 및 교차언어 검색을 위한 소형 late interaction retriever로, 한 언어로 문서를 색인하고 다른 언어로 쿼리를 작성해도 높은 정확도로 검색 결과를 반환한다.

‘kvcached’는 공유 GPU에서 LLM 서빙을 위해 가상화된 탄력있는 KV 캐시를 가능하게 하는 머신러닝 라이브러리입니다. 기존에는 모델당 큰 정적 KV 캐시 영역을 미리 예약하여 GPU 메모리를 낭비했지만, kvcached를 사용하면 이를 최적화할 수 있습니다.
구글 연구팀이 FLAME을 제안했는데, 이는 강력한 오픈 어휘 탐지기를 기반으로 한 단일 단계의 액티브 러닝 전략으로, 훈련할 수 있는 작은 정교화기를 추가하여 가장 정보가 풍부한 샘플을 선택하고 모델 전문화를 빠르게 만드는 방법이다.
스탠포드, EPFL, UNC의 연구진은 약한 메타 에이전트가 강한 실행 모델을 부르는 코드 워크플로를 설계하고 개선하는 새로운 강화 학습 프레임워크인 Weak-for-Strong Harnessing, W4S를 소개했다. 이 메타 에이전트는 강한 모델을 세밀하게 조정하는 것이 아니라 조정하는 방법을 학습한다. W4S는 워크플로 디자인을 다중 턴으로 형식화한다.
바이두의 PaddlePaddle 팀이 PaddleOCR-VL을 출시했습니다. 이 모델은 다국어 문서를 Markdown/JSON으로 변환하는데 사용되며, 텍스트, 표, 수식, 차트, 필기체 등을 구문 분석하는 데 적합합니다.
구글 AI 팀이 C2S-Scale 27B 모델을 발표했다. 이 모델은 270억 개의 매개변수를 갖춘 단일 세포 분석을 위한 모델로, 단일 세포 RNA-seq(scRNA-seq) 프로필을 ‘셀 문장’으로 형식화하여 언어 모델이 세포 상태를 자연스럽게 분석할 수 있게 했다.
NVIDIA 연구진은 MIT, HKU, Tsinghua과 협력하여 오픈소스 QeRL(Quantization-enhanced Reinforcement Learning)을 소개했다. 이 프레임워크는 4비트 FP4로 강화 학습(Reinforcement Learning) 후 훈련을 밀어넣는다.
SwiReasoning은 추론 LLM이 다음 토큰 분포의 엔트로피 추세를 기반으로 블록 단위 신뢰도를 추정하여 잠재 공간에서 생각할지 명시적 사고 체인을 쓸지 결정할 수 있는 디코딩 시간 프레임워크다. 이 방법은 훈련 없이 모델에 대해 Pareto-우수한 정확도/효율성 트레이드오프를 목표로 하며, 수학 및 STEM 벤치마크에서 +1.5%~2.8% 평균 정확도 향상을 보여준다.
스탠포드 대학의 연구진과 ETH 취리히, Google Research, Amazon과의 협업으로 새로운 시계열 언어 모델인 OpenTSLM이 소개되었다. 이 모델은 현재의 LLMs의 한계를 극복하여 의료 분석에 혁신을 가져오고 있다.
스탠포드 대학교, SambaNova Systems, UC 버클리에서 연구진이 소개한 ACE 프레임워크는 LLM 성능을 향상시키는데 모델 가중치를 업데이트하는 대신 입력 컨텍스트를 편집하고 확장함으로써 작동합니다. 컨텍스트는 Generator, Reflector, Curator 세 가지 역할에 의해 유지되며 간결성 편향을 피하기 위해 작은 델타 항목이 점진적으로 병합됩니다.
XGBoost의 분석적 능력과 LangChain의 대화형 지능을 결합하여, 합성 데이터셋 생성부터 XGBoost 모델 학습, 성능 평가, 주요 인사이트 시각화까지 가능한 파이프라인을 구축하는 튜토리얼. 대화형 AI가 원활하게 상호작용할 수 있는 방법을 보여줌.
Salesforce AI Research가 CoDA-1.7B를 발표했다. 이는 양방향 컨텍스트를 사용하여 전체 시퀀스를 정제하고, 왼쪽에서 오른쪽으로 다음 토큰 예측이 아닌 병렬로 여러 토큰을 업데이트하는 코드용 확산 기반 언어 모델이다.
이 코딩 구현에서는 텍스트 시퀀스에서 연속적인 수치 값을 직접 예측하는 회귀 언어 모델(RLM)을 구축한다. 자연어 설명 안에 숨겨진 양적 관계를 학습하는 트랜스포머 기반 아키텍처를 훈련하는데 초점을 맞춘다. 합성 텍스트-숫자 데이터 생성부터 시작해서 효율적으로 토큰화한다.
Google Cloud AI Research과 MIT, 하버드, Google DeepMind의 협력자들이 TUMIX (도구 사용 혼합)를 소개했다. 이는 이질적인 에이전트 스타일(텍스트, 코드, 검색, 가이드된 변형)을 앙상블하는 테스트 시간 프레임워크이다.
코넬과 구글의 연구진은 코드 문자열에서 직접 숫자 결과를 예측하는 통합 회귀 언어 모델(RLM)을 소개했습니다. 이 모델은 GPU 커널 지연, 프로그램 메모리 사용량, 심지어 신경망 정확도와 지연까지 손수 조작된 특성 없이 예측합니다. T5-Gemma에서 초기화된 300M 파라미터 인코더-디코더는 단일 텍스트-숫자 디코더를 사용하여 이질적 작업과 언어 간 강력한 순위 상관관계를 달성합니다.
IBM은 Granite 4.0을 출시했는데, 이는 모노리딕 트랜스포머 대신 하이브리드 Mamba-2/Transformer 스택을 사용하여 서빙 메모리를 줄이고 품질을 유지한다. 다양한 사이즈의 모델들이 제공되며, 이들은 Apache-2.0로 공개되었다.
ServiceNow AI 연구소가 Apriel-1.5-15B-Thinker를 공개했다. 이 모델은 강화 학습이나 선호도 최적화 없이 데이터 중심 중간 학습 레시피로 훈련된 150억 개의 오픈 가중치 다중 모달 추론 모델로, 단일 GPU 예산에서 SOTA 대비 8배의 비용 절감으로 인공 분석 지능 지수 52를 달성한다.
DeepSeek가 DeepSeek Sparse Attention (DSA)를 추가한 DeepSeek-V3.2-Exp를 출시했다. 이 업데이트는 장문 맥락 효율성을 높이기 위한 훈련 가능한 희소화 경로를 제공한다. 또한 API 가격을 50% 이상 할인하여 효율성 향상을 보여줬다. 새로운 업데이트는 V3/V3.1 스택(MoE + MLA)을 유지하고 두 단계의 어텐션 경로를 삽입했다.
메타 FAIR가 320억 개의 파라미터로 이루어진 CWM을 공개했다. 이 모델은 코드 생성에 세계 모델링을 삽입하여 실행 추적 및 장기적 상호작용을 통해 학습하며, 코드를 예측함으로써 중간 훈련을 수행한다.
MIT CSAIL 연구진은 PDDL-INSTRUCT를 소개하여 대화식 계획 수립 성능을 향상시키고 LLM의 심볼릭 계획 성능을 높였다. 조정된 Llama-3-8B 모델은 Blocksworld에서 94%의 유효한 계획을 달성했다.
메타 연구원들은 반복되는 추론 패턴을 짧고 이름이 붙은 절차, “행동”,으로 압축한 다음 모델이 추론 시 사용하거나 미세 조정을 통해 정제하는 방법을 소개했다. 결과적으로 MATH에서 추론 토큰 수를 최대 46% 절감하면서 정확도를 유지 또는 향상시키고, AIME에서는 자가 개선 환경에서 최대 10%의 정확도 향상을 이끌어냈다.

Stability AI의 Alex Gnibus와 함께 작성된 이 게시물에서 Stability AI 이미지 서비스가 Amazon Bedrock에서 이용 가능하며, Amazon Bedrock API를 통해 제공되는 사용 준비가 완료된 미디어 편집 기능을 제공합니다. 이 이미지 편집 도구는 Stability AI의 Stable Diffusion 3.5 모델(SD3.5) 및 Stable Image Core 및 Ultra 모델의 기능을 확장합니다.
Zarr 라이브러리의 기능을 깊이 파헤치는 튜토리얼. 대규모 다차원 배열의 효율적인 저장 및 조작을 위해 설계된 Zarr의 기본부터 시작하여 청킹 전략 설정, 직접 디스크에서 값 수정 등의 고급 작업까지 탐색.
Google Research가 200M 파라미터의 TimesFM-2.5를 공개했다. 이 모델은 16K 컨텍스트 길이와 원천 확률 예측 지원을 갖추고 있으며, GIFT-Eval에서 최상의 정확성 지표(MASE, CRPS)를 기록하고 있다. 시계열 예측은 무엇인가? 시계열 예측은 [ … ]
MoonshotAI가 checkpoint-engine을 오픈소스로 공개했다. 이는 대규모 언어 모델(Large Language Model, LLM) 배포에서 주요 병목 현상 중 하나인 수천 개의 GPU에서 모델 가중치를 신속하게 업데이트하고 추론을 방해하지 않는 것을 목표로 한 경량 미들웨어이다. 라이브러리는 특히 강화 학습 및 강화 학습과 인간 피드백(RLHF)을 위해 설계되었으며, 모델이 빈번히 업데이트되고 다운타임이 발생하는 경우에 유용하다.
Meta가 MobileLLM-R1을 출시했습니다. 이는 Hugging Face에서 사용 가능한 가벼운 엣지 추론 모델로, 140M에서 950M의 파라미터를 가진 모델들이 포함되어 있습니다. 일반적인 챗봇 모델과는 달리 MobileLLM-R1은 엣지 배포용으로 설계되어 있어 최신 추론 정확도를 제공합니다.
구글 AI 연구팀과 딥마인드가 디퍼렌셜 프라이버시(DP)로 완전히 훈련된 최대 규모의 오픈 가중치 대형 언어 모델인 VaultGemma 1B를 공개했다. 이는 강력하면서도 프라이버시 보호가 가능한 AI 모델 구축으로 나아가는 중요한 한걸음이다.
BentoML은 llm-optimizer를 출시했는데, 이는 self-hosted large language models (LLMs)의 벤치마킹과 성능 튜닝을 간소화하기 위해 설계된 오픈 소스 프레임워크이다. 이 도구는 LLM 배포에서의 최적의 구성을 찾는 것과 같은 일반적인 도전에 대처하며, 수동 시행착오 없이 지연 시간, 처리량 및 비용에 대한 최적화된 구성을 찾는 데 도움을 준다.
MBZUAI의 연구진이 고급 AI 추론을 위한 32B-파라미터 오픈 추론 시스템 K2 Think을 발표했다. 이 시스템은 강화 학습, 테스트 시 스케일링, 추론 최적화 등을 결합하여 선두적인 성능을 보여준다.
Tilde AI가 TildeOpen LLM을 공개했다. 이 모델은 300억개 이상의 파라미터를 가지며 유럽어에 특화되어 있어 소수 언어에도 주목한다. EU 내 언어 균형과 디지털 주권을 강화하는 전략적인 발전이다.
대형 언어 모델은 종종 “환각”을 생성하는데, 이는 올바르지만 잘못된 출력을 확신하며 가능성이 있는 것으로 보인다. OpenAI의 새로운 연구는 환각이 교사 지도 학습과 자기 지도 학습의 통계적 특성에서 비롯되며, 그 지속성은 평가 기준의 불일치로 강화된다는 엄밀한 설명을 제공한다.
이 튜토리얼에서는 로컬에서 실행되는 무료 허깅페이스 모델을 사용하여 계층적 추론 모델(HRM)의 정신을 재현하고 가벼우면서도 구조화된 추론 에이전트의 설계를 안내합니다. 문제를 하위 목표로 분해하고 Python으로 해결함으로써 우리는 설계자이자 실험자 역할을 수행합니다.
대형 언어 모델(LLM)은 AI의 다양한 분야에서 중요한 역할을 하고 있지만, 이들은 상태를 유지하지 못하는 한계가 있다. 쿼리마다 이전 정보를 기억하지 못하고 고정된 컨텍스트 창으로 장기 대화나 멀티세션 작업에서 계속된 지식을 축적할 수 없다. 이를 해결하기 위해 강화 학습이 LLM 메모리 에이전트를 어떻게 강화하는지 알아보자.
Nous 연구팀이 Hermes 4를 발표했다. 이 모델은 순수 사후 훈련 기술을 통해 선두 수준의 성능을 달성하는데, 복잡한 문제에 대한 심층 고찰이 필요할 때 모델이 표준 응답과 명시적 추론 사이를 전환할 수 있는 하이브리드 추론을 소개했다.
NVIDIA 연구자들이 대형 언어 모델 추론의 효율성 장벽을 깨고, Jet-Nemotron을 공개했는데 이 모델 시리즈는 선도적인 LLM보다 최대 53.6배 높은 생성 처리량을 제공하면서 정확도를 유지하거나 능가한다. 이는 새로운 사전 훈련을 통해 이루어진 것이 아니라는 점이 가장 중요하다.
AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.
한국은 대규모 언어 모델(LLM) 분야에서 중요한 혁신가로 자리매김하고 있으며 정부 투자, 기업 연구, 오픈 소스 협력을 통해 한국어 처리 및 국내 응용 프로그램에 맞는 모델을 만들고 있다. 이는 외국 AI 기술에 대한 의존성을 줄이고 데이터 개인 정보 보호를 향상시키며 의료, 교육 등의 분야를 지원한다.
NVIDIA가 Nemotron Nano 2 패밀리를 공개했는데, 이는 최첨단 추론 정확도를 끌어올리는 하이브리드 Mamba-Transformer 대형 언어 모델을 소개하며 유사한 크기의 모델보다 최대 6배 높은 추론 처리량을 제공합니다. 이 릴리스는 데이터 및 방법론에 대한 전례없는 투명성으로 눈에 띕니다.
대형 언어 모델이 자연어 이해부터 추론 및 코드 생성까지 다양한 분야를 혁신시켰다. 그러나 그들의 추론 능력을 실제 초인간 수준으로 끌어올리는 것은 방대하고 고품질의 인간 주석이 필요한 데이터셋 때문에 제한되어 왔다. Tencent AI Seattle Lab, Washington 대학, Maryland 대학 및 […] 연구진이 자체 훈련 데이터를 생성하는 완전 자율 AI 프레임워크인 R-Zero를 개발했다.
2025년 중반 기준으로 코딩을 위한 최고의 로컬 대형 언어 모델(LLMs)을 검토하고, 주요 모델 기능을 강조하며 로컬 배포를 쉽게 하는 도구에 대해 논의합니다.
Rubrics as Rewards (RaR)는 체계적이고 다중 기준을 갖는 평가 신호를 활용해 언어 모델을 교육하는 강화 학습 프레임워크이다. 명확하고 검증 가능한 결과를 갖는 과제에 대해 복잡한 추론을 수행하는 강화 학습을 통해 수학 및 코딩 분야에서 뛰어난 성능을 보이지만, 직접적인 보상 신호가 없는 모델을 교육하는 것에 도전이 존재한다.

대규모 언어 모델(LLM)이 평가자로 작용하는 생성적 보상 모델은 검증 가능한 보상을 통한 강화 학습에서 주목받고 있다. 이 모델들은 열린 답변이나 복잡한 응답이 필요한 작업에 대해 엄격한 규칙 대신 후보 응답을 기준 답변과 비교하고 이진 피드백을 생성한다. 그러나 이러한 모델들은 일부 약점을 가지고 있는데, 이를 드러내고 해결하는 마스터-RM이 등장했다.

NVIDIA AI가 복잡한 추론 작업에서 뛰어난 성과를 내는 대규모 언어 모델인 OpenReasoning-Nemotron을 소개했다. 이 모델 스위트는 1.5B, 7B, 14B 및 32B 매개변수 버전으로 구성되어 있으며, 671B DeepSeek R1 0528 모델에서 추론 능력을 캡처하여 훨씬 작고 효율적인 모델로 압축했다.