이스라엘 음성 AI 스타트업인 Deepdub이 Lightning 2.5를 소개했다. 이 모델은 실시간으로 작동하는 기본 음성 모델로, 성능과 효율성 면에서 상당한 향상을 이뤘다. 이로써 AI 에이전트, 기업 AI 등 실시간 대화 시스템에서 사용할 수 있게 되었다.
최신뉴스 전체보기
이 튜토리얼에서는 SpeechBrain을 사용한 고급이면서도 실용적인 워크플로우를 안내합니다. gTTS로 자체 깨끗한 음성 샘플을 생성하고 실제 시나리오를 시뮬레이션하기 위해 음향을 의도적으로 추가한 다음 SpeechBrain의 MetricGAN+ 모델을 적용하여 오디오를 향상시킵니다. 오디오가 소음 제거되면 언어 모델-재점수화를 통해 자동 음성 인식을 실행합니다.
MBZUAI의 연구진이 고급 AI 추론을 위한 32B-파라미터 오픈 추론 시스템 K2 Think을 발표했다. 이 시스템은 강화 학습, 테스트 시 스케일링, 추론 최적화 등을 결합하여 선두적인 성능을 보여준다.
LLM의 시험 시간 계산 확장은 단일 추론 경로를 확장하는 데 의존했지만, 이는 한정된 범위에서는 추론을 개선하지만 성능이 빠르게 수렴한다. 32K 이상의 토큰 예산을 증가시켜도 무의미한 정확도 향상. 이 병목 현상은 초기 토큰에서 발생.
메모리는 인간 지능을 생각할 때 먼저 떠오르는 중요한 부분이다. 경험으로부터 배우고 새로운 상황에 적응하며 시간이 흐름에 따라 더 나은 결정을 내릴 수 있게 해준다. 이와 유사하게 AI 에이전트도 메모리를 통해 더 똑똑해진다. GibsonAI가 AI 에이전트를 위한 오픈 소스 SQL 네이티브 메모리 엔진 Memori를 출시했다.
Tilde AI가 TildeOpen LLM을 공개했다. 이 모델은 300억개 이상의 파라미터를 가지며 유럽어에 특화되어 있어 소수 언어에도 주목한다. EU 내 언어 균형과 디지털 주권을 강화하는 전략적인 발전이다.
대형 언어 모델은 종종 “환각”을 생성하는데, 이는 올바르지만 잘못된 출력을 확신하며 가능성이 있는 것으로 보인다. OpenAI의 새로운 연구는 환각이 교사 지도 학습과 자기 지도 학습의 통계적 특성에서 비롯되며, 그 지속성은 평가 기준의 불일치로 강화된다는 엄밀한 설명을 제공한다.
Hugging Face가 FineVision을 공개했다. 이 데이터셋은 17.3백만 개의 이미지, 24.3백만 개의 샘플, 88.9백만 개의 질문-답변 쌍, 약 100억 개의 응답 토큰을 보유하며 비전-언어 모델(VLMs) 학습을 위한 최대 규모의 구조화된 데이터셋 중 하나로 손꼽힌다.
알리바바의 Qwen 팀이 1조 개 이상의 파라미터를 갖춘 새로운 플래그십 대형 언어 모델인 Qwen3-Max-Preview를 발표했다. 이 모델은 Qwen Chat, 알리바바 클라우드 API, OpenRouter에서 접근 가능하며 Hugging Face의 AnyCoder 도구에서 기본으로 제공된다. 이 모델은 현재의 대형 언어 모델 환경에 어떻게 맞는지 살펴보자.
구글 AI가 개인 건강 에이전트(PHA)를 소개했다. 이는 맞춤 상호작용을 통해 개인 건강 요구를 해결하는 멀티 에이전트 프레임워크로, 임상 추론, 의사 결정 지원, 소비자 건강 애플리케이션 등 다양한 영역에서 강력한 성능을 보여주고 있다.
구글 AI가 대규모 언어 모델의 평가를 간편하게 하는 Stax를 출시했습니다. Stax는 구조화된 방법으로 모델을 평가하고 비교할 수 있어, 확률적 시스템인 언어 모델의 일관성 테스트를 간단하게 도와줍니다.
Elysia는 의사결정 트리와 더 똑똑한 데이터 처리를 통해 Agentic RAG 시스템을 새롭게 정의하는 오픈소스 파이썬 프레임워크입니다.
AI 에이전트 관측성은 AI 에이전트를 기획부터 메모리 쓰기와 최종 출력까지 추적하고 모니터링하여 팀이 오류를 디버깅하고 품질과 안전성을 측정하며 지연 시간과 비용을 제어하고 규제 요구 사항을 준수할 수 있도록 하는 학문이다. 이는 전통적인 텔레메트리(추적, 메트릭스 등)를 결합하여 실제로 작동한다.
토큰화와 청킹은 텍스트를 작은 조각으로 나누는 데 관련이 있지만, 서로 다른 목적과 규모에서 작동한다. AI 애플리케이션을 구축하는 경우 이러한 차이를 이해하는 것이 중요하다.
이 튜토리얼에서는 로컬에서 실행되는 무료 허깅페이스 모델을 사용하여 계층적 추론 모델(HRM)의 정신을 재현하고 가벼우면서도 구조화된 추론 에이전트의 설계를 안내합니다. 문제를 하위 목표로 분해하고 Python으로 해결함으로써 우리는 설계자이자 실험자 역할을 수행합니다.
최신 대형 언어 모델(Large Language Models, LLMs)은 단순한 텍스트 생성을 넘어섰다. 현실 세계 응용 프로그램들은 이제 이러한 모델이 API, 데이터베이스, 소프트웨어 라이브러리와 같은 외부 도구를 사용하여 복잡한 과제를 해결해야 한다. 그러나 AI 에이전트가 도구 간에 계획을 세우고 추론하며 조정할 수 있는지를 어떻게 정확히 알 수 있을까?
OpenAI가 gpt-realtime과 Realtime API를 공식적으로 출시했으며 엔터프라이즈를 위한 기능을 갖춘 신속한 API를 베타에서 벗어나 발표했다. 음성 AI 기술에서 혁신적인 발전을 이루고 있지만, 의미 있는 개선 사항과 지속적인 도전 과제가 있음을 보여준다.
대형 언어 모델(LLM)은 AI의 다양한 분야에서 중요한 역할을 하고 있지만, 이들은 상태를 유지하지 못하는 한계가 있다. 쿼리마다 이전 정보를 기억하지 못하고 고정된 컨텍스트 창으로 장기 대화나 멀티세션 작업에서 계속된 지식을 축적할 수 없다. 이를 해결하기 위해 강화 학습이 LLM 메모리 에이전트를 어떻게 강화하는지 알아보자.
의료 AI의 최근 발전은 모델의 정교함뿐만 아니라 기반 데이터의 품질과 풍부함에 달려있다. Centaur.ai, Microsoft Research 및 University of Alicante의 협력으로 성과를 거둔 PadChest-GR은 최초의 다중 모달, 이중 언어, 문장 수준 데이터셋이다.
호주의 주요 노력인 카카룸 LLM은 호주 영어와 문화에 맞춘 주권 보장, 오픈소스 대형 언어 모델을 구축하기 위한 노력이다. 호주 특유의 유머, 속어, 법적/윤리적 규범을 이해하는 모델을 만들기 위한 목표를 가지고 있다.
Nous 연구팀이 Hermes 4를 발표했다. 이 모델은 순수 사후 훈련 기술을 통해 선두 수준의 성능을 달성하는데, 복잡한 문제에 대한 심층 고찰이 필요할 때 모델이 표준 응답과 명시적 추론 사이를 전환할 수 있는 하이브리드 추론을 소개했다.
Agentic RAG는 대규모 언어 모델이 외부 맥락에서 결과물을 검색하고 구체화하는 전통적인 RAG의 강점과, 의사 결정 및 도구 사용을 결합한 것이다. 정적 방법과 달리, Agentic RAG는 인공지능 에이전트가 검색, 생성, 쿼리 계획, 반복적 추론을 조율하는데 특징이 있다. 이 에이전트들은 데이터 소스를 자율적으로 선택하고 쿼리를 개선하며 API/도구를 실행한다.
NVIDIA 연구자들이 대형 언어 모델 추론의 효율성 장벽을 깨고, Jet-Nemotron을 공개했는데 이 모델 시리즈는 선도적인 LLM보다 최대 53.6배 높은 생성 처리량을 제공하면서 정확도를 유지하거나 능가한다. 이는 새로운 사전 훈련을 통해 이루어진 것이 아니라는 점이 가장 중요하다.
구글 AI는 Gemini 2.5 플래시 이미지를 공개했습니다. 이 모델은 사용자가 이미지를 설명함으로써 생성하고 편집할 수 있도록 설계되었는데, 정확하고 일관된 고품질 편집을 빠르고 광범위하게 제공하는 것이 혁신적입니다.
AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.
대형 언어 모델은 보통 사전 훈련 후 지도 미세 조정(SFT) 또는 강화 학습 미세 조정(RFT)을 사용해 개선된다. SFT는 예제 기반 학습을 통해 강의 따르기를 효과적으로 가르치지만, 엄격한 행동과 부족한 일반화로 이어질 수 있다. 반면 RFT는 보상 신호를 사용해 모델을 작업 성공을 위해 최적화하지만, […]
JSON 프롬프팅은 AI 모델에 명확하고 기계가 읽을 수 있는 프롬프트를 제공하는 기술이다. 기존의 텍스트 프롬프트와는 달리 JSON 프롬프트는 요구 사항을 키-값 쌍, 배열, 중첩된 객체로 구조화하여 모호함을 없애고 정확한 청사진으로 바꾼다.
구글 AI팀은 차별적인 개인 파티션 선택을 위한 새로운 머신러닝 알고리즘을 제안했다. 이는 대규모 머신러닝 및 데이터 분석에서 사용자 정보를 보호하는 데 중요한 역할을 한다. 이 알고리즘은 엄격한 개인 정보 보호를 유지하면서 대규모 사용자 기여 데이터셋에서 고유한 항목을 안전하게 추출하는 과정을 포함한다.
RAG 기술은 대형 언어 모델을 실시간, 도메인 특화 지식으로 강화하는 핵심 기술로 등장했다. “Native RAG”와 “Agentic RAG”의 구현이 주를 이루고 있으며, AI 기반 정보 통합과 의사 결정 지원에서 새로운 패러다임을 제시하고 있다.
중국 AI 스타트업인 DeepSeek가 최신 주력 언어 모델인 DeepSeek-V3.1을 발표했다. DeepSeek-V3의 아키텍처를 기반으로 하여 추론, 도구 사용, 코딩 성능을 중요하게 향상시켰다. 이 모델은 저렴한 비용으로 OpenAI 및 Anthropic 수준의 성능을 제공하여 급속하게 명성을 얻고 있다.
홍콩 대학 연구진이 출시한 DeepCode는 다중 에이전트 AI 시스템을 활용하여 연구 논문 해석부터 코딩 프로세스를 자동화하는 “오픈 에이전틱 코딩” 패러다임을 제안한다.
한국은 대규모 언어 모델(LLM) 분야에서 중요한 혁신가로 자리매김하고 있으며 정부 투자, 기업 연구, 오픈 소스 협력을 통해 한국어 처리 및 국내 응용 프로그램에 맞는 모델을 만들고 있다. 이는 외국 AI 기술에 대한 의존성을 줄이고 데이터 개인 정보 보호를 향상시키며 의료, 교육 등의 분야를 지원한다.
Liquid AI사가 저지연, 장치 내 배포를 위해 최적화된 새로운 비전-언어 기반 모델인 LFM2-VL을 공식 출시했다. LFM2-VL-450M 및 LFM2-VL-1.6B 두 가지 효율적인 변형으로, 스마트폰, 노트북, 웨어러블 및 임베디드 시스템에 다중 모달 AI를 속도나 정확도를 희생하지 않고 도입하는 중요한 발전을 이루었다.
DeepSpeed 팀이 새로운 오프로딩 엔진인 ZenFlow를 공개했습니다. 이 엔진은 대형 언어 모델 (LLM) 학습 중 발생하는 CPU로 인한 GPU 스톨 문제를 극복하기 위해 설계되었습니다. 기존 프레임워크들과는 다르게 ZenFlow는 비싼 GPU가 훈련 단계 중 대부분을 기다리는 것을 방지합니다.
LLM 에이전트는 웹 연구, 보고서 작성, 데이터 분석 및 다단계 소프트웨어 워크플로우와 같은 복잡한 작업을 처리하는 데 충분히 강력해졌지만, 절차적 메모리에 어려움을 겪고 있습니다. 이 프레임워크는 프로시저 메모리를 핵심 최적화 대상으로 끌어올려 에이전트를 견고하게 만듭니다.
대형 언어 모델이 자연어 이해부터 추론 및 코드 생성까지 다양한 분야를 혁신시켰다. 그러나 그들의 추론 능력을 실제 초인간 수준으로 끌어올리는 것은 방대하고 고품질의 인간 주석이 필요한 데이터셋 때문에 제한되어 왔다. Tencent AI Seattle Lab, Washington 대학, Maryland 대학 및 […] 연구진이 자체 훈련 데이터를 생성하는 완전 자율 AI 프레임워크인 R-Zero를 개발했다.
CLIP는 현대 비전 및 멀티모달 모델에서 중요한 역할을 하고 있으며, 제로샷 이미지 분류와 MLLM의 비전 인코더로 활용되고 있다. 그러나 대부분의 CLIP 변형은 영어 데이터에만 국한되어 있어 전 세계 웹의 다양한 언어 콘텐츠를 무시한다. 메타 CLIP를 포함한 대부분의 CLIP 변형은 영어 데이터만을 다룬다.
알리바바가 GSPO 알고리즘을 소개했다. 이 알고리즘은 Qwen3 모델을 촉진하는 효율적인 강화 학습 알고리즘이다. GSPO는 언어 모델의 확장에 결정적인 역할을 하며, 보다 심층적인 추론을 통해 경쟁 수준의 수학과 프로그래밍과 같은 복잡한 작업을 해결할 수 있도록 돕는다.
구글 딥마인드가 Genie 3을 발표했습니다. 이 혁신적인 AI 시스템은 간단한 텍스트 프롬프트에서 대화형이고 물리적으로 일관된 가상 세계를 생성할 수 있습니다. 이는 세계 모델 분야에서 큰 도약을 의미하며, 환경을 이해하고 시뮬레이션하는 것뿐만 아니라 동적인 공간을 생성할 수 있습니다.
OpenAI가 GPT-2 이후 처음으로 오픈 가중치 언어 모델 두 개를 공개했다. gpt-oss-120b와 gpt-oss-20b는 누구나 다운로드하고 검토하며 자신의 하드웨어에서 실행할 수 있는 모델이다. 이 런칭은 AI 세계를 바꾸는 중요한 사건으로 평가된다.
LLMs는 도움이 되고 무해하며 정직한 보조자 페르소나를 제공하는 대화형 인터페이스를 통해 배포된다. 그러나 LLMs는 훈련 및 배포 단계 전체에서 일관된 성격 특성을 유지하지 못한다. LLMs는 다양한 프롬프트 전략이나 문맥적 입력에 노출될 때 드라마틱하고 예측할 수 없는 페르소나 변화를 보인다. 훈련 과정은 의도하지 않은 성격 변화를 일으킬 수도 있다.

테슬라 주주들이 회사의 자율주행 자동차가 가져오는 중대한 위험을 숨기고 있는 것으로 주장해 이론 머스크와 전기차 업체에 공모 소송을 제기했다. 테슬라는 오스틴, 텍사스에서 자율주행 택시의 최초 공개 테스트를 실시했는데, 이 테스트에서 차량이 과속, 급제동, 도로 경계 넘기기, 잘못된 차선 진입, 다중 차선 도로 중간에 승객을 내려주는 등의 문제가 발생했다고 한다.
바이트댄스가 자연어 확장을 통해 수학적 추론을 향상시키는 LLMs를 소개했으며, 자연어 증명의 정확성 검증이 어려운 문제를 해결하기 위해 Seed-Prover를 도입했다.
DeepReinforce 팀이 CUDA-L1이라는 새로운 프레임워크를 소개했는데, 이는 인간 개입 없이 GPU로부터 평균 3.12배의 속도 향상과 최대 120배의 가속을 제공한다. 이는 학술적인 약속에 그치지 않고, 모든 결과가 오픈 소스 코드로 NVIDIA 하드웨어에서 재현 가능하다.
Falcon-H1 시리즈는 대형 언어 모델의 진화에서 중요한 발전을 이룬다. Transformer 기반 어텐션과 Mamba 기반 상태 공간 모델 (SSM)을 하이브리드 병렬 구성으로 통합하여 Falcon-H1은 우수한 성능, 메모리 효율성 및 확장성을 달성한다. 다양한 크기로 출시되며 0.5B~34B 파라미터를 제공한다.
LLM을 활용한 번역 시스템은 인간 번역가를 능가할 정도로 발전했다. 그러나 LLM이 복잡한 작업에서 발전하면서 평가도 더 어려워지고 있다. 이에 TransEvalnia는 세밀하고 인간 중심의 번역 평가를 위한 프롬프팅 기반 시스템으로 개발되었다.
AgentSociety는 대규모 에이전트 모집단을 시뮬레이션하는 첨단 오픈 소스 프레임워크로, 각각의 에이전트는 대형 언어 모델 (LLM)에 의해 구동되어 인간 사회에서 발견되는 복잡한 상호작용을 현실적으로 모델링합니다. Ray와 같은 강력한 분산 처리 기술을 활용하여 이 프로젝트는 실제로 수만 명의 활성화된 에이전트로 구성된 시뮬레이션을 달성하며, 각각의 에이전트는 자세하고 현실적인 환경에 내재되어 있습니다.
2025년 중반 기준으로 코딩을 위한 최고의 로컬 대형 언어 모델(LLMs)을 검토하고, 주요 모델 기능을 강조하며 로컬 배포를 쉽게 하는 도구에 대해 논의합니다.
알파어스 재단은 AI 기술을 활용한 행성 매핑을 위해 구글 딥마인드가 개발한 ‘가상 위성’ 기술을 소개합니다. 지구 관측 데이터가 폭증하고 있지만 고품질 지면 실측 데이터 부족 문제를 해결하고자 합니다.
대형 언어 모델(LLMs)의 최근 발전으로 모델이 추론 중에 ‘더 오래 생각하게’ 함으로써 일반적으로 정확도와 견고성이 향상된다는 아이디어가 증가했다. 그러나 Anthropics이 주도한 연구 “테스트 시간 계산의 역 스케일링”은 강력한 반론을 제시한다.
Rubrics as Rewards (RaR)는 체계적이고 다중 기준을 갖는 평가 신호를 활용해 언어 모델을 교육하는 강화 학습 프레임워크이다. 명확하고 검증 가능한 결과를 갖는 과제에 대해 복잡한 추론을 수행하는 강화 학습을 통해 수학 및 코딩 분야에서 뛰어난 성능을 보이지만, 직접적인 보상 신호가 없는 모델을 교육하는 것에 도전이 존재한다.
대형 언어 모델이 단순 텍스트 생성기에서 계획 수립, 추론, 자율 조치가 가능한 시스템으로 진화함에 따라 능력과 관련 위험이 증가하고 있다. 기업들이 자동화를 위해 AI를 채택하면서 목표 불일치, 프롬프트 주입, 의도치 않은 행동, 데이터 누출과 같은 새로운 도전에 직면하게 된다.
이 튜토리얼에서는 Nomic 임베딩과 Google의 Gemini를 활용한 고급 AI 에이전트 시스템의 완전한 구현 과정을 안내합니다. 우리는 의미 기억, 맥락적 추론, 멀티 에이전트 조정을 하나의 지능적 프레임워크로 통합하는 아키텍처를 처음부터 설계합니다.
VLM2Vec-V2는 이미지, 비디오, 시각 문서 등 다양한 데이터 형식을 공유된 밀집 표현 공간으로 인코딩하여 다중 모달 정보를 전달하는 임베딩 모델이다. 최근 대규모 기초 모델의 발전으로 임베딩 모델이 발전해왔지만, 기존 다중 모달 임베딩 모델은 MMEB 및 M-BEIR과 같은 데이터셋에서 훈련되었고 대부분의 초점이 이미지나 동영상에만 집중되어왔다.
언어 모델 사용자들은 종종 자신이 원하는 것을 명확히 설명하지 않아 이해하기 어려워한다. 현재의 평가 방법은 종종 모델이 사용자의 백그라운드 지식에 따라 다르게 대답해야하는 질문에 대처하기 어렵다.
대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론과 같은 다양한 영역에서 복잡한 문제 해결 작업에 강력한 성능을 보여주고 있지만, 현재의 평가 방법은 주로 단일 문제 테스트에 초점을 맞추어 한계를 드러냅니다. 이 기사는 LRMs를 격리된 문제 해결 영역을 넘어서게 하는 새로운 다중 문제 스트레스 테스트 프레임워크 REST를 소개합니다.
에핑래피 디시플린은 고대 로마 세계를 이해하는 데 중요한 근거를 제공하는데, 구체나 금속과 같은 내구성 재료에 기록된 텍스트를 연구하는데 초점을 맞추고 있습니다. 그러나 단편적인 문장, 불확실한 연대, 다양한 지리적 유래, 약어의 널리 쓰임, 17만 6천개가 넘는 라틴 문장의 큰 말뭉치 등이라는 여러 어려움에 직면하고 있습니다.
인공지능의 발전으로 현실 세계와 디지털 추론 간의 간극이 점점 좁아지고 있는 가운데, 신체적 AI는 로봇이 물리적 환경에서 효과적으로 지각, 추론 및 행동할 수 있도록 하는 분야다. 산업들이 가정부터 물류까지 복잡한 공간 및 시간 작업을 자동화하려는 가운데 AI 시스템을 보유하는 것이 중요하다.
LLMs는 소량의 추론을 활용하여 여러 작업에서 우수한 성능을 보여주었지만, 대규모 훈련 데이터셋에서 대표적인 데모를 선택하는 것이 주요 문제다. FEEDER는 유사도 점수를 사용하여 관련성에 따라 데모를 선택하는 초기 방법과 추가적인 선택을 제안하는 현재 방법을 개선하였다.
최신의 장기 CoT 추론 모델은 반복적인 자가 확인과 정제를 통해 추론 궤적을 생성함으로써 수학적 추론에서 최첨단 성능을 달성했습니다. 그러나 오픈 소스 장기 CoT 모델은 자연어 추론 트레이스에만 의존하므로 계산 비용이 많이 들고 검증 메커니즘이 없어 오류가 발생할 수 있습니다. 도구 지원 추론은 대규모 숫자 계산에 대해 효율성과 신뢰성을 제공합니다.
MFMs인 GPT-4o, Gemini, Claude와 같은 다중 모달 기반 모델들은 최근 빠른 발전을 보이고 있으나 시각 정보를 이해하는 능력은 여전히 불분명하다. 현재 사용되는 대부분의 벤치마크는 VQA나 분류와 같은 텍스트 중심 작업에 중점을 두고 있어 시각적 정보를 반영하지 못하는 한계가 있다.
SYNCOGEN은 합성 가능한 분자 생성의 어려움을 해결하기 위한 머신러닝 프레임워크로, 신약 발견 분야에서 새로운 화합물을 빠르게 탐색하는 것을 돕는다. 하지만 많은 AI 생성 분자는 실험실에서 합성하기 어려워 실용적 가치를 제한하는데, SYNCOGEN은 이 문제를 극복하기 위해 그래프와 좌표 모델링을 결합한다.

TikTok과 협력 기관의 연구원들이 소프트웨어 엔지니어링 작업에서 대형 언어 모델(LLMs)이 성능 최적화를 어떻게 하는지를 평가하는 데 특히 저장소 수준에서 처음으로 설계된 벤치마크 ‘SWE-Perf’를 소개했다.

대규모 언어 모델(LLM)이 평가자로 작용하는 생성적 보상 모델은 검증 가능한 보상을 통한 강화 학습에서 주목받고 있다. 이 모델들은 열린 답변이나 복잡한 응답이 필요한 작업에 대해 엄격한 규칙 대신 후보 응답을 기준 답변과 비교하고 이진 피드백을 생성한다. 그러나 이러한 모델들은 일부 약점을 가지고 있는데, 이를 드러내고 해결하는 마스터-RM이 등장했다.

NVIDIA AI가 복잡한 추론 작업에서 뛰어난 성과를 내는 대규모 언어 모델인 OpenReasoning-Nemotron을 소개했다. 이 모델 스위트는 1.5B, 7B, 14B 및 32B 매개변수 버전으로 구성되어 있으며, 671B DeepSeek R1 0528 모델에서 추론 능력을 캡처하여 훨씬 작고 효율적인 모델로 압축했다.

MemAgent는 장문 처리를 위해 설계된 강화 학습 기반 메모리 에이전트로, LLMs에서 발생하는 성능 하락과 컴퓨팅 비용 문제를 해결하기 위해 ByteDance Seed와 Tsinghua University 연구진이 소개했다.

최근 생성 모델의 발전은 컴퓨터와 상호작용하는 방식을 변화시켰으며, 사용자 경험을 더 자연스럽고 적응적이며 맞춤화된 것으로 만들고 있다. 초기 인터페이스와 명령줄 도구는 사용자가 기계에 적응해야 했지만, LLMs와 멀티모달 인공지능의 등장으로 사용자는 상호작용하고 있다.

구글의 Gemini Embedding 텍스트 모델 gemini-embedding-001이 Gemini API와 Google AI Studio를 통해 개발자들에게 일반적으로 제공되었으며, 강력한 다국어 및 유연한 텍스트 표현 기능을 AI 생태계로 확대시켰다. 다국어 지원, 차원적 유연성 기술 명세 및 모델 성능 주요 기능 메트릭/작업 Gemini-embedding-001 레거시 구글 모델 Cohere v3.0 OpenAI-3-large MTEB (다국어) 평균 […]

이 기사에는 LLMs에서의 현재 테스트 시간 계산 전략의 한계, 훈련 무료 및 모델에 중립적인 프레임워크로서의 분수적 추론(FR)의 소개, 추론 프롬프트 및 조정 가능한 스케일링을 사용한 잠재 상태 조작 기술, GSM8K, MATH500 및 GPQA에서의 너비 및 깊이 기반 스케일링 이점 등이 포함되어 있습니다. FR의 우수성을 보여주는 평가 결과 및 분석이 제시됩니다.

AI 기반 비디오 생성 기술이 빠르게 발전하고 있으며, NVIDIA의 DiffusionRenderer는 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 생성하는 AI 모델을 소개했다. 이 모델은 놀라운 현실감을 가진 비디오를 생성하는 능력을 갖추고 있다. 그러나 이제는 전문적이고 현실적인 편집 기능이 추가되어 사용자가 비디오를 보다 전문적으로 수정할 수 있다.

구글 DeepMind와 구글 연구가 MedGemma 우산 아래 두 가지 새로운 모델을 소개했습니다. MedGemma 27B는 대규모 비전-언어 기반 모델이며 MedSigLIP는 가벼운 의학 이미지-텍스트 인코더입니다. 이들은 건강 인공지능 분야에서 가장 능력있는 오픈 소스 모델입니다.

Microsoft이 AI 기반 코딩 어시스턴트인 GitHub Copilot 채팅 익스텐션을 모든 개발자에게 무료로 공개했다. 이전에는 구독이 필요했던 기능이 이제 MIT 라이선스로 공개되어 누구나 사용 가능하다.

Hugging Face가 SmolLM3을 공개했다. 3B 파라미터 아키텍처를 사용하여 강력한 다국어 추론을 제공하며 상태-of-the-art 성능을 획득하였다. 더 적은 파라미터로 비용 효율적이고 제약된 환경에서도 배포 가능하다.

비디오 확산 모델과 계산적 도전에 대한 소개. 이미지 합성의 성공을 바탕으로 확산 모델이 뛰어난 질과 일관성 있는 비디오를 생성하는 데 큰 진전을 이루었지만, 비디오의 추가적인 시간적 차원 처리는 계산 요구를 크게 증가시킴. 이로 인해 자기 주의는 시퀀스 길이에 따라 늘어나는데, 이는 이러한 모델을 훈련하거나 실행하는 것을 어렵게 만듦.

Osmosis AI가 고도로 정확하고 구조화된 코드 병합 작업을 수행하기 위해 설계된 Osmosis-Apply-1.7B를 오픈소스로 공개했다. 이 모델은 IDE 에이전트에서 영감을 받아 문맥에 민감하고 함수 수준의 코드 편집에 최적화되어 있으며, 코드 특정 포맷팅을 활용하여 더 적은 파라미터로 강력한 성능을 달성한다.

현재의 보상 모델의 한계를 이해하는 것은 중요하다. 오늘날의 최고의 모델들도 여전히 복잡한 인간 선호도의 전체 범위를 반영하는 데 어려움을 겪고 있다. 훈련 기술이 발전해도 의미 있는 진전이 제한되어있는데, 주요 이유는 모델의 한계 때문이다.

Chai Discovery Team이 Chai-2를 소개했다. 이는 제로샷 De Novo 항체 디자인을 가능케 하는 멀티모달 AI 모델로, 각각의 대상에 대해 최대 20명의 후보자를 사용하여 52가지의 신규 대상에서 16%의 성공률을 달성했다. Chai-2는 이전 방법보다 100배 이상 우수한 결과를 보여주며, 2주 미만의 시간 내에 유효한 결합체를 제공하여 대규모 스크리닝의 필요성을 없앴다.

작은 LLM은 강건한 추론에 어려움을 겪는데, 익숙한 문제에서는 잘 작동하지만 이름이나 숫자를 바꾸거나 관련 없는 정보를 추가하는 등 약간의 변경으로 성능이 급격히 감소하는 것이 보고되고 있다.

보상 모델은 LLM과 인간 피드백을 일치시키는 데 필수적이지만, 보상 해킹 문제에 직면한다. 이 모델들은 응답 길이나 형식과 같은 표면적 특성에 초점을 맞추고 사실성 및 관련성과 같은 진정한 품질 지표를 식별하지 못한다. 이 문제는 표준 훈련 목표가 의미 없는 상관 관계를 구별하지 못하기 때문에 발생한다.

대규모 언어 모델의 핵심 추론 단계를 식별하고 측정하는 머신러닝 프레임워크인 Thought Anchors 소개. 현재 해석 도구의 한계를 이해하는데 중점을 두며, DeepSeek 및 GPT 변형과 같은 AI 모델이 복잡한 추론 작업을 처리하는 데 어려움을 겪고 있음을 설명.

TNG 기술 컨설팅이 새로운 AoE 모델인 DeepSeek-TNG R1T2 Chimera를 발표했다. R1-0528, R1, V3-0324 세 부모 모델로 구성된 R1T2는 전문가 계층 보간을 통해 대형 언어 모델에서 새로운 효율성을 발휘한다.

Together AI가 최신 기술인 강화학습을 통해 완전히 오픈소스로 훈련된 소프트웨어 공학 에이전트인 DeepSWE를 출시했다. Qwen3-32B 언어 모델을 기반으로 한 DeepSWE는 SWEBench-Verified 벤치마크에서 59% 정확도와 42.2% Pass@1을 달성하여 오픈 웨이트 모델 중 최고의 성과를 거뒀다.

대형 언어 모델은 논리적 사고 과정을 시뮬레이션하는 중간 단계를 통해 추론 정확도를 향상시키고 오류를 명확히 합니다. ReasonFlux-PRM은 LLM에서 이러한 사고 연쇄를 향상시키는 궤적 인식 보상 모델입니다.

최신 검색 시스템은 사용자 쿼리의 부피와 복잡성이 증가함에 따라 콘텍스트 인식 및 적응형 정보 검색 수요가 높아지고 있습니다. 이에 바이두 연구원들은 단순 키워드 일치나 문서 순위 매기기에 그치던 시스템을 넘어 계층적 추론이 필요한 사용자 쿼리에 대응하는 지능적이고 적응형 검색 엔진을 제안합니다.

바이두가 최신 ERNIE 4.5 시리즈를 오픈 소스로 공개했다. 이는 언어 이해, 추론 및 생성을 강화하기 위해 설계된 강력한 foundation 모델의 가족이다. 공개된 모델은 0.3B 밀집 모델부터 424B 파라미터를 가진 거대한 MoE(Mixture-of-Experts) 아키텍처까지 10가지 모델 변형을 포함하고 있다.

DeepSeek-R1과 같은 대규모 언어 모델이 수학 문제에서 우수한 결과를 보이지만, 일부 모델은 알려진 대수 규칙을 반복하거나 다이어그램 문제에서 좌표 기하학을 사용하는 등 한정된 기법에 의존한다. OMEGA는 이러한 모델의 추론 한계를 탐구하기 위한 구조화된 수학 벤치마크이다.

LongWriter-Zero는 강화 학습 기반의 프레임워크로, 수천 단어에 걸쳐 있는 초장문 텍스트 생성에 도전하는 것을 소개하며, 대규모 언어 모델이 직면한 문제점들을 다루고 있다. 주요 문제로는 불일치, 주제 이탈 등이 있다.

Python을 사용하여 LangChain으로 구동되는 AI 에이전트에 통합할 수 있는 강력하고 지능적인 데이터 분석 도구를 만드는 방법을 안내하는 튜토리얼. 사용자 입력을 위한 구조화된 스키마를 정의하고 상관 분석과 같은 주요 기능을 구현함으로써 사용자 정의 AI 에이전트를 구축하는 중요성을 강조.

텐센트의 훈유안 팀이 희소 MoE 아키텍처로 구축한 새로운 오픈소스 대형 언어 모델인 훈유안-A13B를 소개했다. 이 모델은 80억 개의 총 파라미터 중 추론 중에는 13억 개만 활성화되어 성능과 계산 비용 사이에 뛰어난 효율을 제공한다. 그룹화된 쿼리 어텐션 (GQA), 256K 컨텍스트 길이 등을 지원한다.

알리바바 Qwen 팀이 Qwen 모델 패밀리에 새로운 모델인 Qwen-VLo를 소개했습니다. 이 모델은 멀티모달 이해와 생성을 단일 프레임워크 내에서 통합하는 데 중점을 두었습니다. Qwen-VLo는 강력한 창의적 엔진으로 사용자들이 여러 언어로 텍스트, 스케치 및 명령에서 고품질 시각 콘텐츠를 생성, 편집 및 개선할 수 있도록 지원합니다.

대형 언어 모델은 대량의 학습 말뭉치를 활용하여 수십 개의 언어 및 방양을 번역하고, 언어적 미묘성을 포착함으로써 기계 번역 분야의 진전을 이끌어왔다. 그러나 이러한 모델을 번역 정확도를 위해 세밀하게 조정하는 것은 종종 그들의 지시 따르기 및 대화 기술을 손상시키며, 일반 목적의 버전들은 전문적인 충실성 기준을 충족시키기 어렵다. TOWER+는 정확하고 문화적으로 인식된 번역과 함께 다국어 LLMs에서 지시를 따르는 것을 균형잡아준다.

구글이 엣지 디바이스에 대규모 다중 모달 AI 기능을 제공하기 위해 디자인된 Gemma 3n을 소개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 클라우드 컴퓨팅에 의존하지 않고 장치 내에서 처리하고 이해할 수 있다.

MIT와 NUS 연구진은 메모리 사용량이 폭발하는 문제 해결을 위해 장기적인 대화 에이전트를 위한 메모리 효율적인 프레임워크 MEM1을 소개했다. 기존 시스템의 문제점을 보완하여 성능 향상과 더 나은 추론을 이끌어냈다.

구글은 Gemini CLI를 발표했는데, 이는 Gemini 2.5 Pro 모델을 터미널에 직접 통합한 오픈소스 커맨드 라인 AI 에이전트다. 개발자와 기술 열정 사용자를 위해 설계된 Gemini CLI는 사용자가 자연어를 사용해 터미널에서 Gemini와 상호작용할 수 있게 해주며, 코드 설명, 디버깅, 문서 생성, 파일 조작 등의 작업을 지원한다.

새로운 AI 연구에 따르면, 개인 LLM 에이전트를 통해 민감한 사용자 데이터에 접근하는 LLM은 상황에 맞는 개인정보 이해 능력과 특정 사용자 정보를 공유할 적절성을 판단하는 능력에 대한 우려를 불러일으킨다. 대형 추론 모델은 작동하는 동안 도전을 제기한다.

BAAI가 OmniGen2를 소개했는데, 이는 텍스트에서 이미지 생성, 이미지 편집, 주제 중심 생성을 하나의 트랜스포머 프레임워크 내에서 통합하는 차세대 오픈소스 멀티모달 생성 모델이다. 텍스트와 이미지 생성의 모델링을 분리하고 반사적 훈련 메커니즘을 통합하며 특별히 설계된 기능을 구현함으로써 혁신을 이루었다.

바이트댄스 연구자들이 프로토리즈닝을 소개했는데, 이는 LLM(대규모 언어 모델)의 일반화를 논리 기반 프로토타입을 통해 향상시키는 것이다. 최근 LRM의 교차 도메인 추론이 중요한데, 특히 Long CoT 기술을 사용해 훈련된 모델들은 다양한 도메인에서 인상적인 일반화를 보여준다.

CMU 연구진이 웹 환경을 위한 디지털 에이전트들이 동적 웹 인터페이스에 어려움을 겪는 이유와 이를 극복하기 위해 그래프 기반 프레임워크 ‘Go-Browse’를 소개했다. 이 프레임워크는 확장 가능한 웹 에이전트 훈련을 위해 개발되었으며, 웹 페이지 탐색, 클릭, 양식 제출 등의 작업을 자동화한다.

Sakana AI가 강화 학습을 활용한 새로운 프레임워크 RLTs를 소개했다. 이는 효율성과 재사용성에 중점을 둔 언어 모델의 추론을 위한 방법이다. 기존 강화 학습 방법은 희소 보상 신호와 높은 계산 요구로 인해 문제가 있었지만, RLTs는 최적화된 교사 역할을 하는 작은 모델을 훈련시켜 선생님-학생 패러다임을 재정의한다.

DeepSeek 연구자들이 ‘nano-vLLM’을 공개했다. 이는 가벼우면서도 효율적인 vLLM(가상 대형 언어 모델) 엔진의 최소주의적이고 효율적인 구현으로, 간결하고 읽기 쉬운 코드베이스에 고성능 추론 파이프라인의 본질을 응축시켰다.








