2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.
2026년 3월 5일 오전 12시 55분
기업은 애플리케이션에 안전한 임베드 챗을 구현하는 것이 어려운데, 이를 해결하기 위해 Quick Suite Embedding SDK를 사용한 챗 에이전트 임베드 솔루션을 제공한다.
2026년 3월 4일 오후 4시 20분AWS Blog
구글이 Gemini 3.1 Flash-Lite를 공개했다. 고성능 작업에 최적화된 이 모델은 낮은 지연시간과 토큰 당 비용을 중점으로 고안되었다. 현재 Gemini API 및 Vertex AI를 통해 Public Preview로 이용 가능하다.
2026년 3월 3일 오후 1시 28분
이 글에서는 Amazon Nova Canvas에서 제공하는 가상 시착 기능을 탐구하며, 빠르게 시작할 수 있는 샘플 코드와 최상의 결과를 얻는 데 도움이 되는 팁을 제공합니다.
2026년 3월 3일 오전 11시 23분AWS Blog
AWS China Applied Science팀이 어려운 VOC 분류 작업에 Nova Forge를 평가한 결과와 오픈 소스 모델과의 벤치마킹 결과를 공유합니다.
2026년 3월 2일 오후 2시 32분AWS Blog
NullClaw는 Raw Zig로 완전한 스택 AI 에이전트 프레임워크를 구현하여 Python이나 Go와 같은 고수준 관리 언어에 의존하는 기존의 프레임워크와는 달리 런타임, 가상 머신, 가비지 컬렉터를 통해 상당한 오버헤드를 제거하고 있다.
2026년 3월 2일 오후 2시 12분
산업용 추천 시스템에서 Large Language Models (LLMs)를 활용한 Generative Retrieval (GR)이 일반적인 임베딩 기반의 검색을 대체하고 있으며, 이에 따라 엄격한 비즈니스 로직을 준수하는 STATIC 프레임워크가 속도 향상을 제공한다.
2026년 3월 1일 오후 4시 47분
이 튜토리얼에서는 LangGraph와 Pydantic을 활용한 고급 멀티 에이전트 통신 시스템을 구축한다. 공유 상태를 통해 에이전트들이 직접 호출하는 대신 통신할 수 있는 엄격한 ACP 스타일의 메시지 스키마를 정의하여 모듈화, 추적성, 그리고 생산용 오케스트레이션을 가능하게 한다. 세 가지 특수화된 에이전트를 구현한다.
2026년 3월 1일 오후 2시 20분
Generative AI의 발전은 잠재 확산 모델(LDMs)에 많이 의존하고 있습니다. 잠재 공간으로 데이터를 압축함으로써 모델이 효과적으로 확장될 수 있습니다. 그러나 낮은 정보 밀도는 잠재 변수를 학습하기 쉽게 만들지만 재구성 품질을 희생시키는 기본적인 트레이드오프가 존재합니다.
2026년 2월 27일 오후 10시 58분
본 튜토리얼에서는 오픈 소스 instruct 모델을 활용하여 계층적 플래너 에이전트를 구축한다. 이 구조화된 다중 에이전트 아키텍처에는 플래너 에이전트, 실행자 에이전트 및 집계자 에이전트가 포함되어 있으며 각 구성 요소가 복잡한 작업을 해결하는 데 특화된 역할을 수행한다. 플래너 에이전트를 사용하여 고수준 목표를 실행 가능한 단계로 분해한다.
2026년 2월 27일 오후 9시 18분
Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.
2026년 2월 26일 오후 11시 01분
Microsoft의 연구진은 CORPGEN을 소개했는데, 이는 계층적 계획과 메모리를 활용하여 자율형 디지털 직원을 통해 현실적인 조직 업무의 복잡성을 관리하는 데 사용되는 아키텍처에 중립적인 프레임워크이다. 기존의 AI 에이전트는 단일 작업에 대해 평가되지만, 실제 기업 환경에서는 복잡한 종속성을 가진 여러 작업을 동시에 처리해야 한다.
2026년 2월 26일 오후 7시 32분
이 게시물에서는 Amazon Nova 모델을 위한 강화 Fein-Tuning (RFT)을 탐구하며, 이는 모방이 아닌 평가를 통해 학습하는 강력한 맞춤 기술일 수 있습니다. RFT의 작동 방식, 감독형 Fein-Tuning 대비 사용 시기, 코드 생성부터 고객 서비스에 이르기까지의 실제 응용 사례, 완전 관리형 Amazon Bedrock에서 Nova Forge로의 다양한 구현 옵션 등을 다룰 것입니다. 또한 데이터 준비, 보상 함수 설계에 대한 실용적인 지침과 최적 결과 달성을 위한 모범 사례에 대한 실용적인 지침을 제공합니다.
2026년 2월 26일 오후 12시 48분AWS Blog
Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 '일시적 에이전트'에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.
2026년 2월 26일 오전 3시 01분
Tailscale과 LM Studio가 LM Link를 소개했다. 이는 개인 GPU 하드웨어 자산에 암호화된 포인트 투 포인트 액세스를 제공하며, AI 개발자들에게 생산성을 높여준다.
2026년 2월 25일 오후 11시 29분
최근 ETH 취리히 연구에서, AI의 'Context Engineering'이 중요한데 AGENTS.md 파일이 너무 상세해서 코딩 에이전트가 실패하는 것으로 밝혀졌다. 산업 리더들은 AGENTS.md를 코딩 에이전트의 최종 설정 지점으로 손꼽았는데, 이 파일이 복잡한 코드베이스를 안내하는데 있어 중요한 역할을 한다.
2026년 2월 25일 오후 7시 28분

최신뉴스 전체보기

DanceGRPO: 시각 생성을 위한 강화 학습의 통합 프레임워크

DanceGRPO는 시각적 콘텐츠 생성을 위한 강화 학습에 대한 통합 프레임워크로, 여러 패러다임과 작업에 걸쳐 시각 생성을 혁신적으로 다룬다. 최근의 생성 모델 발전을 통해 시각적 콘텐츠 생성이 향상되었으며, 훈련 중 인간 피드백 통합이 중요하다.

2025년 5월 16일 오전 1시 28분
Apoidea 그룹이 Amazon SageMaker HyperPod에서 LLaMA-Factory를 사용하여 은행 문서로부터 시각 정보 추출을 향상시키는 방법

Apoidea 그룹은 Amazon SageMaker HyperPod를 활용하여 대형 비전 언어 모델(LVLMs)을 사용하여 은행 및 금융 문서에서 테이블 구조 인식 성능을 더욱 향상시키는 방법을 탐구한다. Qwen2-VL-7B-Instruct 모델을 LLaMA-Factory를 사용하여 세밀하게 조정하는 방법을 소개한다.

2025년 5월 15일 오후 3시 56분AWS Blog
Vxceed가 Amazon Bedrock으로 운송 작업 보안 강화

AWS는 Vxceed와 협력하여 LimoConnect Q를 개발했는데, 이는 차별화된 지상 교통 관리 솔루션이다. Amazon Bedrock 및 Lambda를 활용해 안전한 AI 솔루션을 구축하여 여행 예약 및 문서 처리를 간소화했다.

2025년 5월 15일 오후 3시 45분AWS Blog
Tsinghua 및 ModelBest 연구진, Ultra-FineWeb: 트리리언 토큰 데이터셋 발표, 벤치마크에서 LLM 정확도 향상

Tsinghua 대학 및 ModelBest 연구진이 Ultra-FineWeb이라는 트리리언 토큰 데이터셋을 발표했다. 이 데이터셋은 LLM의 정확도를 향상시켜주며, 모델 기반 필터링을 통해 고품질 샘플을 식별하는 방법을 사용한다.

2025년 5월 15일 오전 3시 11분
Rime, Arcana와 Rimecaster 공개: 현실 세계 음성에 기반한 실용적 음성 AI 도구

Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.

2025년 5월 14일 오후 3시 35분
Amazon SageMaker HyperPod 레시피를 사용하여 DeepSeek-R1 671b 모델 수정하기 – 2부

DeepSeek-R1 671b 모델을 세밀하게 조정하기 위해 Amazon SageMaker HyperPod 레시피를 사용하는 방법을 소개합니다. SageMaker 훈련 작업과 SageMaker HyperPod를 사용하여 이러한 레시피를 단계별로 구현하는 방법을 보여줍니다.

2025년 5월 14일 오전 11시 10분AWS Blog
영어 중심 RLM의 테스트 시간 스케일링을 통한 강화된 다국어 추론과 도메인 일반화 조사

이 논문은 RLM이 복잡한 문제를 단순하게 분해하고 논리적 단계를 구축하여 답변에 도달하는 것을 시뮬레이션하는 데 사용되며, 다국어 능력을 향상시킴으로써 출력 품질을 향상시키는 것을 조사합니다.

2025년 5월 14일 오전 12시 05분
LLM 사전 학습에서 유해 데이터 재고: 향상된 조절성과 해독을 위한 협업 설계 접근법

LLM 사전 학습에서 훈련 데이터의 품질은 모델 성능에 중요하며 유해 콘텐츠를 필터링하여 유해한 출력을 최소화하는 전략이 일반적이지만 이는 트레이드오프를 도입한다. 이 기사는 LLM 사전 학습에서 유해 데이터 다루는 새로운 접근 방식을 소개한다.

2025년 5월 13일 오후 11시 56분
강화 학습, 미세 조정이 아닌: Nemotron-Tool-N1가 최소 감독과 최대 일반화로 LLMs에게 도구 사용을 가르침

LLMs를 외부 도구나 기능으로 장착하는 것이 인기를 끌며, 최소 감독과 최대 일반화로 LLMs의 도구 호출 능력을 향상시키기 위해 고급 언어 모델과 SFT를 통해 대량의 도구 사용 궤적을 종합하는 기존 연구가 있다. 그러나 존재하는 연구의 중요한 한계는 합성 데이터셋이 명시적 추론 단계를 포착하지 못하고 표면적인 도구 사용만 가능하다는 점에 있다.

2025년 5월 13일 오후 4시 30분
RL^V: 언어 모델에서 추론과 검증을 통합하는 Value-Free 강화 학습

최근 언어 모델들은 보상 기반 강화 학습을 통해 뛰어난 추론 능력을 갖추었다. 과거의 PPO 방식을 버리고 학습된 가치 함수 네트워크를 대신하여 경험적으로 추정된 반환값을 사용하는 현대 강화 학습 알고리즘들은 계산 요구와 GPU 메모리 소비를 줄여준다.

2025년 5월 13일 오전 2시 47분
멀티모달 AI는 모달리티 지원 이상이 필요합니다: 연구자들이 일반 수준 및 일반 벤치를 제안하여 종합주의 모델에서 진정한 시너지를 평가합니다

인공지능은 언어 중심 시스템을 넘어서 여러 입력 유형(텍스트, 이미지, 오디오, 비디오)을 처리할 수 있는 모델로 발전했습니다. 멀티모달 학습은 다양한 감각 데이터를 통합하고 해석하는 인간의 능력을 모방하는 것을 목표로 합니다. 단일 모달리티를 다루는 전통적 AI 모델과 달리, 멀티모달 종합주의자들은…

2025년 5월 12일 오후 8시 44분
오프라인 비디오-LLMs가 이제 실시간 스트림을 이해할 수 있습니다: 애플 연구원들이 멀티턴과 선제적 비디오 이해를 가능하게 하는 StreamBridge를 소개했습니다

영상-LLMs은 전체 사전 녹화된 비디오를 한꺼번에 처리합니다. 그러나 로보틱스 및 자율 주행과 같은 응용 프로그램은 시간적으로 이해와 응답이 중요한 스트리밍 시나리오에서 작동하도록 설계되지 않은 현재 비디오-LLMs의 한계를 보여줍니다. 애플 연구자들이 StreamBridge를 소개하여 오프라인에서 실시간 스트림으로의 전환을 가능하게 했습니다.

2025년 5월 12일 오후 8시 13분
PrimeIntellect가 INTELLECT-2를 발표: 분산 비동기 강화 학습을 통해 훈련된 32B 추론 모델

INTELLECT-2는 32B의 추론 모델로, 분산 비동기 강화 학습을 통해 훈련되었다. 이 모델은 전통적인 중앙 집중식 훈련 파이프라인의 제약을 극복하고, 협업과 실험의 가능성을 확대한다.

2025년 5월 12일 오후 1시 12분
LightOn AI가 GTE-ModernColBERT-v1을 공개: 장문 문서 검색을 위한 확장 가능한 토큰 수준의 의미 검색 모델 및 최고 수준의 벤치마크 성능

LightOn AI가 GTE-ModernColBERT-v1을 발표했다. 이 모델은 토큰 수준의 의미 검색을 통해 장문 문서 검색에 탁월한 성능을 보여준다. 이는 키워드 기반 방법보다 더욱 효과적인 사용자 의도에 부합하는 결과를 제공한다.

2025년 5월 11일 오후 2시 08분
Adala와 Google Gemini를 활용한 빠른 활성 학습 주석의 코딩 구현

Adala 프레임워크를 사용하여 의료 증상 분류를 위한 모듈식 활성 학습 파이프라인을 구축하는 방법을 배우고, Google Gemini을 사용하여 증상을 사전 정의된 의료 도메인으로 분류하는 방법을 통해 간단한 세 단계의 활성 학습 루프를 실행합니다.

2025년 5월 11일 오전 2시 42분
텐센트가 PrimitiveAnything를 공개: 자동 회귀적 기본 생성을 사용하여 3D 형상 재구성하는 새 AI 프레임워크

이번 연구에서는 복잡한 3D 형상을 간단하고 해석 가능한 기하학적 단위로 분해하는 모양 기본 추상화가 소개되었습니다. 최근 3D 생성 방법들은 메쉬, 포인트 클라우드, 신경장 등의 표현을 사용하여 고품질 콘텐츠 생성을 가능케 했지만, 종종 의미적 깊이와 해석 가능성이 부족합니다.

2025년 5월 11일 오전 2시 26분
알리바바의 ZeroSearch, 강화 학습과 시뮬레이션 문서 활용해 LLMs 검색을 실시간 검색 없이 가르침

알리바바의 ZeroSearch는 강화 학습과 시뮬레이션 문서를 활용하여 대형 언어 모델의 검색을 실시간 검색 없이 가르치는 방법을 제시하고 있다. 기존의 정적 데이터셋으로 훈련된 언어 모델은 시간이 지남에 따라 오래되어 문제가 발생하는데, ZeroSearch는 이를 극복하기 위해 새로운 방법론을 제시하고 있다.

2025년 5월 10일 오후 4시 49분
자가 학습하는 AI: Tsinghua 대학의 ‘Absolute Zero’가 외부 데이터 없이 LLM을 훈련시킴

Tsinghua 대학의 ‘Absolute Zero’는 외부 데이터 없이 LLM을 훈련시키는데 성공하였다. 현재의 RLVR 작업은 규모 확장 문제에 직면하고 있지만, ‘Absolute Zero’는 중간 추론 단계를 모방하는 대신 결과 기반 피드백에 의존하여 추론 능력을 향상시켰다.

2025년 5월 9일 오후 6시 56분
ServiceNow AI Released Apriel-Nemotron-15b-Thinker: 기업 규모의 배포와 효율성을 위해 최적화된 강력한 추론 모델

AI 모델은 수학 문제 해결, 논리적 문장 해석, 기업 의사 결정 지원과 같은 복잡한 작업을 처리해야 합니다. 이를 위해 수학적 추론, 과학적 이해, 고급 패턴 인식을 통합하는 것이 필요합니다. 실시간 응용 프로그램에서 지능형 에이전트에 대한 수요가 계속되는 가운데, 코딩 보조 도구와 비즈니스 자동화 도구가 포함됩니다.

2025년 5월 9일 오후 4시 39분
Hugging Face, NanoVLM 출시: 750줄의 코드로 처음부터 비전-언어 모델 학습 가능한 순수 PyTorch 라이브러리

Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.

2025년 5월 8일 오전 3시 08분
LLMs 이제 최소 대기 시간으로 실시간 대화 가능: 중국 연구진이 확장 가능한 모듈식 음성 언어 모델인 LLaMA-Omni2 공개

중국 연구진이 만든 LLaMA-Omni2는 실시간 음성 대화를 가능하게 하는 모듈식 프레임워크를 소개했다. 이 모델은 음성 지각과 합성을 언어 이해와 통합하여 이전의 계층적 시스템과 달리 실시간 대화를 가능케 한다.

2025년 5월 6일 오후 7시 13분
RWKV-X가 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 효율적인 1백만 토큰 디코딩 가능

Transformer 아키텍처를 기반으로 한 LLM은 긴 문맥 입력을 처리할 때 이차 복잡도로 인해 확장에 어려움을 겪는다. RWKV와 같은 선형 아키텍처는 이 문제를 해결하나, 긴 문맥을 이해하는 데 어려움을 겪는다. RWKV-X는 희소 어텐션과 순환 메모리를 결합하여 선형 복잡도로 1백만 토큰 디코딩을 효율적으로 가능케 한다.

2025년 5월 5일 오후 2시 09분
모델 컨텍스트 프로토콜 (MCP)이 AI 에이전트 도구 호출을 표준화, 간소화하고 미래를 대비하는 방법

MCP 이전에 LLM은 외부 도구에 액세스하기 위해 임시적이고 모델별 통합에 의존했다. ReAct, Toolformer, LangChain, LlamaIndex 등 다양한 접근 방식이 소개되었으며 MCP는 AI 에이전트 도구 호출을 모델 간에 표준화, 간단화하고 미래에 대비하는 역할을 한다.

2025년 5월 5일 오전 1시 56분
수학을 넘어 강화 학습 확장: NVIDIA AI 및 CMU 연구진, 다중 도메인 추론을 위한 Nemotron-CrossThink 제안

대형 언어 모델이 다양한 작업에서 놀라운 추론 능력을 보여주고 있으며, 강화 학습은 그들의 심층 사고 능력을 개선하는 중요한 메커니즘으로 작용합니다. 이 연구는 수학적 추론 및 코딩 영역에서의 강화 학습 기술의 성공을 보여주었지만, 이를 넓은 추론 맥락으로 확장하는 것이 중요합니다.

2025년 5월 5일 오전 1시 31분
IBM AI, 그랜ite 4.0 Tiny 미리보기 공개: 긴 문맥과 지시 작업에 최적화된 콤팩트 오픈 언어 모델

IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.

2025년 5월 3일 오후 9시 36분
규모의 감독은 보장되지 않습니다: MIT 연구진, 새로운 Elo 기반 프레임워크로 중첩 AI 감독의 취약성 측정

인공 일반 지능(AGI)으로 나아가는 최첨단 AI 기업들은 강력한 시스템이 조절 가능하고 유익하게 유지되도록 보장하는 기술이 필요하다. 이에 대한 주요 접근 방식은 Recursive Reward Modeling, Iterated Amplification 및 Scalable Oversight와 같은 방법을 포함한다. 이들은 약한 시스템이 강력한 시스템을 효과적으로 감독할 수 있도록 하는 것을 목표로 한다.

2025년 5월 3일 오후 3시 44분
LLMs가 이제 병렬로 추론할 수 있습니다: UC 버클리 및 UCSF 연구진, 콘텍스트 창을 초과하지 않고 추론을 효율적으로 확장하기 위해 적응적 병렬 추론 소개

대형 언어 모델(LLMs)은 새로운 방식의 추론 능력을 갖고 있으며, UC 버클리 및 UCSF 연구진은 적응적 병렬 추론을 도입하여 추론을 효율적으로 확장하고 콘텍스트 창을 초과하지 않도록 했다. 현재 방법론은 긴 출력 순서를 생성하여 지연 시간과 효율성에 위험을 초래한다.

2025년 5월 3일 오전 2시 00분
LLMs는 한 예제로부터 복잡한 수학을 배울 수 있습니다: 워싱턴 대학, 마이크로소프트, USC의 연구진들이 1회 강화 학습과 검증 가능한 보상으로 강력한 성능 발휘

최근 LLMs의 발전으로 OpenAI-o1, DeepSeek-R1, Kimi-1.5 등이 복잡한 수학적 추론 작업에서 성능을 크게 향상시켰다. 규칙 기반 보상을 사용하는 강화 학습은 이러한 개선에 중요한 역할을 한다. 최종 결과물을 향상시키는 RLVR은 모델의 문제 해결 방법이 올바른지를 나타내는 바이너리 신호를 일반적으로 사용한다.

2025년 5월 3일 오전 1시 28분
이미지 평가가 더 간단해진다: Google 연구원들이 비싼 API 없이 텍스트 정렬과 주제 일관성을 동시에 점수화하는 REFVNLI를 소개

Google 연구원들은 REFVNLI를 소개하여 텍스트 프롬프트와 함께 참조 이미지를 통합하는 표준 T2I 모델을 강화하는 주제 중심의 방법을 통해 텍스트-이미지(T2I) 생성을 강화했다. 현재의 메트릭은 주로 텍스트 프롬프트에 초점을 맞추거나 주제 중심 T2I 생성에 대한 신뢰할 수 있는 자동 평가 방법이 부족한 도전에 직면하고 있다.

2025년 5월 2일 오후 3시 57분
ELIZA에서 대화 모델링으로: 대화형 AI 시스템과 패러다임의 진화

ELIZA의 간단한 규칙 기반 시스템에서 현재의 정교한 플랫폼으로 대화형 AI가 발전해왔다. 이 과정은 80년대부터 90년대의 스크립트 봇, 2010년대의 Rasa와 같은 ML-규칙 하이브리드 프레임워크를 거쳐 2020년대의 혁명적인 대형 언어 모델로 이어져 자연스러운 대화를 가능케 했다. 현재는 Parlant와 같은 최첨단 대화 모델링 플랫폼이 주류다.

2025년 5월 2일 오후 2시 08분
Xiaomi, 더 강력한 수학 및 코드 추론 능력을 갖춘 소형 언어 모델 MiMo-7B 발표

MiMo-7B는 더 큰 모델보다 더 우수한 수학 및 코드 추론 능력을 갖추고, 사전 훈련과 강화 학습을 통해 개발되었다. 인간 지능에서 독점적으로 여겨졌던 추론 능력이 이제 보다 효율적이고 널리 사용 가능한 소형 모델에서도 활발히 연구되고 있다.

2025년 5월 2일 오전 12시 03분
AI 에이전트 프로토콜에 대한 기술적 탐구: 확장 가능한 인공지능 시스템에서의 역할

대형 언어 모델 에이전트가 기업 및 연구 생태계 전반에 걸쳐 주목을 받는 가운데, 에이전트들의 통신 역량을 제한하는 표준화된 프로토콜의 부재로 인해 커뮤니케이션 병목 현상이 발생했다. 이로 인해 에이전트들의 상호 조정 능력 및 외부 도구와의 인터페이스가 제약을 받고 있다.

2025년 5월 1일 오후 10시 53분
DeepSeek-AI가 DeepSeek-Prover-V2를 발표: 공식 이론 증명을 위한 대형 언어 모델, 서브 골 분해 및 강화 학습을 통해

DeepSeek-Prover-V2는 공식 이론 증명을 위해 설계된 대형 언어 모델로, 서브 골 분해와 강화 학습을 활용한다. 수학적 추론은 강력한 논리 일관성을 요구하는데, 이 모델은 Lean, Coq, Isabelle과 같은 증명 어시스턴트의 역할을 한다.

2025년 5월 1일 오후 3시 54분
Meta AI, Llama 4-Powered AI 앱 첫 버전 공개: ChatGPT와 경쟁할 독립형 AI 어시스턴트

Meta가 Llama 4로 구동되는 새 AI 앱을 출시했다. 이 앱은 ChatGPT와 경쟁하기 위해 더 개인화된 AI 경험을 제공하며, 소셜적으로 통합된 기능을 갖추고 있다.

2025년 5월 1일 오후 1시 32분
Amazon SageMaker AI를 활용한 대형 언어 모델 확장하기: Model Context Protocol

Anthropic의 MCP는 데이터 소스에 FMs를 연결하는 표준화된 방법을 제공하며, SageMaker AI와 함께 이 기능을 사용할 수 있게 되었다. 글에서는 SageMaker AI와 MCP의 힘을 결합하여 특화된 역할과 자동화된 워크플로를 통해 대출 심사에 새로운 시각을 제공하는 응용 프로그램을 구축하는 예시를 소개했다.

2025년 5월 1일 오후 1시 21분AWS Blog
Meta AI, 효율성과 RAG 성능 최적화를 위한 ReasonIR-8B 소개

Meta AI가 ReasonIR-8B를 소개했다. 이는 효율성과 RAG 성능을 최적화한 추론 중심의 검색기다. 현재 대부분의 검색기는 짧은 사실성 질문 데이터셋으로 훈련되어 있어 복잡한 다단계 추론 작업에 대한 정보를 검색하는 것이 여전히 어려운 도전으로 남아있다.

2025년 5월 1일 오전 2시 21분
개발자 GPU에서의 다중 모달 AI: 알리바바, VRAM 사용량 50% 감소 및 거의 7B 모델 성능을 달성한 Qwen2.5-Omni-3B 출시

알리바바가 Qwen2.5-Omni-3B를 발표했다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등을 포함한 시스템을 가능하게 하는 다중 모달 기반 모델로, VRAM 사용량이 50% 감소하고 거의 7B 모델 성능을 보여준다.

2025년 4월 30일 오후 6시 18분
Mem0: 장기 AI 대화를 위한 지속적이고 구조화된 기억을 가능하게 하는 확장 가능한 메모리 아키텍처

대형 언어 모델은 정보를 유지하는 데 어려움을 겪지만, Mem0는 장기적인 참여가 필요한 응용 프로그램에 통합될 때 더욱 중요해집니다. Mem0는 구조적인 기억을 유지하며 여러 세션에 걸쳐 정보를 지속적으로 보관하는 확장 가능한 메모리 아키텍처입니다.

2025년 4월 30일 오후 3시 51분
Sparse Frontier 탐색: 에든버러, Cohere 및 Meta 연구진이 장기 컨텍스트 LLM을 위한 어텐션 메커니즘 재고

트랜스포머 기반 LLM의 능력 향상을 위해 희소 어텐션은 중요하며, 연구진들은 장기 시퀀스 다루기 위해 어텐션 메커니즘을 재고 중. 표준 자기 어텐션 메커니즘은 시퀀스 길이에 따라 계산 비용이 기하급수적으로 증가하는 문제를 개선하기 위한 노력 진행 중.

2025년 4월 30일 오후 3시 44분
AI 열풍 너머: 모든 창업 창립자가 읽어야 할 구글의 실용적 AI 가이드

2025년, AI는 창업 기업이 구축, 운영 및 경쟁하는 방식을 혁신하고 있습니다. 구글의 ‘미래 AI: 창업을 위한 전망’ 보고서는 인프라 리더, 창업 창립자 및 벤처 캐피탈 파트너의 통찰을 바탕으로 종합적인 로드맵을 제시합니다. AI는 접근성이 높아지고 있지만 신중한 응용과 장기적인 관점이 속도보다 중요하다는 실용적인 메시지를 전합니다.

2025년 4월 30일 오전 3시 49분
UniME: MLLMs와 함께 다중 모달 표현 학습을 향상시키는 이중 단계 프레임워크

CLIP 프레임워크는 이미지-텍스트 검색과 같은 다중 모달 표현 학습에서 중요한 역할을 하고 있지만, 텍스트 입력에 제한이 있고 이미지와 텍스트 처리를 분리하는 이중 인코더 설계 등 몇 가지 한계가 있습니다. UniME는 이러한 한계를 극복하고 세분화된 표현을 캡처하는 데 효과적입니다.

2025년 4월 29일 오후 4시 28분
ThinkPRM: 확장 가능한 추론 검증을 위한 생성 과정 보상 모델

LLMs와 추론 작업에 더 많은 계산을 활용하기 위해 고품질의 프로세스 보상 모델(PRMs)이 필요하다. 이 모델은 문제-해결 쌍에 점수를 매겨 해결책이 올바른지 나타내며, 판별적 분류기로 구현되어 왔다. 그러나 이러한 모델은 인간 주석, 골드 단계별 솔루션 등 많은 리소스를 필요로 한다.

2025년 4월 29일 오후 1시 40분
WAVLab 팀이 발표한 VERSA: 음성, 오디오 및 음악 신호를 평가하는 포괄적이고 다재다능한 평가 툴킷

AI 모델은 음성, 음악 및 기타 형태의 오디오 콘텐츠 생성에서 놀라운 발전을 이루어왔으며, 교류, 엔터테인먼트, 인간-컴퓨터 상호작용 분야에서 가능성을 확장시켰다. 그러나 이러한 모델이 성장함에 따라 평가가 더 중요해지고 있다.

2025년 4월 29일 오전 2시 44분
알리바바 Qwen 팀, Qwen 시리즈의 최신 대형 언어 모델인 Qwen3 공개

알리바바의 Qwen 팀이 Qwen 시리즈의 최신 대형 언어 모델인 Qwen3을 공개했다. 이 모델은 Dense 및 Mixture-of-Experts (MoE) 모델의 포괄적인 스위트를 제공하며, 세밀한 추론, 다국어 능력, 계산 효율성에 대한 다양한 도전 과제를 해결하고 있다.

2025년 4월 28일 오후 9시 08분
소형 모델, 큰 추론 향상: USC 연구진이 LoRA로 비용 효율적 강화 학습을 위한 Tina를 소개합니다

USC 연구진은 LoRA를 이용해 비용 효율적인 강화 학습을 위한 Tina를 소개했습니다. Tina는 강력한 다단계 추론을 달성함에 있어 중요한 역할을 합니다. 과학 연구와 전략 계획과 같은 복잡한 문제 해결 분야에서 이러한 추론이 중요합니다. 모델들이 단계별 추론 데모를 통해 학습하는 지도 미세조정(SFT)을 포함한 전통적인 추론 기술을 향상시키는 것이 주요 과제입니다.

2025년 4월 28일 오전 1시 51분
Sea AI Lab, UCAS, NUS, SJTU 연구진, 개인화 시스템 생성을 위한 쿼리 수준 메타 에이전트 FlowReasoner 소개

LLM 기반의 다중 에이전트 시스템은 계획, 추론, 도구 사용, 기억 능력을 가지며 챗봇, 코드 생성, 수학, 로봇학 등 다양한 응용 프로그램의 기반을 형성한다. 그러나 수동으로 설계되어 고인적인 비용과 확장성 제약으로 인해 중요한 도전에 직면했다. 그래프 기반 방법은 워크플로 디자인을 자동화하기 위해 노력해왔다.

2025년 4월 27일 오후 4시 28분
추론 시간 스케일링 방법의 종합 분석: 언어 모델에서 추론 성능 최적화

언어 모델은 다양한 작업에서 뛰어난 성능을 보이지만 복잡한 추론은 계산 리소스와 전문 기술이 추가로 필요하여 도전적이다. 이에 따라 추론 시간 계산(ITC) 스케일링 방법이 발전되었는데, 이는 모델 출력을 향상시키기 위해 추가 계산 리소스를 할당하는 방법이다.

2025년 4월 27일 오전 2시 06분
구글 AI, 산업 전반에 걸친 601가지 실제 세계 생성 AI 사용 사례 공개

구글 클라우드가 세계 최고 기관들로부터 601가지 실제 세계 생성 AI 사용 사례 compendium을 공개했다. 지난해 구글 클라우드 넥스트 2024에서 공유한 101가지 사용 사례에서 6배로 확장된 이번 공개는 GenAI 기술이 폭발적인 속도로 발전하고 있음을 보여준다.

2025년 4월 26일 오후 6시 29분
Meta AI, 이미지 토큰을 줄이는 간단한 AI 접근 방법인 Token-Shuffle을 소개

고해상도 이미지에 대한 AR 모델의 확장은 계산 비용이 급증하는 문제를 제기하고 있는데, Meta AI가 이미지 토큰을 줄이는 간단한 AI 접근 방법인 Token-Shuffle을 소개했다.

2025년 4월 26일 오전 12시 38분
AgentA/B: LLM 에이전트를 사용하는 확장 가능한 AI 시스템, 전통적인 A/B 테스트를 변형시켜 실제 사용자 행동을 시뮬레이션

AgentA/B는 LLM 에이전트를 활용하여 실제 사용자 행동을 시뮬레이션하고 라이브 웹 플랫폼에서 전통적인 A/B 테스팅을 변형하는 확장 가능한 AI 시스템이다. 웹 인터페이스 설계 및 평가는 디지털 선도적인 세계에서 가장 중요한 작업 중 하나이며, 레이아웃, 요소 위치, 또는 탐색 논리의 변경은 사용자가 웹사이트와 상호 작용하는 방식에 영향을 줄 수 있다.

2025년 4월 26일 오전 12시 18분
Skywork AI가 멀티모달 추론을 발전시킴: 하이브리드 강화 학습을 도입한 Skywork R1V2 소개

Skywork AI는 강점인 특화된 추론 능력을 강화하면서도 다양한 작업에 대한 일반화를 유지하는 것에 대한 도전에 집중하고 있습니다. 최근의 연구에서, 시각적 이해 작업에 대한 성능 저하와 시각적 환각 증세 증가로 인해 ‘느린 사고’ 모델이 제안되었습니다.

2025년 4월 25일 오후 5시 25분
GenAI 데모에서 제품 생산까지: 구조화된 워크플로우의 필요성

Generative AI 애플리케이션은 인상적인 능력을 보여주지만, 제품 시스템의 요구사항에 부딪힐 때 종종 실패하는 현실이 있다. 산업 조사는 이 문제의 규모를 보여준다.

2025년 4월 25일 오후 5시 10분
밀라 & 몬트리올 대학 연구진, 효율성 희생 없이 장거리 맥락 언어 모델링을 촉진하는 Forgetting Transformer (FoX) 소개

밀라와 몬트리올 대학 연구진은 FoX를 소개하여 장거리 맥락 언어 모델링을 향상시키고 효율성을 희생하지 않는다. 이 모델은 트랜스포머의 장점을 살리면서 순환 신경망에서 발견되는 핵심 기능도 갖추고 있다.

2025년 4월 25일 오후 3시 29분
NVIDIA AI, 수학 추론을 위한 OpenMath-Nemotron-32B 및 14B-Kaggle 공개: AIMO-2 대회에서 1위 차지하며 새로운 기록 설정

NVIDIA AI가 OpenMath-Nemotron-32B 및 14B-Kaggle을 발표했다. 이는 수학 추론을 위한 고급 AI 모델로, AIMO-2 대회에서 1위를 차지하고 새로운 기록을 세웠다.

2025년 4월 25일 오전 1시 49분
Meta AI, 시각 표현 학습을 위한 확장 가능하고 언어에 구애받지 않는 접근 방식인 Web-SSL 발표

최근 대조적 언어-이미지 모델인 CLIP가 시각 표현 학습에서 표준 선택으로 자리매김했지만, 이는 언어 감독을 통해 의미론적 근거를 통합함으로써 텍스트 의존성을 도입한다. Meta AI는 이러한 제약을 해결하기 위해 Web-SSL을 발표했다.

2025년 4월 24일 오후 4시 01분
OpenAI가 gpt-image-1 API 출시: 개발자들에게 고품질 이미지 생성 기술 제공

OpenAI는 gpt-image-1 모델을 기반으로 한 이미지 생성 API를 공식으로 출시했다. 이 런칭은 ChatGPT의 다중 모달 기능을 개발자들에게 제공함으로써 이미지 생성에 프로그래밍적 접근을 가능케 하며, 지능적 디자인 도구, 창의적 애플리케이션, 다중 모달 에이전트 시스템 구축을 위한 필수 단계를 제공한다.

2025년 4월 24일 오후 1시 02분
LLM을 활용한 기업급 자연어 SQL 생성: 정확성, 지연 시간, 규모의 균형 맞추기

AWS와 Cisco 팀이 기업급 SQL 생성의 과제를 해결하기 위한 새로운 방법론을 소개했다. NL2SQL 프로세스의 복잡성을 줄이면서 더 높은 정확성과 성능을 제공했다.

2025년 4월 24일 오후 12시 23분AWS Blog
Sequential-NIAH: 장문에서 순차 정보 추출에 대한 LLM 평가 벤치마크

긴 문맥을 다루는 데 LLM의 성능을 평가하는 것은 중요하며, 최근의 LLM인 Gemini-1.5, GPT-4, Claude-3.5, Qwen-2.5 등은 강력한 추론 능력을 유지하면서 문맥 길이의 한계를 늘렸다. 이러한 능력을 평가하기 위해 ∞Bench, LongBench, L-Eval과 같은 벤치마크가 개발되었다.

2025년 4월 24일 오전 1시 52분
NVIDIA AI, 어떤 것이든 설명하는 30억 모달 LLM: 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 공개

NVIDIA가 세밀한 이미지 및 비디오 캡션을 위한 다중 모달 LLM 모델인 ‘Describe Anything 3B’를 발표했다. 시각-언어 모델에서 이미지나 비디오의 특정 영역을 설명하는 것은 어려운 문제인데, 이 모델은 세부적이고 지역별 설명을 생성하는 데 탁월한 성과를 보여준다.

2025년 4월 23일 오후 12시 51분
오픈 소스 NER 모델과 LLM을 활용한 Amazon SageMaker에서 AI 기반 문서 처리 플랫폼 구축하기

이 글에서는 Amazon SageMaker에서 오픈 소스 NER 및 LLM을 활용하여 AI 기반 문서 처리 플랫폼을 구축하는 방법에 대해 소개합니다.

2025년 4월 23일 오후 12시 06분AWS Blog
Amazon Bedrock를 활용하여 RAG 애플리케이션에서 민감한 데이터 보호하기

이 게시물에서는 Amazon Bedrock를 사용하여 RAG 애플리케이션에서 민감한 데이터를 보호하기 위한 두 가지 접근 방식을 탐구합니다. 첫 번째 접근 방식은 Amazon Bedrock 지식 베이스로의 데이터 삽입 전 민감한 데이터를 식별하고 마스킹하는 데 초점을 맞추었으며, 두 번째는 민감한 정보에 대한 접근을 관리하기 위한 세밀한 RBAC 패턴을 시연했습니다. 이러한 솔루션은 생성 모델 AI 애플리케이션에서 민감한 데이터를 보호하기 위한 다양한 접근 방식 중 두 가지에 불과합니다.

2025년 4월 23일 오후 12시 00분AWS Blog
Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화: Microsoft 연구원들이 지연 일반화에 미치는 옵티마이저의 영향 탐구

그동안 딥러닝 모델이 기억에서 일반화로의 지연된 전환을 보이는 현상인 ‘그록킹’에 대한 연구가 늘어나고 있는데, 마이크로소프트 연구원들이 옵티마이저가 이 지연된 일반화에 미치는 영향을 탐구하며 Muon Optimizer가 트랜스포머의 이해를 혁신적으로 가속화하는 것을 발견했다.

2025년 4월 23일 오전 2시 10분
디커플드 디퓨전 트랜스포머: 시멘틱 디테일 분리와 인코더 공유를 통한 고품질 이미지 생성 가속화

디커플드 디퓨전 트랜스포머는 이미지 생성 작업에서 우수한 성능을 보이며 기존 GAN 및 자기 회귀 아키텍처를 능가한다. 이미지에 점진적으로 노이즈를 추가하고 이 과정을 거꾸로 되돌리는 방식으로 작동하여 데이터 분포를 근사하는 모델을 구현한다.

2025년 4월 22일 오후 6시 56분
Amazon SageMaker Large Model Inference 컨테이너 v15로 LLM 성능 향상

Amazon SageMaker Large Model Inference (LMI) 컨테이너 v15가 출시되었습니다. vLLM 0.8.4를 기반으로 한 vLLM V1 엔진을 지원하여 성능 향상과 다중 모달리티 모델 호환성을 제공합니다. 이를 통해 대용량 언어 모델을 최고의 성능으로 확장 가능하게 배포하고 제공할 수 있습니다.

2025년 4월 22일 오후 1시 28분AWS Blog
대규모 모델이 필요하지 않는 긴 문맥 다중모달 이해: NVIDIA AI, Eagle 2.5 소개

Eagle 2.5는 GPT-4o와 같은 비디오 작업에서 8B 매개변수를 사용하여 일반적인 비전-언어 모델로 작동하며, 긴 문맥 다중모달 데이터를 효과적으로 처리하는 능력을 갖추고 있음.

2025년 4월 22일 오전 2시 36분
LLMs는 여전히 의학 자료를 신뢰할 수 없을 정도로 언급하는 데 어려움을 겪고 있음: 스탠포드 연구진이 AI 생성 응답에서 사실적인 지원을 감사하기 위한 SourceCheckup을 소개

LLMs가 의료 분야에서 중요해지면서 신뢰할 수 있는 소스가 그들의 결과물을 뒷받침하는 것이 점점 중요해지고 있다. 아직 FDA가 임상 의사 결정에 승인한 LLM은 없지만, GPT-4o, Claude, MedPaLM과 같은 최고 모델은 USMLE과 같은 표준 시험에서 의사를 능가했다. 이러한 모델들은 이미 정신 건강과 같은 현실적 상황에서 활용되고 있다.

2025년 4월 21일 오후 4시 51분
AWS 워크플로 내 현대 IDE에서 AI 지원 디버깅을 제공하는 Serverless MCP

Serverless MCP는 개발자들이 AWS 플랫폼에서 애플리케이션을 빌드하고 배포하는 방식을 혁신적으로 단순화했지만, 복잡한 아키텍처의 디버깅과 관리는 여전히 어려움을 겪고 있습니다. Serverless MCP는 이러한 도전에 대응하기 위해 도입되었으며, AI 지원 디버깅을 가능하게 합니다.

2025년 4월 21일 오후 2시 19분
스탠포드 연구진, FramePack 제안: 장기 시퀀스 비디오 생성에서 Drifting과 Forgetting 대응하는 압축 기반 AI 프레임워크

비디오 생성은 시간에 걸쳐 움직임과 시각적 현실을 시뮬레이트하는 이미지 시퀀스를 만드는 컴퓨터 비전 및 머신 러닝 분야다. 스탠포드 대학 연구진은 FramePack라는 압축 기반 AI 프레임워크를 제안하여 장기 시퀀스 비디오 생성 시 발생하는 Drifting과 Forgetting 문제를 효율적인 컨텍스트 관리와 샘플링을 이용해 해결하는 방안을 제시했다.

2025년 4월 21일 오후 12시 46분
바이트댄스, 강력한 비전-언어 모델을 기반으로 한 오픈소스 다중모달 AI 에이전트 UI-TARS-1.5 공개

바이트댄스가 GUI 상호작용 및 게임 환경에 초점을 맞춘 최신 다중모달 에이전트 프레임워크인 UI-TARS-1.5를 공개했다. 화면 콘텐츠를 인식하고 대화형 작업을 수행할 수 있는 비전-언어 모델로 설계된 UI-TARS-1.5는 GUI 자동화 및 게임 추론 벤치마크 영역에서 지속적인 개선을 선보이며 선도적인 모델들을 능가하고 있다.

2025년 4월 21일 오전 3시 09분
OpenAI, 기업 워크플로우에서 AI 활용 사례 식별과 확장에 대한 실용적 가이드 발표

OpenAI가 “Identifying and Scaling AI Use Cases”라는 포괄적인 프로세스 지향 가이드를 발행했다. 300개 이상의 사례 연구와 통찰을 바탕으로 기업이 AI를 측정 가능한 영향을 창출하는 방법을 결정하는 것이 주요 과제다.

2025년 4월 21일 오전 2시 46분
ReTool: 컴퓨터 도구를 활용한 강화 학습 프레임워크로 LLM 추론 최적화

Reinforcement learning은 LLM의 추론 능력을 향상시키는 강력한 기법이지만, 숫자 계산이나 기호 조작이 필요한 작업에서 한계가 있다. ReTool은 이러한 한계를 극복하기 위한 도구-Augmented 강화 학습 프레임워크다.

2025년 4월 21일 오전 2시 34분
LLMs가 유휴 상태에서도 생각할 수 있다: Letta 및 UC 버클리 연구자들, ‘슬립 타임 컴퓨트’를 소개하여 추론 비용을 낮추고 정확도를 높이지만 지연 시간 희생 없이

대형 언어 모델(LLMs)은 복잡한 추론 작업을 처리하는 능력으로 주목받고 있으며, Letta와 UC 버클리의 연구자들은 유휴 상태에서 컴퓨팅을 확장하여 더 어려운 문제에 더 많은 리소스를 할당함으로써 더 높은 정확도를 달성하는 ‘슬립 타임 컴퓨트’를 소개했다.

2025년 4월 20일 오후 10시 32분
LLMs는 놀라운 데이터에 속을 수 있다: Google DeepMind가 의도치 않은 지식 오염을 예측하고 줄이는 새로운 기술 소개

대형 언어 모델(LLMs)은 방대한 양의 텍스트 데이터를 소화하면서 지식을 업데이트하는데 그들을 속일 수 있는 놀라운 데이터가 있을 수 있다. Google DeepMind는 이를 예측하고 줄이기 위한 새로운 기술을 소개하고 있다.

2025년 4월 20일 오후 10시 18분
푸리에 신경 오퍼레이터가 터보 부스트를 받았다: UC 리버사이드의 연구자들이 PyTorch보다 최대 150% 속도 향상을 달성한 TurboFNO를 소개했다

푸리에 신경 오퍼레이터(FNO)는 편미분 방정식 해결 오퍼레이터를 학습하는 강력한 도구이지만, 아키텍처에 대한 최적화가 부족하다. FFT – GEMM – iFFT의 계산 패턴이 더 많은 주목을 받고 있다. UC 리버사이드의 연구자들은 TurboFNO를 소개하여 PyTorch보다 최대 150% 속도 향상을 달성했다.

2025년 4월 20일 오후 4시 16분
Meta AI, 협업 추론자 (코랄)를 소개합니다: LLM에서 협업 추론 기술을 평가하고 향상시키기 위해 특별히 설계된 AI 프레임워크

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.

2025년 4월 20일 오전 2시 15분
NVIDIA, 언어 모델 사전 학습을 위한 반복적 데이터 혼합 최적화 프레임워크 CLIMB 소개

NVIDIA가 CLIMB 프레임워크를 소개했다. 대규모 언어 모델이 커짐에 따라, 사전 학습 데이터 선택은 중요해졌다. CLIMB은 최적화된 데이터 혼합을 위한 프레임워크로, 이는 후속 성능에 영향을 미친다.

2025년 4월 19일 오후 4시 59분
LLMs가 이제는 소량의 데이터로 어려운 수학 문제를 해결할 수 있습니다: UC 버클리와 AI2 연구원들이 난이도 수준별로 수학적 추론을 해제하는 파인튜닝 레시피를 발표했습니다

UC 버클리와 AI2 연구원들이 발표한 연구에 따르면, LLMs는 소량의 데이터로도 어려운 수학 문제를 해결할 수 있게 되었습니다. 최근 소규모 지도 파인튜닝 접근법들이 수학 문제 해결 능력을 현저히 향상시켰으며, 모델이 훈련 데이터를 넘어 일반화하는지 여부에 대한 근본적인 질문이 남아 있습니다.

2025년 4월 19일 오전 1시 49분
LLMs는 이제 다시 시도하는 법을 배울 수 있습니다: Menlo의 연구자들이 RAG 시스템에서 검색 기반 추론을 개선하기 위해 쿼리 다시 시도를 보상하는 ReZero라는 강화 학습 프레임워크를 소개했습니다

최근 LLMs의 영역은 외부 지식을 추론 프로세스에 통합하는 도구를 포함하도록 신속히 발전해왔습니다. 이 방향으로의 중요한 발전 중 하나는 RAG(검색 증강 생성)인데, 이를 통해 모델이 데이터베이스와 검색 엔진을 쿼리하여 훈련 중에 포함되지 않은 최신이나 특수 정보를 얻을 수 있습니다. RAG는 지식 집중적 작업에서 성능을 향상시킵니다.

2025년 4월 19일 오전 1시 06분
Meta AI가 소개하는 Perception Encoder: 이미지와 비디오에 걸쳐 여러 시각 작업에서 뛰어난 성과를 내는 대규모 비전 인코더

Meta AI가 소개한 Perception Encoder는 이미지와 비디오에 걸쳐 다양한 시각 작업을 뛰어나게 처리하는 대규모 비전 인코더다. AI 시스템이 점점 다중 모달로 발전함에 따라 시각 지각 모델의 역할은 더 복잡해지고 있다. 기존의 비전 인코더는 물체와 장면을 인식하는 것뿐만 아니라 캡션, 질문 응답, 세부 인식, 문서 구문 분석, 이미지와 비디오 모두에 걸쳐 공간 추론을 지원해야 한다.

2025년 4월 18일 오전 11시 23분
IBM, 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B 발표

IBM이 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B를 발표했다. 이 모델은 자동 음성 인식(ASR) 및 자동 음성 번역(AST)에서 뛰어난 성능을 보여준다.

2025년 4월 18일 오전 3시 08분
트랜스포머 모델이 정말 추론 모델에 필요한가?: TogetherAI, Cornell, Geneva, Princeton 연구진이 M1 소개 – 최신 성능 3배 속도로 달성

수학 및 프로그래밍 분야의 복잡한 문제 해결에 효율적인 추론이 중요하며, LLMs는 연쇄 추론을 통해 상당한 향상을 보여줌. 그러나 트랜스포머 기반 모델은 장기 시퀀스를 효율적으로 처리하는 것이 어렵기 때문에 한계가 있음. 이에 TogetherAI, Cornell, Geneva, Princeton 연구진이 M1이라는 하이브리드 AI를 소개하며 최신 성능을 3배의 추론 속도로 달성함.

2025년 4월 17일 오후 11시 56분
Amazon Q 인덱스에 Zoom을 데이터 액세서로 추가하기

이 포스트는 Zoom 사용자가 Zoom 인터페이스 내에서 Amazon Q 비즈니스 엔터프라이즈 데이터에 직접 액세스할 수 있는 방법을 보여줍니다. 이를 통해 기업 보안 경계를 유지하면서 응용 프로그램 간 전환 없이 데이터에 접근할 수 있습니다. 기업은 이제 Amazon Q 비즈니스에서 Zoom을 데이터 액세서로 구성할 수 있어 Amazon Q 인덱스와 Zoom AI Companion 간의 원활한 통합이 가능해집니다.

2025년 4월 17일 오후 2시 19분AWS Blog
복잡한 Vision-Language 파이프라인이 여전히 필요한가요? 바이트댄스와 WHU의 연구자들이 픽셀-SAIL을 소개합니다 – 픽셀 수준 이해를 위한 단일 트랜스포머 모델로 7B MLLMs를 능가합니다

MLLM은 최근 세밀한 픽셀 수준 시각적 이해를 다루는 데 진전되어 정확한 영역 기반 편집 및 분할과 같은 작업에 확장되었습니다. 기존 방법들은 복잡한 아키텍처에 의존하는데, 이를 극복하기 위해 바이트댄스와 WHU의 연구자들이 픽셀-SAIL을 소개하며 7B MLLMs를 능가했습니다.

2025년 4월 17일 오후 1시 05분
Amazon Bedrock 데이터 자동화를 활용한 콘텍스트 광고를 위한 비디오 인사이트 자동화

Amazon Bedrock Data Automation (BDA)는 Amazon Bedrock의 FMs를 기반으로 한 새로운 관리 기능이다. BDA는 복잡한 사용자 정의 워크플로우를 필요로 하지 않으면서 비구조화된 콘텐츠에서 구조화된 출력을 추출한다. 본문에서는 BDA가 비디오의 장면 및 오디오 세그먼트, 장면 내 텍스트 감지, IAB 분류 등을 자동으로 추출하고 이를 활용하여 콘텍스트 광고 효과를 향상시키는 비선형 광고 솔루션을 구축하는 방법을 보여준다.

2025년 4월 17일 오후 12시 47분AWS Blog
Salesforce가 Amazon SageMaker AI로 고성능 모델 배포를 달성하는 방법

Salesforce의 AI 모델 서빙팀은 자연어 처리와 AI 능력을 기업 애플리케이션에 최적화하는 데 중점을 두고 있으며, Amazon SageMaker를 활용하여 모델 배포의 한계를 넓히고 있다.

2025년 4월 17일 오후 12시 42분AWS Blog
LoRAX를 사용하여 동시 LLM 호스팅하기

Low-Rank Adaptation (LoRA)를 사용하여 동시성 모델 호스팅의 도전을 효과적으로 해결하는 방법을 살펴본다. LoRA 서빙과 LoRA 교환을 함께 사용하여 Amazon EC2 GPU 인스턴스로 LoRAX를 실행함으로써 조직이 세밀하게 조정된 모델 포트폴리오를 효율적으로 관리하고 제공하는 방법을 논의한다.

2025년 4월 16일 오후 3시 53분AWS Blog
LangGraph와 Amazon Bedrock를 사용하여 다중 에이전트 시스템 구축하기

이 포스트는 오픈소스 다중 에이전트 프레임워크인 LangGraph를 Amazon Bedrock과 통합하는 방법을 보여준다. LangGraph와 Amazon Bedrock을 사용하여 그래프 기반 오케스트레이션을 활용하는 강력하고 대화형 다중 에이전트 응용 프로그램을 구축하는 방법을 설명한다.

2025년 4월 14일 오후 12시 47분AWS Blog
TransPerfect가 Amazon Bedrock을 활용하여 번역 품질과 효율성을 향상시키는 방법

AWS 고객 채널 기술 – 로컬라이제이션 팀이 TransPerfect와 협력하여 Amazon Bedrock을 GlobalLink 번역 관리 시스템에 통합하는 과정을 설명하고, 이를 통해 기업이 다국어 콘텐츠와 번역 작업을 관리하는 데 도움을 주는 클라우드 기반 솔루션을 활용하는 방법을 소개합니다. TransPerfect의 솔루션을 통해 조직은 AI를 활용하여 다국어로 대규모 콘텐츠를 신속하게 작성하고 배포합니다.

2025년 4월 11일 오후 1시 25분AWS Blog
Pixtral Large가 Amazon Bedrock에서 이제 사용 가능합니다

Pixtral Large 모델을 Amazon Bedrock에서 시작하는 방법을 소개합니다. 이 모델은 문서 이해, 논리 추론, 필기 인식, 이미지 비교, 엔티티 추출, 스캔된 이미지에서 구조화된 데이터 추출, 캡션 생성과 같은 다양한 용도에 활용할 수 있습니다.

2025년 4월 10일 오전 11시 30분AWS Blog
MIT 학생들의 작품이 인간-인공지능 협업을 재정의합니다

MIT 과목 4.043/4.044 (상호작용 지능)에서 나온 프로젝트들이 NeurIPS에서 발표되었는데, 이는 인공지능이 창의성, 교육, 상호작용을 예상치 못한 방식으로 변형시키는 방법을 보여줍니다.

2025년 1월 29일 오후 3시 45분MIT News
MIT Schwarzman College of Computing, 프리다 폴리를 방문 학술 연구원으로 환영합니다

신경과학자 출신 기업인 프리다 폴리는 MIT에서 행동 과학과 인공지능의 교차점을 발전시키는 데 초점을 맞출 것이다.

2024년 12월 19일 오후 3시 40분MIT News