Tech News 보관 - 4 중 3 번째 페이지

구글 AI, 안드로이드 개발을 위한 LLMs 평가 프레임워크 및 리더보드 '안드로이드 벤치' 공개

구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.

2026년 3월 6일 오후 2시 53분

YuanLab AI, 강력한 지능과 탁월한 효율성을 위해 만들어진 플래그십 멀티모달 MoE Foundation 모델인 Yuan 3.0 Ultra 공개

YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.

2026년 3월 5일 오전 12시 55분

구글, 고성능 AI를 위한 비용 효율적인 Gemini 3.1 Flash-Lite 공개

구글이 Gemini 3.1 Flash-Lite를 공개했다. 고성능 작업에 최적화된 이 모델은 낮은 지연시간과 토큰 당 비용을 중점으로 고안되었다. 현재 Gemini API 및 Vertex AI를 통해 Public Preview로 이용 가능하다.

2026년 3월 3일 오후 1시 28분

구글 AI가 소개한 STATIC: LLM 기반 생성 검색을 위한 948배 빠른 Sparse Matrix 프레임워크

산업용 추천 시스템에서 Large Language Models (LLMs)를 활용한 Generative Retrieval (GR)이 일반적인 임베딩 기반의 검색을 대체하고 있으며, 이에 따라 엄격한 비즈니스 로직을 준수하는 STATIC 프레임워크가 속도 향상을 제공한다.

2026년 3월 1일 오후 4시 47분

구글 딥마인드가 통합 잠재 변수 (UL)를 소개합니다: 확산 사전과 디코더를 사용하여 잠재 변수를 공동으로 규제하는 머신러닝 프레임워크

Generative AI의 발전은 잠재 확산 모델(LDMs)에 많이 의존하고 있습니다. 잠재 공간으로 데이터를 압축함으로써 모델이 효과적으로 확장될 수 있습니다. 그러나 낮은 정보 밀도는 잠재 변수를 학습하기 쉽게 만들지만 재구성 품질을 희생시키는 기본적인 트레이드오프가 존재합니다.

2026년 2월 27일 오후 10시 58분

Perplexity, 새로운 SOTA Qwen3 양방향 임베딩 모델 pplx-embed를 출시

Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.

2026년 2월 26일 오후 11시 01분

Microsoft Research, 자율형 AI 에이전트를 위한 다중 시계획 작업 관리 도구 CORPGEN 소개

Microsoft의 연구진은 CORPGEN을 소개했는데, 이는 계층적 계획과 메모리를 활용하여 자율형 디지털 직원을 통해 현실적인 조직 업무의 복잡성을 관리하는 데 사용되는 아키텍처에 중립적인 프레임워크이다. 기존의 AI 에이전트는 단일 작업에 대해 평가되지만, 실제 기업 환경에서는 복잡한 종속성을 가진 여러 작업을 동시에 처리해야 한다.

2026년 2월 26일 오후 7시 32분

Nous Research가 'Hermes Agent'를 발표하여 멀티레벨 메모리와 전용 원격 터미널 액세스 지원으로 AI 망각문제를 해결합니다

Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 '일시적 에이전트'에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.

2026년 2월 26일 오전 3시 01분

AI 코딩 에이전트가 실패하는 이유: AGENTS.md 파일이 너무 상세하다는 ETH 취리히 연구 증명

최근 ETH 취리히 연구에서, AI의 'Context Engineering'이 중요한데 AGENTS.md 파일이 너무 상세해서 코딩 에이전트가 실패하는 것으로 밝혀졌다. 산업 리더들은 AGENTS.md를 코딩 에이전트의 최종 설정 지점으로 손꼽았는데, 이 파일이 복잡한 코드베이스를 안내하는데 있어 중요한 역할을 한다.

2026년 2월 25일 오후 7시 28분

Liquid AI의 새로운 LFM2-24B-A2B 하이브리드 아키텍처는 최신 LLM의 확장 병목 현상을 해결하기 위해 주의와 합성을 결합함

Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.

2026년 2월 25일 오전 3시 37분

알리바바 Qwen 팀, Qwen 3.5 중간 모델 시리즈 출시: 더 작은 AI 모델이 더 똑똑함을 증명하는 생산 성능 중심

알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.

2026년 2월 24일 오후 2시 33분

구글 딥마인드 연구원들, 우수한 알고리즘 수렴을 위해 비직관적인 VAD-CFR 및 SHOR-PSRO 변형 생성에 의미론적 진화 적용

구글 딥마인드 연구팀은 MARL 분야에서 진보를 위해 직관에 의존했던 기존의 방식을 변화시켜, CFR 및 PSRO와 같은 알고리즘을 수동으로 개선하는 대신 의미론적 진화를 적용하여 우수한 알고리즘 수렴을 이룩했다.

2026년 2월 24일 오전 4시 48분

팔란티어의 커뮤니티 에디션이 있을까요? 오픈플랜터를 만나보세요: 마이크로 감시용 오픈소스 재귀 인공지능 에이전트

오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 'Shin Megami Boson'이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.

2026년 2월 21일 오후 4시 10분

NVIDIA, 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델 DreamDojo 공개

NVIDIA가 DreamDojo를 발표했다. 이는 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델로, 기존의 물리 엔진 대신 픽셀에서 직접 로봇 행동의 결과를 '꿈꾼다'.

2026년 2월 20일 오후 3시 30분

NVIDIA, Dynamo v0.9.0 출시: FlashIndexer, 다중 모달 지원 및 NATS 및 ETCD 제거를 특징으로 하는 대규모 인프라 개편

NVIDIA가 Dynamo v0.9.0을 출시했다. 이 업데이트는 대규모 모델의 배포와 관리를 간소화하고 GPU가 다중 모달 데이터를 처리하는 방식을 개선했다. 이번 릴리스에서는 NATS와 etcd와 같은 무거운 종속성을 제거하고 있다.

2026년 2월 20일 오전 1시 51분

Zyphra가 EEG 데이터용 380M 파라미터 BCI Foundation 모델인 ZUNA 발표, 비침습적 사고를 텍스트로 발전시킴

Zyphra가 EEG 신호에 특화된 380M 파라미터 foundation 모델인 ZUNA를 공개했다. ZUNA는 채널 인필링과 초해상도를 수행하는 마스크된 확산 오토인코더로, Apache-2.0 라이선스 하에 가중치가 포함되어 있다.

2026년 2월 19일 오전 1시 43분

Tavus가 Phoenix-4를 출시: 실시간 감성 지능과 생성 비디오 AI에 서브-600ms 지연 시간을 제공하는 가우시안 확산 모델

Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 '거친 계곡'을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.

2026년 2월 18일 오후 6시 12분

구글, AI 안경을 위한 새로운 Spatial UI 프레임워크 'Jetpack Compose Glimmer' 발표

구글이 투명 디스플레이를 위한 인터페이스 구축을 탐구한 결과물인 'Jetpack Compose Glimmer'를 소개했다. 이는 픽셀이 아닌 빛을 활용한 디자인 시스템으로, AI 안경을 위해 특별히 개발되었다.

2026년 2월 18일 오전 4시 02분

구글 딥마인드, 미래 경제를 위한 신흥 에이전틱 웹을 안전하게 하는 지능적 AI 위임을 위한 새로운 프레임워크 제안

구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, '에이전틱 웹'이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.

2026년 2월 16일 오전 2시 04분

장기 AI 추론을 위한 자기 조직화 에이전트 메모리 시스템 구축 방법

이 튜토리얼에서는, 에이전트를 위한 자기 조직화 메모리 시스템을 구축하는 방법에 대해 알아본다. 이 시스템은 대화 내용을 단순히 저장하는 것을 넘어 상호작용을 지속적이고 의미 있는 지식 단위로 구조화한다. 추론과 메모리 관리가 명확히 분리되어 있어 정보를 추출, 압축, 정리하는 전용 구성 요소를 허용한다.

2026년 2월 14일 오후 3시 00분

최신뉴스 전체보기

대규모 추론 모델의 다중 문제 추론을 평가하는 스트레스 테스트 프레임워크 REST

대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론과 같은 다양한 영역에서 복잡한 문제 해결 작업에 강력한 성능을 보여주고 있지만, 현재의 평가 방법은 주로 단일 문제 테스트에 초점을 맞추어 한계를 드러냅니다. 이 기사는 LRMs를 격리된 문제 해결 영역을 넘어서게 하는 새로운 다중 문제 스트레스 테스트 프레임워크 REST를 소개합니다.

2025년 7월 26일 오후 5시 39분

Google DeepMind, Aeneas 소개: 고대 라틴 문장의 AI 기반 맥락화 및 복원

에핑래피 디시플린은 고대 로마 세계를 이해하는 데 중요한 근거를 제공하는데, 구체나 금속과 같은 내구성 재료에 기록된 텍스트를 연구하는데 초점을 맞추고 있습니다. 그러나 단편적인 문장, 불확실한 연대, 다양한 지리적 유래, 약어의 널리 쓰임, 17만 6천개가 넘는 라틴 문장의 큰 말뭉치 등이라는 여러 어려움에 직면하고 있습니다.

2025년 7월 26일 오전 4시 28분

RoboBrain 2.0: 고급 로봇공학을 위한 신세대 비전-언어 모델

인공지능의 발전으로 현실 세계와 디지털 추론 간의 간극이 점점 좁아지고 있는 가운데, 신체적 AI는 로봇이 물리적 환경에서 효과적으로 지각, 추론 및 행동할 수 있도록 하는 분야다. 산업들이 가정부터 물류까지 복잡한 공간 및 시간 작업을 자동화하려는 가운데 AI 시스템을 보유하는 것이 중요하다.

2025년 7월 26일 오전 1시 43분

LLMs에서 효율적인 데모 선택을 위한 사전 선택 프레임워크 FEEDER

LLMs는 소량의 추론을 활용하여 여러 작업에서 우수한 성능을 보여주었지만, 대규모 훈련 데이터셋에서 대표적인 데모를 선택하는 것이 주요 문제다. FEEDER는 유사도 점수를 사용하여 관련성에 따라 데모를 선택하는 초기 방법과 추가적인 선택을 제안하는 현재 방법을 개선하였다.

2025년 7월 25일 오후 8시 04분

DualDistill 및 Agentic-R1: AI가 자연어와 도구 사용을 결합하여 우수한 수학 문제 해결 능력을 갖는 방법

최신의 장기 CoT 추론 모델은 반복적인 자가 확인과 정제를 통해 추론 궤적을 생성함으로써 수학적 추론에서 최첨단 성능을 달성했습니다. 그러나 오픈 소스 장기 CoT 모델은 자연어 추론 트레이스에만 의존하므로 계산 비용이 많이 들고 검증 메커니즘이 없어 오류가 발생할 수 있습니다. 도구 지원 추론은 대규모 숫자 계산에 대해 효율성과 신뢰성을 제공합니다.

2025년 7월 25일 오전 12시 05분

LSM-2를 도입한 Google 연구자들: 불완전한 웨어러블 데이터로부터 직접 학습 가능하게 함

웨어러블 기기는 건강 모니터링을 변화시키고 있지만, 센서 고장, 장치 제거, 충전, 움직임 아티팩트 등으로 데이터 손실이 발생한다. LSM-2는 이러한 불완전한 데이터로부터 직접 학습할 수 있게 해준다.

2025년 7월 24일 오전 5시 02분

GPT-4o는 텍스트를 이해하지만 명확하게 보일까요? 시각 작업에 대한 MFMs의 벤치마킹 연구

MFMs인 GPT-4o, Gemini, Claude와 같은 다중 모달 기반 모델들은 최근 빠른 발전을 보이고 있으나 시각 정보를 이해하는 능력은 여전히 불분명하다. 현재 사용되는 대부분의 벤치마크는 VQA나 분류와 같은 텍스트 중심 작업에 중점을 두고 있어 시각적 정보를 반영하지 못하는 한계가 있다.

2025년 7월 24일 오전 2시 07분

SYNCOGEN: 그래프 및 좌표 모델링을 통한 합성 가능한 3D 분자 생성을 위한 머신러닝 프레임워크

SYNCOGEN은 합성 가능한 분자 생성의 어려움을 해결하기 위한 머신러닝 프레임워크로, 신약 발견 분야에서 새로운 화합물을 빠르게 탐색하는 것을 돕는다. 하지만 많은 AI 생성 분자는 실험실에서 합성하기 어려워 실용적 가치를 제한하는데, SYNCOGEN은 이 문제를 극복하기 위해 그래프와 좌표 모델링을 결합한다.

2025년 7월 23일 오후 9시 20분

TikTok 연구원들, 저장소 수준 코드 성능 최적화를 위한 최초의 벤치마크 ‘SWE-Perf’ 소개

TikTok과 협력 기관의 연구원들이 소프트웨어 엔지니어링 작업에서 대형 언어 모델(LLMs)이 성능 최적화를 어떻게 하는지를 평가하는 데 특히 저장소 수준에서 처음으로 설계된 벤치마크 ‘SWE-Perf’를 소개했다.

2025년 7월 21일 오전 4시 56분

LLM 보상 모델을 신뢰할 수 있을까? 마스터-RM이 그들의 약점을 드러내고 해결한다

대규모 언어 모델(LLM)이 평가자로 작용하는 생성적 보상 모델은 검증 가능한 보상을 통한 강화 학습에서 주목받고 있다. 이 모델들은 열린 답변이나 복잡한 응답이 필요한 작업에 대해 엄격한 규칙 대신 후보 응답을 기준 답변과 비교하고 이진 피드백을 생성한다. 그러나 이러한 모델들은 일부 약점을 가지고 있는데, 이를 드러내고 해결하는 마스터-RM이 등장했다.

2025년 7월 20일 오후 7시 32분

NVIDIA AI, OpenReasoning-Nemotron 출시: DeepSeek R1 0528에서 유래된 추론 강화 LLMs 스위트

NVIDIA AI가 복잡한 추론 작업에서 뛰어난 성과를 내는 대규모 언어 모델인 OpenReasoning-Nemotron을 소개했다. 이 모델 스위트는 1.5B, 7B, 14B 및 32B 매개변수 버전으로 구성되어 있으며, 671B DeepSeek R1 0528 모델에서 추론 능력을 캡처하여 훨씬 작고 효율적인 모델로 압축했다.

2025년 7월 20일 오전 12시 38분

MemAgent: LLMs에서 장문 처리 재정의하는 강화 학습 프레임워크

MemAgent는 장문 처리를 위해 설계된 강화 학습 기반 메모리 에이전트로, LLMs에서 발생하는 성능 하락과 컴퓨팅 비용 문제를 해결하기 위해 ByteDance Seed와 Tsinghua University 연구진이 소개했다.

2025년 7월 19일 오후 6시 56분

NeuralOS: 상호작용하는 운영 체제 인터페이스를 시뮬레이션하는 생성 프레임워크

최근 생성 모델의 발전은 컴퓨터와 상호작용하는 방식을 변화시켰으며, 사용자 경험을 더 자연스럽고 적응적이며 맞춤화된 것으로 만들고 있다. 초기 인터페이스와 명령줄 도구는 사용자가 기계에 적응해야 했지만, LLMs와 멀티모달 인공지능의 등장으로 사용자는 상호작용하고 있다.

2025년 7월 17일 오전 12시 37분

LLMs에서의 분수적 추론: 추론 깊이 제어하는 새로운 방법

이 기사에는 LLMs에서의 현재 테스트 시간 계산 전략의 한계, 훈련 무료 및 모델에 중립적인 프레임워크로서의 분수적 추론(FR)의 소개, 추론 프롬프트 및 조정 가능한 스케일링을 사용한 잠재 상태 조작 기술, GSM8K, MATH500 및 GPQA에서의 너비 및 깊이 기반 스케일링 이점 등이 포함되어 있습니다. FR의 우수성을 보여주는 평가 결과 및 분석이 제시됩니다.

2025년 7월 14일 오후 1시 29분

NVIDIA AI가 DiffusionRenderer를 공개: 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 위한 AI 모델

AI 기반 비디오 생성 기술이 빠르게 발전하고 있으며, NVIDIA의 DiffusionRenderer는 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 생성하는 AI 모델을 소개했다. 이 모델은 놀라운 현실감을 가진 비디오를 생성하는 능력을 갖추고 있다. 그러나 이제는 전문적이고 현실적인 편집 기능이 추가되어 사용자가 비디오를 보다 전문적으로 수정할 수 있다.

2025년 7월 10일 오후 5시 25분

Hugging Face, SmolLM3 공개: 3B 길이의 다국어 추론 모델

Hugging Face가 SmolLM3을 공개했다. 3B 파라미터 아키텍처를 사용하여 강력한 다국어 추론을 제공하며 상태-of-the-art 성능을 획득하였다. 더 적은 파라미터로 비용 효율적이고 제약된 환경에서도 배포 가능하다.

2025년 7월 8일 오후 9시 04분

Python, OpenAI API 및 PrimisAI Nexus를 활용한 도구 지원 다중 에이전트 워크플로우 구현

본 튜토리얼에서는 PrimisAI Nexus 프레임워크를 활용하여 OpenAI API와 통합된 다중 에이전트 작업 자동화 시스템을 구축하는 방법을 소개합니다. 계층적 감독, 지능적인 도구 활용 및 구조화된 출력을 통해 여러 AI 에이전트의 협조를 통해 복잡한 작업을 수행하는 방법을 보여줍니다.

2025년 7월 7일 오후 4시 41분

비디오 확산에서 원형 주의가 품질 저하 없이 비용을 4.4배 줄이는 방법

비디오 확산 모델과 계산적 도전에 대한 소개. 이미지 합성의 성공을 바탕으로 확산 모델이 뛰어난 질과 일관성 있는 비디오를 생성하는 데 큰 진전을 이루었지만, 비디오의 추가적인 시간적 차원 처리는 계산 요구를 크게 증가시킴. 이로 인해 자기 주의는 시퀀스 길이에 따라 늘어나는데, 이는 이러한 모델을 훈련하거나 실행하는 것을 어렵게 만듦.

2025년 7월 7일 오후 4시 26분

SynPref-40M 및 Skywork-Reward-V2: 최첨단 보상 모델을 위한 확장 가능한 인간-인공지능 정렬

현재의 보상 모델의 한계를 이해하는 것은 중요하다. 오늘날의 최고의 모델들도 여전히 복잡한 인간 선호도의 전체 범위를 반영하는 데 어려움을 겪고 있다. 훈련 기술이 발전해도 의미 있는 진전이 제한되어있는데, 주요 이유는 모델의 한계 때문이다.

2025년 7월 6일 오후 10시 09분

Meta와 뉴욕대학교의 새로운 AI 방법, 반 온라인 강화 학습을 사용하여 LLM 정렬 향상

대형 언어 모델은 인간 사용을 최적화하기 위해 추가 정렬 단계가 필요한데, 강화 학습을 통해 모델이 인간 피드백이나 작업 기반 정확성에 따라 결정을 내릴 수 있게 함. 이를 통해 모델이 더 밀접하게 정렬될 수 있음.

2025년 7월 6일 오후 6시 05분

Chai Discovery Team가 Chai-2를 발표: AI 모델이 De Novo 항체 디자인에서 16%의 성공률 달성

Chai Discovery Team이 Chai-2를 소개했다. 이는 제로샷 De Novo 항체 디자인을 가능케 하는 멀티모달 AI 모델로, 각각의 대상에 대해 최대 20명의 후보자를 사용하여 52가지의 신규 대상에서 16%의 성공률을 달성했다. Chai-2는 이전 방법보다 100배 이상 우수한 결과를 보여주며, 2주 미만의 시간 내에 유효한 결합체를 제공하여 대규모 스크리닝의 필요성을 없앴다.

2025년 7월 6일 오전 1시 23분

AbstRaL: LLM에 추상적 추론 가르치기, GSM 벤치마크에서 강건성 향상을 위해

작은 LLM은 강건한 추론에 어려움을 겪는데, 익숙한 문제에서는 잘 작동하지만 이름이나 숫자를 바꾸거나 관련 없는 정보를 추가하는 등 약간의 변경으로 성능이 급격히 감소하는 것이 보고되고 있다.

2025년 7월 5일 오후 8시 46분

Crome: 구글 딥마인드의 LLM 정렬을 위한 견고한 보상 모델링을 위한 인과적 프레임워크

보상 모델은 LLM과 인간 피드백을 일치시키는 데 필수적이지만, 보상 해킹 문제에 직면한다. 이 모델들은 응답 길이나 형식과 같은 표면적 특성에 초점을 맞추고 사실성 및 관련성과 같은 진정한 품질 지표를 식별하지 못한다. 이 문제는 표준 훈련 목표가 의미 없는 상관 관계를 구별하지 못하기 때문에 발생한다.

2025년 7월 3일 오후 9시 11분

대형 언어 모델에서 주요 추론 단계를 식별하고 측정하는 머신러닝 프레임워크: Thought Anchors

대규모 언어 모델의 핵심 추론 단계를 식별하고 측정하는 머신러닝 프레임워크인 Thought Anchors 소개. 현재 해석 도구의 한계를 이해하는데 중점을 두며, DeepSeek 및 GPT 변형과 같은 AI 모델이 복잡한 추론 작업을 처리하는 데 어려움을 겪고 있음을 설명.

2025년 7월 3일 오후 8시 48분

DeepSeek R1T2 Chimera: R1-0528보다 200% 빠르며 개선된 추론과 간결한 출력

TNG 기술 컨설팅이 새로운 AoE 모델인 DeepSeek-TNG R1T2 Chimera를 발표했다. R1-0528, R1, V3-0324 세 부모 모델로 구성된 R1T2는 전문가 계층 보간을 통해 대형 언어 모델에서 새로운 효율성을 발휘한다.

2025년 7월 3일 오전 7시 39분

ReasonFlux-PRM: LLM에서 사고 연쇄 추론을 향상시키는 궤적 인식 보상 모델

대형 언어 모델은 논리적 사고 과정을 시뮬레이션하는 중간 단계를 통해 추론 정확도를 향상시키고 오류를 명확히 합니다. ReasonFlux-PRM은 LLM에서 이러한 사고 연쇄를 향상시키는 궤적 인식 보상 모델입니다.

2025년 7월 2일 오후 8시 42분

바이두 연구원들, 더 스마트한 정보 검색을 위한 AI 검색 패러다임 제안

최신 검색 시스템은 사용자 쿼리의 부피와 복잡성이 증가함에 따라 콘텍스트 인식 및 적응형 정보 검색 수요가 높아지고 있습니다. 이에 바이두 연구원들은 단순 키워드 일치나 문서 순위 매기기에 그치던 시스템을 넘어 계층적 추론이 필요한 사용자 쿼리에 대응하는 지능적이고 적응형 검색 엔진을 제안합니다.

2025년 7월 1일 오후 10시 14분

바이두, ERNIE 4.5 공개 소스화: 0.3B에서 424B 파라미터까지 스케일링하는 LLM 시리즈

바이두가 최신 ERNIE 4.5 시리즈를 오픈 소스로 공개했다. 이는 언어 이해, 추론 및 생성을 강화하기 위해 설계된 강력한 foundation 모델의 가족이다. 공개된 모델은 0.3B 밀집 모델부터 424B 파라미터를 가진 거대한 MoE(Mixture-of-Experts) 아키텍처까지 10가지 모델 변형을 포함하고 있다.

2025년 7월 1일 오전 11시 40분

LLMs의 추론 한계를 탐구하는 구조화된 수학 벤치마크 OMEGA

DeepSeek-R1과 같은 대규모 언어 모델이 수학 문제에서 우수한 결과를 보이지만, 일부 모델은 알려진 대수 규칙을 반복하거나 다이어그램 문제에서 좌표 기하학을 사용하는 등 한정된 기법에 의존한다. OMEGA는 이러한 모델의 추론 한계를 탐구하기 위한 구조화된 수학 벤치마크이다.

2025년 7월 1일 오전 10시 22분

LongWriter-Zero: 합성 데이터 없이 초장문 텍스트 생성을 위한 강화 학습 프레임워크

LongWriter-Zero는 강화 학습 기반의 프레임워크로, 수천 단어에 걸쳐 있는 초장문 텍스트 생성에 도전하는 것을 소개하며, 대규모 언어 모델이 직면한 문제점들을 다루고 있다. 주요 문제로는 불일치, 주제 이탈 등이 있다.

2025년 6월 30일 오후 9시 04분

알리바바 Qwen 팀, Qwen-VLo 출시: 통합 멀티모달 이해 및 생성 모델

알리바바 Qwen 팀이 Qwen 모델 패밀리에 새로운 모델인 Qwen-VLo를 소개했습니다. 이 모델은 멀티모달 이해와 생성을 단일 프레임워크 내에서 통합하는 데 중점을 두었습니다. Qwen-VLo는 강력한 창의적 엔진으로 사용자들이 여러 언어로 텍스트, 스케치 및 명령에서 고품질 시각 콘텐츠를 생성, 편집 및 개선할 수 있도록 지원합니다.

2025년 6월 28일 오전 3시 03분

Unbabel, 고품질 번역 및 다국어 LLMs에서 지시를 따르는 통합 프레임워크 TOWER+ 소개

대형 언어 모델은 대량의 학습 말뭉치를 활용하여 수십 개의 언어 및 방양을 번역하고, 언어적 미묘성을 포착함으로써 기계 번역 분야의 진전을 이끌어왔다. 그러나 이러한 모델을 번역 정확도를 위해 세밀하게 조정하는 것은 종종 그들의 지시 따르기 및 대화 기술을 손상시키며, 일반 목적의 버전들은 전문적인 충실성 기준을 충족시키기 어렵다. TOWER+는 정확하고 문화적으로 인식된 번역과 함께 다국어 LLMs에서 지시를 따르는 것을 균형잡아준다.

2025년 6월 27일 오후 3시 36분

구글 AI, 엣지 배포용으로 만들어진 소형 다중 모달 모델 ‘Gemma 3n’ 출시

구글이 엣지 디바이스에 대규모 다중 모달 AI 기능을 제공하기 위해 디자인된 Gemma 3n을 소개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 클라우드 컴퓨팅에 의존하지 않고 장치 내에서 처리하고 이해할 수 있다.

2025년 6월 27일 오전 1시 56분

LLM 추론 트레이스에서의 개인정보 위험을 밝힌 새로운 AI 연구

새로운 AI 연구에 따르면, 개인 LLM 에이전트를 통해 민감한 사용자 데이터에 접근하는 LLM은 상황에 맞는 개인정보 이해 능력과 특정 사용자 정보를 공유할 적절성을 판단하는 능력에 대한 우려를 불러일으킨다. 대형 추론 모델은 작동하는 동안 도전을 제기한다.

2025년 6월 25일 오후 4시 16분

바이트댄스 연구원들, 6조 토큰으로 학습된 모델 중심의 코드 LLM ‘시드 코더’ 소개

바이트댄스 연구원들이 6조 토큰으로 학습된 모델 중심의 코드 LLM인 ‘시드 코더’를 소개했다. 코드 데이터는 LLM 학습에 중요하며 코딩 작업뿐만 아니라 더 넓은 추론 능력에도 도움을 준다. 오픈소스 모델들은 수작업 필터링과 전문가가 제작한 규칙에 의존하는 반면, 바이트댄스의 접근 방식은 시간이 많이 소요되고 편향적이며 여러 언어에 걸쳐 확장하기 어렵다.

2025년 6월 25일 오전 4시 17분

BAAI, OmniGen2 출시: 멀티모달 AI를 위한 통합 디퓨전 및 트랜스포머 모델

BAAI가 OmniGen2를 소개했는데, 이는 텍스트에서 이미지 생성, 이미지 편집, 주제 중심 생성을 하나의 트랜스포머 프레임워크 내에서 통합하는 차세대 오픈소스 멀티모달 생성 모델이다. 텍스트와 이미지 생성의 모델링을 분리하고 반사적 훈련 메커니즘을 통합하며 특별히 설계된 기능을 구현함으로써 혁신을 이루었다.

2025년 6월 24일 오후 7시 21분

바이트댄스 연구원들, 프로토리즈닝 소개: 논리 기반 프로토타입을 통한 LLM 일반화 향상

바이트댄스 연구자들이 프로토리즈닝을 소개했는데, 이는 LLM(대규모 언어 모델)의 일반화를 논리 기반 프로토타입을 통해 향상시키는 것이다. 최근 LRM의 교차 도메인 추론이 중요한데, 특히 Long CoT 기술을 사용해 훈련된 모델들은 다양한 도메인에서 인상적인 일반화를 보여준다.

2025년 6월 24일 오후 5시 37분

중국 과학원의 새로운 LLM인 Stream-Omni, Cross-Modal 실시간 AI용

중국 과학원이 개발한 Stream-Omni은 텍스트, 비전, 음성 모달리티에서 우수한 성능을 보이며 시각 정보에 기반한 음성 상호작용을 지원하는 omni-modal LMMs의 한계를 극복하기 위한 기술이다.

2025년 6월 24일 오후 5시 16분

CMU 연구진, 확장 가능한 웹 에이전트 훈련을 위한 그래프 기반 프레임워크 ‘Go-Browse’ 소개

CMU 연구진이 웹 환경을 위한 디지털 에이전트들이 동적 웹 인터페이스에 어려움을 겪는 이유와 이를 극복하기 위해 그래프 기반 프레임워크 ‘Go-Browse’를 소개했다. 이 프레임워크는 확장 가능한 웹 에이전트 훈련을 위해 개발되었으며, 웹 페이지 탐색, 클릭, 양식 제출 등의 작업을 자동화한다.

2025년 6월 24일 오전 3시 47분

Sakana AI, 소규모 강화 학습을 사용하여 LLM에서 추론 효율적으로 축소하는 Reinforcement-Learned Teachers (RLTs) 소개

Sakana AI가 강화 학습을 활용한 새로운 프레임워크 RLTs를 소개했다. 이는 효율성과 재사용성에 중점을 둔 언어 모델의 추론을 위한 방법이다. 기존 강화 학습 방법은 희소 보상 신호와 높은 계산 요구로 인해 문제가 있었지만, RLTs는 최적화된 교사 역할을 하는 작은 모델을 훈련시켜 선생님-학생 패러다임을 재정의한다.

2025년 6월 23일 오후 5시 33분

DeepSeek 연구원들이 ‘nano-vLLM’이라는 개인 프로젝트를 오픈소스로 공개: 처음부터 구축된 가벼운 vLLM 구현

DeepSeek 연구자들이 ‘nano-vLLM’을 공개했다. 이는 가벼우면서도 효율적인 vLLM(가상 대형 언어 모델) 엔진의 최소주의적이고 효율적인 구현으로, 간결하고 읽기 쉬운 코드베이스에 고성능 추론 파이프라인의 본질을 응축시켰다.

2025년 6월 22일 오전 3시 26분

텍사스 에이엠 대학 연구진, 고속 유동 시뮬레이션을 위한 ‘ShockCast’라는 두 단계 머신러닝 방법 소개

텍사스 에이엠 대학 연구진이 고속 유동 시뮬레이션을 위한 ‘ShockCast’라는 머신러닝 방법을 소개했다. ‘ShockCast’는 신경망 시간 재메싱과 함께 고속 유동을 시뮬레이션하기 위해 고안되었으며, 충격파와 팽창팬과 관련된 빠른 변화로 인해 고속 유체 유동 모델링에 독특한 도전점이 있다.

2025년 6월 22일 오전 1시 43분

Mistral AI, Mistral Small 3.2 출시: AI 통합을 위한 강화된 명령 따르기, 반복 감소 및 강화된 함수 호출

Mistral AI가 Mistral Small 3.2를 출시했다. 이 버전은 반복적인 오류 최소화, 강화된 강인성, 사용자 상호작용 향상을 위해 설계되었으며 AI 모델이 더욱 복잡한 계산 작업에 필수적해지는 가운데, 실제 시나리오에 매끄럽게 통합될 수 있도록 지속적으로 업그레이드되고 있다.

2025년 6월 21일 오후 5시 31분

Flow 매칭 모델에서의 일반화는 근사로부터 나온다, 확률성이 아닌

Deep generative models의 일반화 능력과 기작을 이해하는 것이 어려운데, generative models이 실제로 일반화를 하는지 여부에 대한 이해가 중요하다. Flow matching 모델에서의 일반화는 근사에서 나오며 확률성과는 무관하다.

2025년 6월 21일 오후 2시 19분

메타 AI 연구자들, 언어 모델링 벤치마크에서 토큰 기반 트랜스포머를 능가하는 확장 가능한 바이트 수준 자기회귀 U-Net 모델 소개

언어 모델링은 자연어 처리에서 중요한 역할을 하며, 기계가 인간 언어와 유사한 텍스트를 예측하고 생성할 수 있게 합니다. 최근 대규모 트랜스포머 시스템으로 발전한 모델들 중 하나인 확장 가능한 바이트 수준 자기회귀 U-Net 모델이 토큰 기반 트랜스포머를 능가하는 것으로 나타났다.

2025년 6월 21일 오전 2시 43분

MiniMax AI가 MiniMax-M1을 공개: 장기 문맥 및 강화 학습을 위한 456B 파라미터 하이브리드 모델

AI 모델의 장기 문맥 추론 도전, AI가 현실 세계와 소프트웨어 개발 환경에서 더 많은 책임을 맡을 때, 연구자들은 장기 문맥과 강화 학습에 적합한 아키텍처를 찾고 있다.

2025년 6월 19일 오후 1시 40분

ReVisual-R1: 장기적이고 정확하며 심사숙고한 추론을 이루는 오픈 소스 7B 멀티모달 대형 언어 모델 (MLLMs)

최근 텍스트 기반 언어 모델의 발전으로 RL이 강력한 추론 기술 개발에 도움이 되는 것을 입증했다. 이에 영감을 받아 연구자들은 시각적 및 텍스트 입력 간 추론 능력을 향상시키기 위해 동일한 RL 기술을 MLLMs에 적용하려고 시도해왔지만 성공하지 못했다.

2025년 6월 19일 오전 2시 54분

HtFLlib: 이질적 페더레이티드 러닝 방법을 평가하기 위한 통합 벤치마킹 라이브러리

AI 연구 기관들은 고유한 요구 사항에 맞는 이질적 모델을 개발하지만, 훈련 중 데이터 부족 문제에 직면한다. 기존 페더레이티드 러닝은 동질적 모델 협업만 지원하므로, 고객이 고유한 요구 사항에 맞는 모델 아키텍처를 개발할 때 문제가 발생한다.

2025년 6월 18일 오후 9시 54분

작은 언어 모델(SLMs)이 기계학습 AI의 효율성, 비용, 실용적 배치 재정의할 준비가 되어있다

작은 언어 모델(SLMs)이 인간과 유사한 능력과 대화 기술로 널리 존경받지만, 기계학습 AI 시스템의 성장으로 인해 반복적이고 전문화된 작업에 점점 더 활용되고 있다. 주요 IT 기업의 절반 이상이 이미 AI 에이전트를 사용하고 있으며, 상당한 자금과 예상된 투자를 받고 있다.

2025년 6월 18일 오후 1시 27분

인공 신경망 오토인코더의 내부 작동을 드러내는 잠재 벡터 필드의 중요성

오토인코더와 잠재 공간은 고차원 데이터의 압축 표현을 학습하는 데 사용되는데, 이들은 데이터를 저차원 잠재 공간으로 투영하고 다시 원래 형태로 재구성하는 인코더-디코더 구조를 사용한다. 이 논문에서는 잠재 벡터 필드가 신경 오토인코더의 내부 작동을 어떻게 드러내는지에 대해 설명한다.

2025년 6월 18일 오전 4시 37분

AREAL: 대규모 추론 모델 학습 가속화를 위한 완전 비동기 강화 학습

대규모 추론 모델 학습을 가속화하기 위해 완전 비동기 강화 학습을 사용하는 AREAL 소개. 대규모 추론 모델은 수학 및 코딩과 같은 복잡한 문제에 대한 성능을 향상시키기 위해 최종 답변을 제공하기 전에 중간 “사고” 단계를 생성한다.

2025년 6월 18일 오전 4시 16분

Fine-Tuning에서 Prompt Engineering으로: 효율적인 트랜스포머 적응을 위한 이론과 실제

Self-attention을 이용한 대규모 트랜스포머 모델의 섬세한 조정 도전, 효율적인 트랜스포머 적응을 위한 이론과 실제에 대한 내용 소개.

2025년 6월 17일 오후 9시 14분

EPFL 연구진, LLMs에서 평생 학습 모델 편집을 위한 확장 가능한 프레임워크 MEMOIR 소개

EPFL 연구진은 폭넓은 데이터셋에서의 사전 학습을 통해 다양한 작업에 뛰어난 성능을 보이는 LLMs가 배포 중에 오래된 정보나 편향을 반영할 수 있어 지속적인 지식 업데이트가 필요한 문제를 제기. 기존의 파인 튜닝 방법은 비용이 많이 들고 재앙적인 망각에 취약한데, EPFL은 이에 대처할 수 있는 MEMOIR 프레임워크를 소개함.

2025년 6월 17일 오전 12시 41분

OpenBMB가 MiniCPM4를 출시: 희소 어텐션과 빠른 추론을 갖춘 엣지 장치용 초 효율적 언어 모델

대형 언어 모델은 AI 시스템에서 중요한 역할을 하고 있지만, 클라우드 인프라를 필요로 하기 때문에 레이턴시, 높은 비용 및 개인 정보 보호 문제가 발생한다. OpenBMB의 MiniCPM4는 희소 어텐션과 빠른 추론을 통해 엣지 장치를 위한 초 효율적인 언어 모델을 제공한다.

2025년 6월 16일 오후 1시 39분

StepFun이 Step-Audio-AQAA를 소개합니다: 자연스러운 음성 상호작용을 위한 완전한 엔드 투 엔드 오디오 언어 모델

Step-Audio-AQAA는 음성 인식, 자연어 이해, 오디오 생성을 결합한 오디오 언어 모델로, 텍스트 변환에 의존하지 않고 음성 상호작용을 위해 설계되었습니다.

2025년 6월 16일 오전 4시 17분

EPFL 연구진, CVPR에서 FG2 발표: GPS 거부 환경에서 자율 주행 차량의 위치 오차 28% 감소하는 새 AI 모델 공개

EPFL 연구진이 CVPR에서 GPS가 작동하지 않는 도심 환경에서 자율 주행 차량의 위치 오차를 28% 줄이는 FG2라는 새로운 AI 모델을 발표했다. 고층 빌딩으로 가려진 GPS 신호로 인해 위치 오차가 발생하는 도시에서 자율 주행 차량이나 배송 로봇에게는 중요한 기술이다.

2025년 6월 16일 오전 12시 26분

OThink-R1: LLMs에서 중복 계산을 줄이기 위한 이중 모드 추론 프레임워크

최근 LLMs는 복잡한 작업을 해결하기 위해 상세한 CoT 추론을 사용하여 최고의 성능을 달성하고 있지만, 많은 간단한 작업들은 더 적은 토큰을 사용하는 작은 모델로 해결될 수 있어서 이러한 복잡한 추론이 불필요해졌다. 이는 우리가 쉬운 문제에 대해 빠르고 직관적인 응답을 사용하는 인간의 사고와 일치한다.

2025년 6월 15일 오전 2시 26분

내부 일관성 최대화 (ICM): LLM을 위한 레이블 없는 비지도 학습 프레임워크

사전 훈련된 언어 모델(LMs)을 위한 사후 훈련 방법은 인간 감독을 필요로 하는데, 이는 작업과 모델 행동이 매우 복잡해지면 신뢰성이 떨어지는 한계를 가지고 있다. 이에 레이블 없는, 비지도 학습 프레임워크인 내부 일관성 최대화(ICM)가 소개되었다.

2025년 6월 14일 오후 4시 28분

MemOS: 진화하는 대형 언어 모델을 위한 메모리 중심 운영 체제

대형 언어 모델은 인공 일반 지능(AGI)을 달성하는 데 핵심 요소로 인식되지만 메모리 처리 방식에 대한 주요 제한 사항이 있습니다. MemOS는 외부 지식을 통합하여 정보를 오래 보관하거나 업데이트하는 데 어려움을 겪는 대부분의 대형 언어 모델의 한계를 극복하기 위한 메모리 중심 운영 체제입니다.

2025년 6월 14일 오전 10시 23분

Sakana AI, 작업 설명에 기반한 작업별 LLM 어댑터 생성하는 Text-to-LoRA (T2L) 소개

Sakana AI는 Text-to-LoRA (T2L)을 소개했다. 이는 작업 설명에 기반해 작업별 LLM 어댑터를 생성하는 하이퍼네트워크로, 새로운 특화 작업에 대한 모델 적용을 단순화한다.

2025년 6월 14일 오전 1시 03분

OpenThoughts: 추론 모델을 위한 확장 가능한 지도학습 Feine-Tuning SFT 데이터 정제 파이프라인

최근 추론 모델들은 지도학습 Feine-Tuning (SFT)과 강화 학습 (RL)과 같은 기술을 활용하여 수학, 코딩, 과학 분야에서 높은 성능을 보여주고 있으나 이러한 선두적인 추론 모델들의 완벽한 방법론은 공개되어 있지 않다.

2025년 6월 13일 오후 11시 49분

Apple 연구원들, 퍼즐 기반 평가를 통해 대규모 추론 모델의 구조적 결함 발표

Apple 연구원들은 대규모 추론 모델인 LRMs의 구조적 결함을 퍼즐 기반 평가를 통해 밝혔다. 최근 AI는 인간과 유사한 사고를 시뮬레이션하는데 초점을 맞춘 고급 모델로 발전하고 있다.

2025년 6월 13일 오전 12시 32분

구글 AI, 정확한 지역 기후 위험 예측을 위한 하이브리드 AI-물리 모델 발표

전통적인 기후 모델링의 한계를 극복하기 위해 구글 AI가 하이브리드 AI-물리 모델을 개발했다. 이 모델은 지역 기후 위험을 더 정확하게 예측하고 더 나은 불확실성 평가를 제공한다.

2025년 6월 12일 오후 11시 46분

Meta AI, V-JEPA 2 공개: 이해, 예측, 계획을 위한 오픈 소스 자기 지도 세계 모델

Meta AI가 V-JEPA 2를 소개했다. 이는 인터넷 규모의 비디오에서 학습하고 강력한 시각적 이해, 미래 상태 예측, 제로샷 계획을 가능하게 하는 확장 가능한 오픈 소스 세계 모델이다.

2025년 6월 12일 오전 4시 09분

Dagger를 사용하여 컨테이너를 이용해 병렬로 여러 AI 코딩 에이전트 실행하기

AI 기반 개발에서 코딩 에이전트는 필수적인 협업자로 자리 잡았다. 이러한 독립적 또는 준자율적 도구는 코드를 작성, 테스트, 리팩토링하여 개발 주기를 현격히 가속화한다. 그러나 하나의 코드베이스에서 작업하는 에이전트 수가 증가함에 따라 의존성 충돌, 에이전트 간의 상태 누출, 각 에이전트의 작업 추적의 어려움도 커진다.

2025년 6월 12일 오전 3시 18분

CURE: LLM에서 코드 및 단위 테스트 생성을 위한 강화 학습 프레임워크

대형 언어 모델(Large Language Models, LLMs)은 강화 학습과 테스트 시간 스케일링 기술을 통해 추론과 정밀도에서 상당한 향상을 보여주고 있다. 이에 대해 기존 방법들보다 우수한 성능을 보이는 CURE라는 강화 학습 프레임워크가 소개되었는데, 이는 코드 및 단위 테스트 생성에 있어 ground-truth 코드로부터의 감독을 필요로 하지 않아 데이터 수집 비용을 줄이고 사용 가능한 훈련 데이터의 규모를 제한하지 않는다.

2025년 6월 11일 오후 10시 30분

LLM이 실제로 어떻게 추론하는가? 지식과 논리를 분리하는 프레임워크

최근의 LLM 발전은 복잡한 작업에서 뚜렷한 개선을 이끌어내었지만, 이 모델들의 단계적 추론 과정은 여전히 불분명하다. 대부분의 평가는 최종 답변 정확도에 초점을 맞추어 추론 과정을 숨기고 모델이 지식을 어떻게 결합하는지를 나타내지 않는다.

2025년 6월 11일 오후 4시 12분

NVIDIA 연구진, 트랜스포머 LLM에서 8배 KV 캐시 압축을 위한 다이나믹 메모리 희박화(DMS) 소개

NVIDIA와 대학 연구진이 최근 논문에서, 큰 언어 모델이 더 긴 시퀀스 또는 병렬 추론 체인을 생성하기를 요구함에 따라, 추론 시간 성능이 토큰 수뿐 아니라 키-값(KV) 캐시의 메모리 풋프린트에 의해 심각하게 제한되는 문제를 다루었다.

2025년 6월 11일 오전 4시 11분

ether0: 24B LLM가 고급 화학 추론 작업을 위해 강화 학습 RL로 훈련됨

LLM은 사전 훈련 데이터와 컴퓨팅 리소스의 스케일링을 통해 정확성을 향상시키지만, 한정된 데이터로 인해 대체 스케일링으로의 관심이 이동되었다. 최근에는 강화 학습 (RL) 후 훈련이 사용되었다. 과학적 추론 모델은 CoT 프롬프팅을 통해 초기에 답변 이전에 사고 과정을 내보내는 방식으로 성능을 향상시킨다.

2025년 6월 10일 오후 3시 33분

Meta가 LlamaRL을 소개: 효율적인 규모 확장 LLM 훈련을 위한 PyTorch 기반 강화 학습 RL 프레임워크

강화 학습은 대형 언어 모델 (LLM)을 미세 조정하는 데 강력한 방법으로 등장했다. 이 모델은 이미 요약부터 코드 생성까지 다양한 작업을 수행할 수 있으며, RL은 구조화된 피드백을 기반으로 출력을 조정하여 지능적인 행동을 더욱 향상시킨다.

2025년 6월 10일 오후 2시 40분

ALPHAONE: AI 모델의 추론을 조절하는 범용 테스트 시간 프레임워크

대형 언어 모델에 의해 자주 사용되는 대형 추론 모델은 수학, 과학 분석 및 코드 생성의 고수준 문제를 해결하는 데 사용된다. 이중 모드 사고는 간단한 추론에 대한 신속한 응답과 복잡한 문제에 대한 신중하고 느린 사고를 모방한다. 이는 사람들이 직관적인 응답에서 복잡한 문제로 전환하는 방식을 반영한다.

2025년 6월 9일 오전 3시 07분

구글, Gemini 2.5와 LangGraph를 활용한 오픈소스 풀 스택 AI 에이전트 스택 소개

대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개

2025년 6월 8일 오후 3시 56분

생물학 분야에서 AI가 생물학 전문가처럼 유전체에 대해 추론할 수 있게 해주는 세계 최초의 추론 모델 ‘BioReason’ 만나보기

AI를 유전체 연구에 활용하는 주요 장애물 중 하나는 복잡한 DNA 데이터로부터 해석 가능한 단계별 추론의 부족이다. BioReason은 생물학 메커니즘에 대한 통찰력을 제공하는 세계 최초의 추론 모델로, 기존의 DNA 모델이 가진 한계를 극복하고, 유전체에 대한 복잡한 추론을 가능하게 한다.

2025년 6월 8일 오전 2시 02분

바이트댄스 연구진, 더 빠르고 효율적인 이미지 생성을 위한 1D 코어스 투 파인 자기회귀 프레임워크 ‘디테일플로우’ 소개

바이트댄스 연구진이 자기회귀 이미지 생성을 위한 1차원 코어스 투 파인 프레임워크 ‘디테일플로우’를 소개했다. 이 방법은 이미지를 한 토큰씩 생성함으로써 구조적 일관성을 유지하면서 이미지를 생성하는 혁신적인 방법이다.

2025년 6월 7일 오전 2시 33분

알리바바 Qwen 팀, Qwen3-Embedding 및 Qwen3-Reranker 시리즈 공개 – 다국어 임베딩 및 랭킹 표준 재정의

알리바바의 Qwen 팀이 Qwen3-Embedding 및 Qwen3-Reranker 시리즈를 발표했다. 이는 다국어 임베딩 및 랭킹 표준을 재정의하여 현대 정보 검색 시스템에 기초를 제공한다. 현재 접근 방식은 고다국어 충실성 및 작업 적응성을 달성하는 데 어려움을 겪고 있지만, Qwen3 시리즈는 이러한 문제를 극복하고 있다.

2025년 6월 6일 오전 12시 24분

AI에게 ‘모르겠다’라고 가르치기: 새로운 데이터셋이 강화 세밀 조정에서 환각을 줄입니다

강화 세밀 조정은 보상 신호를 사용하여 대형 언어 모델이 바람직한 동작을 하도록 안내합니다. 이 방법은 올바른 응답을 강화함으로써 모델이 논리적이고 구조화된 출력을 생성하는 능력을 강화합니다. 그러나 이러한 모델이 불완전하거나 오도하는 질문을 마주했을 때 응답하지 말아야 하는 시점을 알고 있는지 확인하는 것이 여전히 도전입니다.

2025년 6월 6일 오전 12시 02분

NVIDIA가 ProRL을 소개: 장기간 강화학습이 추론과 일반화를 향상시킴

NVIDIA는 ProRL을 소개하며 장기간 강화학습이 언어 모델의 새로운 추론 능력을 발휘하고 일반화를 향상시킨다. 최근 추론 중심 언어 모델의 발전으로 AI에서 시험 시간 계산의 규모가 커졌다. 강화학습은 추론 능력을 향상시키고 보상 조작 함정을 완화하는 데 중요하다. 하지만 기본 모델에서 새로운 추론 능력을 제공하는지 아니면 기존 솔루션의 샘플링 효율을 최적화하는 데 도움을 주는지에 대한 논쟁이 남아있다.

2025년 6월 5일 오전 2시 09분

Mistral AI가 Mistral Code를 소개: 기업 워크플로에 맞춘 사용자 지정 AI 코딩 어시스턴트

Mistral AI가 기업 소프트웨어 개발 환경에 맞춘 AI 코딩 어시스턴트인 Mistral Code를 발표했다. 이 릴리스는 Mistral이 프로페셔널 개발 파이프라인에서의 제어, 보안 및 모델 적응성에 대응하고자 하는 의지를 보여준다. Mistral Code는 기존의 AI 코딩 도구에서 관측된 주요 제약 사항을 대상으로 한다.

2025년 6월 4일 오후 2시 52분

NVIDIA AI, Llama Nemotron Nano VL 출시: 문서 이해를 위한 최적화된 소형 Vision-Language 모델

NVIDIA가 Llama Nemotron Nano VL을 소개했다. 이는 문서 수준 이해 작업에 효율적이고 정확한 비전-언어 모델(VLM)로, 복잡한 문서 구조의 정확한 구문 분석이 필요한 애플리케이션을 대상으로 한다.

2025년 6월 4일 오전 2시 47분

세계 최대 규모의 이벤트 데이터셋 Yambda 만나보기: 추천 시스템 가속화

야н덱스가 Yambda를 공개하여 추천 시스템 연구 및 개발을 가속화하는데 기여했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하며 학술 연구와 산업 규모 응용 프로그램 간의 간극을 줄이는 데 도움이 된다.

2025년 6월 2일 오전 3시 31분

NVIDIA AI, Fast-dLLM 소개: KV 캐싱 및 병렬 디코딩을 Diffusion LLMs에 적용하는 훈련 불필요한 프레임워크

Diffusion 기반 대형 언어 모델은 전통적인 자기 회귀 모델에 대안으로 탐구되고 있으며, 동시 다중 토큰 생성의 잠재력을 제공한다. 그러나 이러한 모델은 경쟁력 있는 추론을 제공하는 데 어려움을 겪는다.

2025년 6월 2일 오전 1시 10분

Off-Policy Reinforcement Learning RL with KL Divergence는 대형 언어 모델에서 우수한 추론 능력을 제공합니다

정책 기울기 방법은 특히 강화 학습을 통해 LLM의 추론 능력을 크게 향상시켰습니다. 이들 방법을 안정화하는 데 중요한 도구는 Kullback-Leibler (KL) 정규화인데, 현재 정책과 참조 정책 사이의 급격한 변화를 억제합니다. PPO와 같은 알고리즘에서 널리 사용되지만, 다양한 KL 변형에 대해 더 탐구할 여지가 많습니다.

2025년 6월 2일 오전 12시 50분

Enigmata의 다단계 및 혼합 훈련 강화 학습 레시피가 LLM 퍼즐 추론에서의 획기적인 성과를 이끕니다

Enigmata의 새로운 훈련 방법은 LRM을 사용하여 RL로 훈련된 대규모 추론 모델이 수학, STEM 및 코딩과 같은 복잡한 추론 작업에서 높은 성능을 보이지만, 순수한 논리 추론 기술이 필요한 다양한 퍼즐 작업을 완료하는 데 어려움을 겪는 문제에 대한 획기적인 성과를 이루고 있습니다.

2025년 6월 1일 오전 10시 14분

BOND 2025 AI 트렌드 보고서, 사용자 및 개발자의 채택이 급증함에 따라 AI 생태계가 이전보다 빠르게 성장

BOND의 최신 보고서는 2025년 5월의 인공지능 트렌드를 소개하며, AI 기술의 현재 상태와 급속한 발전에 대한 데이터 기반 스냅샷를 제시한다. 보고서는 AI 채택 속도, 기술적 향상, 시장 영향의 전례없는 속도를 강조하며, 주요 결과들을 살펴보고 있다.

2025년 5월 31일 오후 11시 12분

Multimodal Foundation Models Fall Short on Physical Reasoning: PHYX Benchmark Highlights Key Limitations in Visual and Symbolic Integration

최신 다중 모달 기반 모델은 학문적 지식과 수학적 추론에 대한 벤치마크를 발전시켰으나 물리적 추론에는 한계가 있음을 PHYX 벤치마크가 강조. 기계 지능의 중요한 측면인 물리적 추론은 학문적 지식, 상징적 작업, 현실 성애를 통합하는 것을 필요로 함.

2025년 5월 30일 오후 10시 41분

Yandex가 세계 최대 규모의 이벤트 데이터셋 Yambda를 공개하여 추천 시스템 가속화

Yandex가 세계 최대 규모의 이벤트 데이터셋 ‘Yambda’를 공개했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하여 학술 연구와 산업 규모 응용 사이의 간극을 줄이는 데 기여한다.

2025년 5월 30일 오후 4시 45분

Stanford 연구진이 소개한 Biomni: 다양한 작업과 데이터 유형에 대한 생명과학 AI 에이전트

스탠포드 대학 연구진이 Biomni를 소개했다. 이는 생명과학 분야에서 다양한 작업과 데이터 유형에 걸쳐 자동화를 위한 AI 에이전트로, 질병 메커니즘 발견, 신약 타깃 식별, 효과적인 치료법 개발을 통해 인간 건강을 발전시키는 빠르게 발전하는 분야에 활용된다.

2025년 5월 30일 오후 2시 21분

DeepSeek, 오픈 소스 추론 AI 모델 R1-0528 출시: 단일 GPU 효율성으로 향상된 수학 및 코드 성능 제공

DeepSeek가 R1 추론 모델의 업데이트 버전인 DeepSeek-R1-0528을 출시했다. 이번 업데이트로 모델은 수학, 프로그래밍, 일반 논리 추론 분야에서 능력을 향상시켰으며, 주요 모델인 OpenAI의 o3 및 Google의 Gemini 2.5 Pro과의 경쟁력을 갖추게 되었다.

2025년 5월 29일 오후 10시 38분

삼성 연구원, 텍스트-비디오 확산 모델 개선을 위한 ANSE 소개

삼성 연구원이 텍스트 프롬프트를 고품질 비디오 시퀀스로 변환하는 핵심 기술인 비디오 생성 모델을 향상시키기 위한 ANSE(Active Noise Selection for Generation)을 소개했다. 확산 모델은 무작위 노이즈에서 시작하여 현실적인 비디오 프레임으로 반복적으로 정제하는 방식으로 작동한다. 텍스트-비디오 모델은 이를 확장한다.

2025년 5월 29일 오후 6시 30분

싱가포르 국립대학 연구진이 딤플(Dimple)을 소개: 효율적이고 조절 가능한 텍스트 생성을 위한 이산 확산 다중 모달 언어 모델

싱가포르 국립대학 연구진은 최근 확산 모델을 자연어 처리 작업에 적용하는 관심이 증가함에 따라 이를 텍스트 생성의 노이즈 제거 과정으로 취급하는 이산 확산 언어 모델(DLMs)을 개발했다. DLMs는 전통적인 자기회귀 모델과 달리 병렬 디코딩을 가능하게 하며 더 나은 제어를 제공한다.

2025년 5월 28일 오후 10시 32분

부정확한 답변이 수학 추론을 개선할까? 검증 가능한 보상과 함께하는 강화 학습 (RLVR)가 Qwen2.5-Math로 놀라운 결과 도출

자연어 처리(NLP)에서 강화 학습 방법인 RLHF를 활용하여 모델 출력을 향상시키는데 사용되었으며, RLVR은 이 접근 방식을 확장하여 feedback으로 수학적 정확성이나 구문적 특징과 같은 자동 신호를 활용함. 부정확한 답변이 수학 추론을 개선할 수 있음을 보여줌.

2025년 5월 28일 오후 4시 31분

LLMs가 이제 언어를 넘어 사고할 수 있게 되었다: 연구자들이 이산 토큰을 연속적인 개념 임베딩으로 대체하기 위해 소프트 씽킹을 소개

현재의 대형 언어 모델은 자연어의 범위 내에서 추론하는 데 한정되어 있지만, 연구자들은 이산 언어 토큰 대신 연속적인 개념 임베딩으로 대체하며 모델의 표현 능력과 범위를 확장시키는 소프트 씽킹을 도입했다.

2025년 5월 28일 오전 12시 17분

Mistral, 개발자 친화적인 AI 에이전트 생성을 위한 새 플랫폼인 에이전트 API 출시

Mistral은 AI 에이전트 개발을 용이하게 하는 Agents API를 소개했다. Python 코드 실행, 이미지 생성, RAG 수행 등 다양한 작업을 수행할 수 있는 AI 에이전트를 개발하기 위한 프레임워크로, 대형 언어 모델이 여러 도구와 데이터 원본과 상호 작용할 수 있는 환경을 제공한다.

2025년 5월 27일 오후 4시 57분

Qwen Researchers가 큰 언어 모델에서 긴 문맥 추론을 위한 강화 학습 프레임워크인 QwenLong-L1을 제안

대규모 추론 모델(LRMs)은 짧은 문맥 추론에서 강화 학습을 통해 인상적인 성능을 보여주었지만, 이러한 이익은 긴 문맥 시나리오로 일반화되지 않는다. 다중 문서 QA, 연구 종합, 법적 또는 금융 분석과 같은 응용 프로그램에서는 모델이 100K 토큰을 초과하는 시퀀스를 처리하고 추론해야 한다.

2025년 5월 27일 오전 3시 18분

UT Austin 연구진, 20,000개의 혼돈적 ODE로 사전 학습된 비선형 동역학을 위한 기반 모델 ‘Panda’ 소개

UT Austin 연구진이 20,000개의 혼돈적 ODE로 사전 학습된 비선형 동역학을 위한 기반 모델 ‘Panda’를 소개했다. 혼돈적 시스템은 초기 조건에 매우 민감하여 장기적인 예측이 어렵기 때문에, 이를 모델링하는 데 오차가 발생할 경우 빠르게 커질 수 있다. 이에 대한 새로운 접근 방식을 제시하고 있다.

2025년 5월 26일 오후 9시 05분

LLMs는 정말 추론을 통해 판단할 수 있을까? 마이크로소프트와 청화 연구자들이 동적으로 스케일되는 테스트 시간 컴퓨팅을 위한 보상 추론 모델을 소개합니다

마이크로소프트와 청화 연구자들이 보상 추론 모델을 도입하여 LLM의 테스트 시간 컴퓨팅을 동적으로 조정함으로써 더 나은 정렬을 이룰 수 있는지에 대한 연구. 강화학습 기반 모델의 한계와 장점을 살펴보고, 수학적 추론에 대한 가능성을 탐구함.

2025년 5월 26일 오후 2시 17분

NVIDIA, 효율적인 엣지 AI 및 과학 작업에 최적화된 Llama Nemotron Nano 4B 발표

NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.

2025년 5월 25일 오후 5시 06분

AI 에이전트를 구축하기 위한 코딩 구현: 라이브 Python 실행 및 자동 검증

LangChain의 ReAct 에이전트 프레임워크와 Anthropic의 Claude API를 통합하여 Python 코드를 생성하고 라이브로 실행하여 결과를 캡처하는 종단간 솔루션 구축 방법에 대한 튜토리얼.

2025년 5월 25일 오후 2시 23분

NVIDIA AI, 강화 학습을 통해 수학 및 코드 추론 발전을 위한 AceReason-Nemotron 소개

NVIDIA의 인공지능이 강화 학습을 통해 수학 및 코드 추론을 발전시키는 AceReason-Nemotron을 소개했다. AI 시스템의 추론 능력은 중요한 구성 요소이며, 최근 대규모 강화 학습을 통해 추론 모델을 구축하는 데 흥미가 커지고 있다.

2025년 5월 25일 오후 1시 11분

Microsoft, 개발자들이 자연어 인터페이스를 통해 웹사이트를 AI 기반 앱으로 쉽게 변환할 수 있는 오픈 프로젝트 NLWeb 출시

마이크로소프트가 NLWeb을 출시했다. 이 프로젝트는 모든 웹사이트를 자연어 인터페이스를 통해 AI 기반 앱으로 쉽게 변환할 수 있게 해준다. 기존 솔루션들은 중앙집중식이거나 기술적 전문 지식이 필요한데, 이로 인해 개발자들이 지능형 에이전트를 구현하는 데 제약이 생겼다.

2025년 5월 25일 오전 2시 25분

« 이전 1 2 3 4 다음 »