언어 모델 보관 - 2 중 2 번째 페이지

UCSD와 Together AI, 파르카에(Parcae) 발표: 두 배 크기의 트랜스포머 품질을 달성하는 안정적인 루프 언어 모델 아키텍처

UCSD와 Together AI 연구팀이 파르카에(Parcae)라는 새로운 언어 모델 아키텍처를 소개했습니다. 이 모델은 기존 트랜스포머 모델의 두 배 크기와 같은 품질을 제공하면서도 효율성을 높였습니다.

2026년 4월 16일 오전 4시 30분

Liquid AI, 450M 매개변수 비전-언어 모델 LFM2.5-VL-450M 출시

Liquid AI가 새로운 비전-언어 모델 LFM2.5-VL-450M을 출시했다. 이 모델은 바운딩 박스 예측, 다국어 지원, 250ms 이하의 엣지 추론 기능을 갖추고 있다.

2026년 4월 11일 오후 10시 41분

구글 AI, Gemini Embedding 2 소개: 텍스트, 이미지, 비디오, 오디오, 문서를 포함한 다중 모달 임베딩 모델

구글이 Gemini Embedding 2를 발표했다. 이 모델은 텍스트 뿐만 아니라 이미지, 비디오, 오디오, 문서 등을 임베딩 공간으로 가져와 AI 개발자가 고차원 저장 및 교차 모달 검색 도전에 대처할 수 있도록 설계되었다.

2026년 3월 11일 오전 3시 18분

로봇을 위한 MEM 공개: 복잡한 작업을 위한 3-4B VLAs에 15분간의 컨텍스트를 제공하는 멀티 스케일 메모리 시스템

현재의 로봇 정책은 주로 한 번의 관찰 또는 매우 짧은 역사에 기반하며, 장기 과제에 부족함이 있습니다. 이를 해결하기 위해 Physical Intelligence, Stanford, UC Berkeley, MIT의 연구진이 개발한 멀티 스케일 메모리 시스템은 복잡한 작업에 필요한 15분간의 컨텍스트를 제공합니다.

2026년 3월 4일 오전 1시 01분

알리바바, 기기용 애플리케이션을 위해 구축된 0.8B ~ 9B 파라미터의 Qwen 3.5 Small 모델 발표

알리바바의 Qwen 팀이 0.8B ~ 9B 파라미터의 Qwen3.5 Small 모델 시리즈를 출시했다. 이 모델은 '더 많은 지능, 적은 연산'에 초점을 맞춰 산업 트렌드에서 벗어나 더 나은 AI 배포를 지향한다.

2026년 3월 2일 오후 9시 21분

FireRedTeam, 소프트웨어 개발자를 위한 FireRed-OCR-2B를 발표하며 LVLM의 구조적 환각 해결

FireRedTeam은 FireRed-OCR-2B를 발표했는데, 이 모델은 문서 구문 분석을 처리하기 위해 설계되었고, LVLM에서 발생하는 '구조적 환각'을 해결하는 데 사용된다.

2026년 3월 2일 오전 1시 38분

Sakana AI, Doc-to-LoRA 및 Text-to-LoRA 소개: 장문 맥락 즉시 내재화하고 LLM을 제로샷 자연어로 조정하는 하이퍼네트워크

일본의 Sakana AI가 비용 분할을 통해 제한을 우회하는 새로운 접근 방식을 제안했습니다. 최근 두 논문에서 Text-to-LoRA (T2L)과 같은 하이퍼네트워크를 소개하며, 대규모 언어 모델(LLM)의 사용을 개인화하는 과정에서 발생하는 공학적 트레이드오프를 극복했습니다.

2026년 2월 27일 오후 12시 53분

구글 AI, 고급 주제 일관성과 하위 초 4K 이미지 합성 성능을 갖춘 새 AI 모델 Nano-Banana 2 공개

구글이 Nano-Banana 2를 공개했다. 이 모델은 고급 주제 일관성과 초당 하위 4K 이미지 합성 성능을 특징으로 한다. 기술적으로는 Gemini 3.1 Flash Image로 지칭되며, 장치 내에서 완전히 유지되는 고품질 하위 초 이미지 합성을 지향한다.

2026년 2월 26일 오후 1시 04분

Meta AI, 고성능 AI 훈련과 하드웨어 신뢰성을 위해 GPU 클러스터 모니터링을 개선하기 위해 GCM 오픈 소스화

Meta AI 연구팀이 GCM을 오픈 소스로 공개하여, 고성능 AI 훈련 및 하드웨어 신뢰성을 보장하기 위해 GPU 클러스터 모니터링을 개선하고 있다. AI 모델이 조파라미터로 확장됨에 따라, 이를 훈련하는 데 필요한 클러스터는 행성상에서 가장 복잡하고 취약한 기계 중 하나로 변화하고 있다.

2026년 2월 24일 오후 7시 31분

구글 AI, 1백만 토큰 콘텍스트와 77.1% ARC-AGI-2 추론을 갖춘 Gemini 3.1 Pro 출시

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 '에이전틱' AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

2026년 2월 19일 오후 4시 06분

Anthropic, 복잡한 코딩 해결과 개발자 탐색을 위한 1백만 토큰 콘텍스트를 활용한 Claude 4.6 Sonnet 출시

Anthropic사는 Claude 4.6 Sonnet을 발표하여 개발자와 데이터 과학자가 복잡한 논리를 다루는 방식을 변화시키고, 내부 코드 실행을 통해 실시간으로 사실을 확인하는 기능을 갖춘 Improved Web Search를 함께 선보였다.

2026년 2월 17일 오후 4시 11분

OpenAI, GPT-5.3-Codex-Spark의 연구 미리보기 발표: Cerebras 하드웨어에서 초당 1000 토큰 이상 제공하는 15배 빠른 AI 코딩 모델

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

2026년 2월 12일 오후 6시 24분

바이트댄스, Protenix-v1 공개: 생체 분자 구조 예측에서 AF3 수준 성능 달성한 새 오픈 소스 모델

바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.

2026년 2월 8일 오후 1시 26분

구글 AI가 PaperBanana를 소개합니다: 게재 준비된 방법론 다이어그램과 통계 플롯을 자동화하는 에이전틱 프레임워크

구글과 북경대학이 공동으로 연구한 팀이 'PaperBanana'라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

2026년 2월 7일 오후 1시 45분

Mistral AI, Voxtral Transcribe 2 출시: 다국어 제작 워크로드를 위한 일괄 다이어리제이션 및 실시간 ASR 결합

Mistral AI가 새로운 Voxtral Transcribe 2 패밀리를 출시했다. 이 제품은 일괄 및 실시간 사용 사례로 깔끔하게 분리되는 2개 모델을 제공하며 비용, 지연 시간 및 배포 제약 조건을 고려하고 있다.

2026년 2월 5일 오전 2시 36분

알리바바, 에이전틱 워크로드를 동력으로 하는 네이티브 툴 사용을 강화하는 테스트 시간 스케일링 추론 모델 'Qwen3-Max-Thinking'을 선보여

알리바바의 Qwen3-Max-Thinking은 파라미터 규모를 확장하는 것뿐만 아니라, 추론 방식을 변화시키며 생각의 깊이에 대한 명시적 제어와 검색, 메모리, 코드 실행을 위한 내장 도구를 갖추고 있습니다. 이 모델은 36조 토큰에 사전 훈련된 1조 파라미터 MoE 플래그십 LLM으로, 데이터 및 배포 측면에서 Qwen3-Max-Thinking은 […]

2026년 1월 28일 오후 9시 15분

Moonshot AI, Kimi K2.5 공개: 네이티브 스왐 실행 기능을 갖춘 오픈 소스 비주얼 에이전트 인텔리전스 모델

Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.

2026년 1월 27일 오후 6시 55분

Tree-KG가 전통적인 RAG를 넘어서는 계층적 지식 그래프를 가능하게 하는 방법

Tree-KG는 의미 임베딩과 명시적 그래프 구조를 결합하여 전통적 검색 보강 생성을 넘어선 고급 계층적 지식 그래프 시스템이다. 이를 통해 우리는 넓은 도메인에서 세부 개념까지 인간이 학습하는 방식을 모방하는 트리 구조로 지식을 구성하고, 이 구조를 통해 추론할 수 있다.

2026년 1월 27일 오후 2시 24분

DeepEval, 사용자 지정 검색기 및 LLM을 활용한 자동화된 LLM 품질 보증을 위한 코딩 구현

이 튜토리얼은 DeepEval 프레임워크를 사용하여 LLM 애플리케이션에 단위 테스트 엄격성을 더하는 것에 초점을 맞춘 고성능 평가 환경을 구성함으로써 시작된다. 원시 검색과 최종 생성물 간의 간극을 메우면서 모델 출력을 테스트 가능한 코드로 취급하고 LLM-as-a-judge 메트릭을 사용하여 성능을 측정하는 시스템을 구현한다.

2026년 1월 25일 오후 3시 40분

Microsoft, VibeVoice-ASR 공개: 60분 긴 음성을 한 번에 처리하는 통합 음성-텍스트 모델

Microsoft이 VibeVoice-ASR을 발표했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 사용자 지정 핫워드를 지원한다.

2026년 1월 23일 오전 6시 11분

최신뉴스 전체보기

Microsoft, 효율적인 장기 문맥 추론을 위한 콤팩트 아키텍처를 갖춘 Phi-4-mini-Flash-Reasoning 출시

Microsoft의 Phi-4 모델 패밀리에 최신 추가인 Phi-4-mini-Flash-Reasoning은 장기 문맥 추론에 뛰어나면서 높은 추론 효율성을 유지하는 경량 언어 모델이다. 3.8B 파라미터 모델은 밀도 높은 추론 작업(수학 문제 해결, 다중 점프 질문 응답)에 적합하도록 Fine-tuned 되었다.

2025년 7월 10일 오후 11시 26분

AI에서의 컨텍스트 엔지니어링이란? 기술, 활용 사례 및 중요성

컨텍스트 엔지니어링은 대형 언어 모델(LLM)에 공급되는 컨텍스트를 설계, 조직화 및 조작하는 학문을 의미하며 모델 가중치나 아키텍처를 미세 조정하는 대신 입력에 초점을 맞춥니다. 이 기술은 프롬프트, 시스템 지침, 검색된 지식, 포맷팅 및 심지어 순서 등을 최적화하여 LLM의 성능을 향상시킵니다.

2025년 7월 6일 오전 3시 25분

Llama 3의 추론력을 포스트 트레이닝만으로 향상시킬 수 있을까? ASTRO는 +16% ~ +20% 벤치마크 향상을 보여줘

Meta AI와 Washington 대학의 연구진이 ASTRO(자동 회귀 검색 가르치는 추론기)를 소개했다. Llama-3.1-70B-Instruct에서 추론을 향상시키기 위한 포스트 트레이닝 프레임워크로, 모델에 컨텍스트 내 검색 수행을 가르치는 것이 특징이다.

2025년 7월 4일 오후 1시 19분

상하이 교통대학 연구원들, 강화 학습-확장 가능한 LLM 개발을 위한 OctoThinker 제안

연구원들이 OctoThinker를 제안하여 강화 학습을 통한 복잡한 추론 작업에 대한 LLM의 발전을 제안했다. CoT 프롬프팅과 대규모 강화 학습을 결합한 LLM은 Deepseek-R1-Zero와 같은 모델이 기본 모델에 직접 RL을 적용함으로써 강한 추론 능력을 보여주었다.

2025년 7월 2일 오후 9시 02분

DeepRare: 첫 번째 AI 기반 에이전틱 진단 시스템, 희귀병 관리에서 임상 의사 결정 변화

희귀병은 전 세계 4억 명을 영향을 미치며, 7,000가지 이상의 질병 중 80% 이상이 유전적 원인을 가지고 있다. 이러한 희귀병의 진단은 어려운데, DeepRare는 AI 기술을 활용하여 임상 의사 결정을 개선하고 환자의 진단 과정을 단축시키는 첫 번째 시스템이다.

2025년 6월 29일 오전 5시 43분

구글 딥마인드, 알파게놈 출시: DNA 단일 변이나 돌연변이의 영향을 더 포괄적으로 예측하는 딥러닝 모델

구글 딥마인드가 새로운 딥러닝 프레임워크인 알파게놈을 공개했다. 이 모델은 DNA 서열 변이의 조절적 결과를 넓은 생물학적 모달리티에 걸쳐 예측하는 것을 목표로 한다. 알파게놈은 1메가베이스까지의 긴 DNA 서열을 입력으로 받아 베이스 수준의 스플라이싱 이벤트와 같은 고해상도 예측을 출력한다.

2025년 6월 26일 오전 3시 39분

Apple의 AI 추론 비판은 너무 이르다

최근 대형 추론 모델(LRMs)의 추론 능력에 대한 논쟁은 Apple의 “사고의 환영”과 Anthropic의 “사고의 환영의 환영”이라는 두 논문으로 활발해졌다. Apple의 논문은 LRMs의 추론 능력에 근본적 한계를 주장하는 반면, Anthropic은 이러한 주장이 평가의 결함에서 비롯된 것이라고 주장한다.

2025년 6월 22일 오전 2시 11분

WINGS 소개: 멀티모달 대형 언어 모델에서 텍스트만 기반 잊힘 방지를 위한 듀얼-러너 아키텍처

멀티모달 대형 언어 모델은 이미지와 텍스트를 처리하여 상호작용적이고 직관적인 AI 시스템을 발전시키는데 기여한다. 이 논문에서는 WINGS 아키텍처를 소개하며, 텍스트만 기반으로 학습된 모델이 정보를 잊는 것을 방지하는 방법을 제시한다.

2025년 6월 21일 오후 5시 57분

Mistral AI, 기업 및 오픈 소스 애플리케이션용 고급 Chain-of-Thought LLMs인 Magistral 시리즈 출시

Mistral AI가 최신 시리즈인 Magistral을 소개했다. 이는 추론에 최적화된 대형 언어 모델(Large Language Models)로 LLM 능력 발전의 중요한 한 걸음이다. Magistral 시리즈에는 Apache 2.0 라이선스 하에 공개된 24B-파라미터의 Magistral Small과 기업용 Magistral Medium이 포함되어 있다.

2025년 6월 11일 오전 5시 25분

언어 모델은 정말로 얼마나 많은 정보를 기억할까? 메타의 새로운 프레임워크가 비트 레벨에서 모델 용량을 정의합니다

최신 언어 모델은 훈련 데이터를 의미있게 기억하는지에 대한 논란이 있습니다. 메타의 새로운 프레임워크는 모델의 용량을 비트 수준에서 정의하여 이 문제를 다루고 있습니다.

2025년 6월 11일 오전 1시 56분

강화 학습에서 검증 가능한 보상을 통해 고엔트로피 토큰 선택 (RLVR)이 LLM의 정확성 향상과 훈련 비용 절감에 도움이 됩니다

대형 언어 모델(LLMs)은 각 토큰이 일관된 논리적 설명에 기여하는 Chain-of-Thoughts(CoTs)을 생성한다. 이러한 추론의 품질을 향상시키기 위해 다양한 강화 학습 기술이 사용되고 있으며, 이를 통해 모델은 생성된 출력을 정확성 기준과 일치시키는 피드백 메커니즘으로 학습할 수 있다.

2025년 6월 8일 오후 9시 38분

구글 AI가 멀티 에이전트 시스템 검색 MASS를 소개: 더 나은 프롬프트와 토폴로지를 위한 새로운 AI 에이전트 최적화 프레임워크

멀티 에이전트 시스템은 여러 대형 언어 모델을 조정하여 복잡한 문제를 해결하는 데 중요해지고 있다. 단일 모델의 관점에 의존하는 대신, 이러한 시스템은 역할을 에이전트 사이에 분배하여 각각이 고유한 기능을 기여하게 한다. 이렇게 노동 분업이 시스템의 분석 및 응답 능력을 향상시킨다.

2025년 6월 7일 오후 7시 52분

클릭부터 추론까지: WebChoreArena 벤치마크, 메모리 집중과 멀티페이지 작업으로 에이전트 도전

웹 자동화 에이전트는 인공지능 분야에서 점점 더 주목받고 있는데, 이는 그들이 디지털 환경에서 인간과 유사한 작업을 수행할 수 있는 능력 때문이다. 이러한 에이전트들은 그래픽 사용자 인터페이스(GUI)를 통해 웹사이트와 상호작용하며, 클릭, 타이핑, 다중 웹 페이지 탐색 등과 같은 인간의 행동을 모방한다. WebChoreArena 벤치마크는 에이전트에게 메모리 집중적이고 멀티페이지 작업을 제공하여 도전한다.

2025년 6월 5일 오후 4시 10분

Salesforce AI, CRMArena-Pro 소개: LLM 에이전트를 위한 최초의 멀티턴 및 기업급 벤치마크

LLM으로 구동되는 AI 에이전트는 CRM과 같은 복잡한 비즈니스 업무를 처리하는 데 큰 잠재력을 보여준다. 그러나 실제 세계에서의 효과를 평가하는 것은 공개적이고 현실적인 비즈니스 데이터의 부족으로 어렵다. 기존의 벤치마크는 종종 간단한 일회성 상호작용이나 고객 서비스와 같은 좁은 응용에 초점을 맞추어 실제 업무를 놓치고 있다.

2025년 6월 5일 오후 3시 52분

ARM 및 Ada-GRPO를 소개하는 이 AI 논문: 효율적이고 확장 가능한 문제 해결을 위한 적응 추론 모델

이 논문은 인공지능의 추론 작업이 효율적이고 확장 가능한 문제 해결을 위한 ARM과 Ada-GRPO와 같은 적응 추론 모델을 소개합니다. 대형 언어 모델이 논리 추론의 다단계를 모방하려는 노력 중에 존재하는데, 이 논리 추론 작업은 상식 이해, 수학 문제 해결 및 상징적 추론과 같은 인공지능의 기본적인 측면을 포함합니다.

2025년 5월 31일 오전 4시 18분

Apple과 Duke 연구진, LLM이 중간 답변 제공 가능하도록 하는 강화 학습 접근 방식 소개, 속도와 정확도 향상

Apple과 Duke 연구진이 속도와 정확도를 향상시키기 위해 LLM이 중간 답변을 제공할 수 있는 강화 학습 접근 방식을 소개했다. 일반적인 “생각한 후에 대답” 방법은 응답 시간을 늦추고 챗봇과 같은 실시간 상호작용을 방해할 수 있으며, 이전 추론 단계의 오류가 최종 답변을 잘못 이끌 수 있는 위험을 안고 있다.

2025년 5월 29일 오후 11시 03분

AI 논문 소개: 40K 데이터셋과 10배 비용 효율성을 갖춘 웹 에이전트를 위한 프로세스 보상 모델 WEB-SHEPHERD

이 AI 논문은 웹 네비게이션 에이전트를 구축하는 복잡성과 사용자 목표 해석, 웹사이트 구조 이해, 다단계 결정 등의 작업을 필요로 하는 것에 초점을 맞추고 있다.

2025년 5월 28일 오후 10시 43분

대단한 순간을 넘어서: 대형 언어 모델에서 추론 구조화

대형 추론 모델인 OpenAI의 o1, o3, DeepSeek-R1, Grok 3.5, Gemini 2.5 Pro는 자체 수정, 되감기, 검증과 같은 고급 행동을 보여주며 “aha moments”로 알려진 강력한 능력을 나타냈다. 이러한 행동들은 지도된 미세 조정 없이 결과 중심 강화 학습을 통해 나타났다.

2025년 5월 22일 오후 2시 39분

Anthropic, 클로드 오퍼스 4 및 클로드 소넷 4 출시: 추론, 코딩 및 AI 에이전트 디자인에서의 기술적 도약

Anthropic이 새로운 언어 모델인 클로드 오퍼스 4와 클로드 소넷 4를 출시했다. 이 업데이트는 클로드 모델 패밀리의 기술적 세련성을 대폭 향상시켰는데, 특히 구조화된 추론, 소프트웨어 엔지니어링 및 자율 에이전트 행동과 관련된 영역에서 주목할만한 발전을 이루었다.

2025년 5월 22일 오후 2시 11분

Technology Innovation Institute TII, Falcon-H1: 확장 가능하고 다국어 및 장문맥 이해를 위한 하이브리드 트랜스포머-SSM 언어 모델 발표

언어 모델의 구조적 트레이드오프를 다루는 기술. 트랜스포머 아키텍처의 성능과 효율성을 균형 있게 유지하면서 장문맥 시나리오에서의 계산 복잡성을 줄이는 방법에 대한 논의.

2025년 5월 22일 오전 2시 49분

AI 논문이 소개하는 효과적인 상태 크기(ESS): 성능 최적화를 위한 시퀀스 모델의 메모리 활용 측정 지표

시퀀스 모델은 언어, 시계열, 신호와 같은 시간 구조 데이터를 처리하기 위해 설계되었으며, 내부적으로 시간 관계를 관리하여 일관된 출력을 생성함. 이 AI 논문은 시퀀스 모델의 메모리 활용을 측정하는 효과적인 상태 크기(ESS) 메트릭을 제시하며 성능 최적화에 도움을 줌.

2025년 5월 11일 오후 2시 29분

화웨이, Pangu Ultra MoE 소개: 시뮬레이션 주도 아키텍처 및 시스템 수준 최적화를 사용하여 Ascend NPUs에서 효율적으로 훈련된 718B-파라미터 희소 언어 모델

화웨이가 Pangu Ultra MoE를 소개했다. 이 모델은 Ascend NPUs에서 효율적으로 훈련되어 718B-파라미터의 희소 언어 모델로, 시뮬레이션 주도 아키텍처와 시스템 수준 최적화를 활용한다.

2025년 5월 10일 오후 8시 11분

GPU를 사용하지 않는 기업용 AI: Salesforce의 xGen-small은 맥락, 비용 및 개인정보 보호를 최적화합니다

기업 환경에서의 언어 처리는 점점 다양한 소스에서 정보를 종합해야 하는 문제에 직면하고 있습니다. 최근 대형 언어 모델의 발전은 놀라운 능력을 제공하지만, 매우 높은 비용, 하드웨어 업그레이드 요구와 같은 부작용도 동반됩니다.

2025년 5월 10일 오전 12시 34분

NVIDIA, 32B, 14B, 7B 크기의 오픈 코드 추론 모델 오픈 소스화

NVIDIA가 코드 추론과 문제 해결을 위해 고안된 고성능 대형 언어 모델 세트인 OCR 모델을 Apache 2.0 라이선스로 오픈 소스화했다. 32B, 14B, 7B 버전은 최고 성능을 자랑하며 OAI 모델을 능가하는 벤치마킹 결과를 보였다.

2025년 5월 8일 오전 3시 31분

구글, Gemini 2.5 Pro I/O 출시: 코딩에서 GPT-4 Turbo를 앞섬, 네이티브 비디오 이해 지원, 웹 개발 분야 주도

구글이 연례 I/O 개발자 컨퍼런스 직전에 플래그십 AI 모델인 Gemini 2.5 Pro (I/O 에디션)의 초기 미리보기를 공개했다. 이번 버전은 코딩 정확도, 웹 애플리케이션 생성, 비디오 이해 등에서 상당한 향상을 이루었으며, GPT-4 Turbo를 앞서는 성능을 보여주고 있다.

2025년 5월 7일 오후 6시 30분

웹씽커 소개: 대규모 추론 모델(LRMs)을 위한 자율 검색 및 보고서 생성을 돕는 심층 연구 에이전트

대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론에서 놀라운 능력을 보여주지만, 내부 지식에만 의존할 때 복잡한 정보 연구 요구를 해결하는 데 제약이 있습니다. WebThinker는 이러한 한계를 극복하고 다단계 추론 과정을 통해 정확한 과학 보고서를 생성하는데 도움을 줍니다.

2025년 5월 7일 오전 12시 21분

AI 에이전트가 기억을 저장, 잊고, 검색하는 방법? 다음 세대 LLM을 위한 메모리 작업에 대한 새로운 시선

LLM 기반 AI 시스템에서 기억은 지속적이고 일관된 상호작용을 지원하는데 중요한 역할을 한다. 이전 조사들은 LLM에 대한 기억을 탐구했지만, 메모리 기능을 지배하는 기본적인 작업에 대한 주의가 부족했다. 기억 저장, 검색, 생성과 같은 주요 구성 요소는 분리되어 연구되어 왔지만, 체계적으로 통합된 프레임워크가 필요하다.

2025년 5월 5일 오후 7시 26분

다중 모달 쿼리에는 다중 모달 RAG가 필요합니다: KAIST와 DeepAuto.ai 연구원들이 정확하고 효율적인 검색 증강 생성을 위해 모달과 세분성을 동적으로 경로 지정하는 UniversalRAG라는 새로운 프레임워크를 제안합니다

KAIST와 DeepAuto.ai 연구팀은 UniversalRAG라는 새로운 프레임워크를 소개했습니다. 이 프레임워크는 다양한 유형의 정보를 필요로 하는 실제 시나리오에서 쿼리의 정확성을 향상시키기 위해 모달과 세분성을 동적으로 경로 지정합니다.

2025년 5월 4일 오후 11시 33분

Meta와 부즈 앨런, 우주 산양 배치: 온보드 의사 결정을 위해 국제우주정거장으로 향하는 오픈소스 AI

Meta와 부즈 앨런이 Meta의 오픈소스 대형 언어 모델 ‘Llama 3.2’의 맞춤형 인스턴스인 Space Llama을 국제우주정거장(ISS) 미국 국립 연구소에 배치했다. 이는 우주에서 자율 AI 시스템을 가능하게 하는 중요한 한걸음이며, LLM의 실용적인 통합 사례 중 하나로 주목받고 있다.

2025년 5월 2일 오전 3시 00분

LLM 에이전트 훈련이 더 안정화: StarPO-S와 RAGEN 소개로 다중 턴 추론과 강화 학습 붕괴 대응하는 연구진

대형 언어 모델(Large language models, LLM)이 상호작용 환경에서 자율 에이전트로 훈련받을 때 중요한 도전에 직면하고 있다. 순차적 의사 결정, 교차 턴 메모리 유지, 환경적 피드백에 대한 적응 등이 필요한데, 이는 효과적인 계획 보조자, 로봇 응용 프로그램, 경험을 통해 자가 개선할 수 있는 지도 에이전트 개발에 중요하다. 이에 연구진은 StarPO-S와 RAGEN을 도입하여 이러한 도전을 대응하고 있다.

2025년 5월 2일 오전 2시 31분

Microsoft AI가 Phi-4-Reasoning을 공개: 복잡한 추론 작업에서 강력한 성능을 발휘하는 14B 파라미터 오픈웨이트 추론 모델

Microsoft이 공개한 Phi-4-Reasoning은 복잡한 추론 작업에 강력한 성능을 보이는 14B 파라미터 오픈웨이트 추론 모델이다. 대규모 언어 모델의 발전에도 불구하고, 수학 문제 해결, 알고리즘 계획, 코딩과 같은 추론 집중 작업에 대한 효율적인 성능은 여전히 모델 크기, 교육 방법론, 추론 시간 능력으로 제한되어 있다.

2025년 5월 1일 오전 2시 53분

LLM 에이전트의 장애 진단과 자가 수정: Atla의 EvalToolbox를 활용한 τ-Bench 결과에 대한 기술적 심층 탐구

대규모 언어 모델(LLM) 기반 에이전트를 운영 환경에 배치하면 종종 신뢰성 문제가 발생한다. 에이전트의 실패 원인을 정확히 식별하고 선행적인 자가 수정 메커니즘을 구현하는 것이 중요하다. Atla의 최근 분석에 따르면, τ-Bench 벤치마크에서 얻은 세부적인 인사이트는 에이전트의 실패에 대해 전통적인 집계 성공 지표를 넘어 Atla의 EvalToolbox 접근법을 강조한다.

2025년 4월 30일 오후 1시 02분

바이트댄스, LLM 사전 훈련에서 데이터 품질과 다양성을 위한 통합 AI 프레임워크 ‘QuaDMix’ 소개

대형 언어 모델의 사전 훈련 효율과 일반화는 기본 훈련 말뭉치의 품질과 다양성에 크게 영향을 받는다. 전통적인 데이터 정제 파이프라인은 종종 품질 필터링 다음에 도메인 균형을 적용하여 품질과 다양성을 분리된 목표로 취급한다. 이러한 순차적 최적화는 이러한 요소들 간의 복잡한 상호 의존성을 간과한다. 고품질 데이터셋은 종종…

2025년 4월 27일 오전 2시 16분

LLM이 대규모 사회 시뮬레이션 가능해졌다: Fudan 대학 연구진, 1000만 실제 사용자로 사회 시뮬레이션을 위한 LLM 에이전트 주도의 SocioVerse 세계 모델 소개

연구자들은 대규모 사회 시뮬레이션을 위한 SocioVerse를 소개하며, 전통적인 방법론의 한계로부터 대안적 접근법을 모색하고 있다. LLM은 1000만 실제 사용자를 기반으로 사회 시뮬레이션을 가능케 하며, 인간 행동 연구에 혁명을 일으킬 수 있다.

2025년 4월 26일 오후 1시 31분

« 이전 1 2