언어 모델 보관 - 미주투데이

UCSD와 Together AI, 파르카에(Parcae) 발표: 두 배 크기의 트랜스포머 품질을 달성하는 안정적인 루프 언어 모델 아키텍처

UCSD와 Together AI 연구팀이 파르카에(Parcae)라는 새로운 언어 모델 아키텍처를 소개했습니다. 이 모델은 기존 트랜스포머 모델의 두 배 크기와 같은 품질을 제공하면서도 효율성을 높였습니다.

2026년 4월 16일 오전 4시 30분

Liquid AI, 450M 매개변수 비전-언어 모델 LFM2.5-VL-450M 출시

Liquid AI가 새로운 비전-언어 모델 LFM2.5-VL-450M을 출시했다. 이 모델은 바운딩 박스 예측, 다국어 지원, 250ms 이하의 엣지 추론 기능을 갖추고 있다.

2026년 4월 11일 오후 10시 41분

구글 AI, Gemini Embedding 2 소개: 텍스트, 이미지, 비디오, 오디오, 문서를 포함한 다중 모달 임베딩 모델

구글이 Gemini Embedding 2를 발표했다. 이 모델은 텍스트 뿐만 아니라 이미지, 비디오, 오디오, 문서 등을 임베딩 공간으로 가져와 AI 개발자가 고차원 저장 및 교차 모달 검색 도전에 대처할 수 있도록 설계되었다.

2026년 3월 11일 오전 3시 18분

로봇을 위한 MEM 공개: 복잡한 작업을 위한 3-4B VLAs에 15분간의 컨텍스트를 제공하는 멀티 스케일 메모리 시스템

현재의 로봇 정책은 주로 한 번의 관찰 또는 매우 짧은 역사에 기반하며, 장기 과제에 부족함이 있습니다. 이를 해결하기 위해 Physical Intelligence, Stanford, UC Berkeley, MIT의 연구진이 개발한 멀티 스케일 메모리 시스템은 복잡한 작업에 필요한 15분간의 컨텍스트를 제공합니다.

2026년 3월 4일 오전 1시 01분

알리바바, 기기용 애플리케이션을 위해 구축된 0.8B ~ 9B 파라미터의 Qwen 3.5 Small 모델 발표

알리바바의 Qwen 팀이 0.8B ~ 9B 파라미터의 Qwen3.5 Small 모델 시리즈를 출시했다. 이 모델은 '더 많은 지능, 적은 연산'에 초점을 맞춰 산업 트렌드에서 벗어나 더 나은 AI 배포를 지향한다.

2026년 3월 2일 오후 9시 21분

FireRedTeam, 소프트웨어 개발자를 위한 FireRed-OCR-2B를 발표하며 LVLM의 구조적 환각 해결

FireRedTeam은 FireRed-OCR-2B를 발표했는데, 이 모델은 문서 구문 분석을 처리하기 위해 설계되었고, LVLM에서 발생하는 '구조적 환각'을 해결하는 데 사용된다.

2026년 3월 2일 오전 1시 38분

Sakana AI, Doc-to-LoRA 및 Text-to-LoRA 소개: 장문 맥락 즉시 내재화하고 LLM을 제로샷 자연어로 조정하는 하이퍼네트워크

일본의 Sakana AI가 비용 분할을 통해 제한을 우회하는 새로운 접근 방식을 제안했습니다. 최근 두 논문에서 Text-to-LoRA (T2L)과 같은 하이퍼네트워크를 소개하며, 대규모 언어 모델(LLM)의 사용을 개인화하는 과정에서 발생하는 공학적 트레이드오프를 극복했습니다.

2026년 2월 27일 오후 12시 53분

구글 AI, 고급 주제 일관성과 하위 초 4K 이미지 합성 성능을 갖춘 새 AI 모델 Nano-Banana 2 공개

구글이 Nano-Banana 2를 공개했다. 이 모델은 고급 주제 일관성과 초당 하위 4K 이미지 합성 성능을 특징으로 한다. 기술적으로는 Gemini 3.1 Flash Image로 지칭되며, 장치 내에서 완전히 유지되는 고품질 하위 초 이미지 합성을 지향한다.

2026년 2월 26일 오후 1시 04분

Meta AI, 고성능 AI 훈련과 하드웨어 신뢰성을 위해 GPU 클러스터 모니터링을 개선하기 위해 GCM 오픈 소스화

Meta AI 연구팀이 GCM을 오픈 소스로 공개하여, 고성능 AI 훈련 및 하드웨어 신뢰성을 보장하기 위해 GPU 클러스터 모니터링을 개선하고 있다. AI 모델이 조파라미터로 확장됨에 따라, 이를 훈련하는 데 필요한 클러스터는 행성상에서 가장 복잡하고 취약한 기계 중 하나로 변화하고 있다.

2026년 2월 24일 오후 7시 31분

구글 AI, 1백만 토큰 콘텍스트와 77.1% ARC-AGI-2 추론을 갖춘 Gemini 3.1 Pro 출시

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 '에이전틱' AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

2026년 2월 19일 오후 4시 06분

Anthropic, 복잡한 코딩 해결과 개발자 탐색을 위한 1백만 토큰 콘텍스트를 활용한 Claude 4.6 Sonnet 출시

Anthropic사는 Claude 4.6 Sonnet을 발표하여 개발자와 데이터 과학자가 복잡한 논리를 다루는 방식을 변화시키고, 내부 코드 실행을 통해 실시간으로 사실을 확인하는 기능을 갖춘 Improved Web Search를 함께 선보였다.

2026년 2월 17일 오후 4시 11분

OpenAI, GPT-5.3-Codex-Spark의 연구 미리보기 발표: Cerebras 하드웨어에서 초당 1000 토큰 이상 제공하는 15배 빠른 AI 코딩 모델

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

2026년 2월 12일 오후 6시 24분

바이트댄스, Protenix-v1 공개: 생체 분자 구조 예측에서 AF3 수준 성능 달성한 새 오픈 소스 모델

바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.

2026년 2월 8일 오후 1시 26분

구글 AI가 PaperBanana를 소개합니다: 게재 준비된 방법론 다이어그램과 통계 플롯을 자동화하는 에이전틱 프레임워크

구글과 북경대학이 공동으로 연구한 팀이 'PaperBanana'라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

2026년 2월 7일 오후 1시 45분

Mistral AI, Voxtral Transcribe 2 출시: 다국어 제작 워크로드를 위한 일괄 다이어리제이션 및 실시간 ASR 결합

Mistral AI가 새로운 Voxtral Transcribe 2 패밀리를 출시했다. 이 제품은 일괄 및 실시간 사용 사례로 깔끔하게 분리되는 2개 모델을 제공하며 비용, 지연 시간 및 배포 제약 조건을 고려하고 있다.

2026년 2월 5일 오전 2시 36분

알리바바, 에이전틱 워크로드를 동력으로 하는 네이티브 툴 사용을 강화하는 테스트 시간 스케일링 추론 모델 'Qwen3-Max-Thinking'을 선보여

알리바바의 Qwen3-Max-Thinking은 파라미터 규모를 확장하는 것뿐만 아니라, 추론 방식을 변화시키며 생각의 깊이에 대한 명시적 제어와 검색, 메모리, 코드 실행을 위한 내장 도구를 갖추고 있습니다. 이 모델은 36조 토큰에 사전 훈련된 1조 파라미터 MoE 플래그십 LLM으로, 데이터 및 배포 측면에서 Qwen3-Max-Thinking은 […]

2026년 1월 28일 오후 9시 15분

Moonshot AI, Kimi K2.5 공개: 네이티브 스왐 실행 기능을 갖춘 오픈 소스 비주얼 에이전트 인텔리전스 모델

Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.

2026년 1월 27일 오후 6시 55분

Tree-KG가 전통적인 RAG를 넘어서는 계층적 지식 그래프를 가능하게 하는 방법

Tree-KG는 의미 임베딩과 명시적 그래프 구조를 결합하여 전통적 검색 보강 생성을 넘어선 고급 계층적 지식 그래프 시스템이다. 이를 통해 우리는 넓은 도메인에서 세부 개념까지 인간이 학습하는 방식을 모방하는 트리 구조로 지식을 구성하고, 이 구조를 통해 추론할 수 있다.

2026년 1월 27일 오후 2시 24분

DeepEval, 사용자 지정 검색기 및 LLM을 활용한 자동화된 LLM 품질 보증을 위한 코딩 구현

이 튜토리얼은 DeepEval 프레임워크를 사용하여 LLM 애플리케이션에 단위 테스트 엄격성을 더하는 것에 초점을 맞춘 고성능 평가 환경을 구성함으로써 시작된다. 원시 검색과 최종 생성물 간의 간극을 메우면서 모델 출력을 테스트 가능한 코드로 취급하고 LLM-as-a-judge 메트릭을 사용하여 성능을 측정하는 시스템을 구현한다.

2026년 1월 25일 오후 3시 40분

Microsoft, VibeVoice-ASR 공개: 60분 긴 음성을 한 번에 처리하는 통합 음성-텍스트 모델

Microsoft이 VibeVoice-ASR을 발표했다. VibeVoice-ASR은 60분 긴 음성을 한 번에 처리하고 누가, 언제, 무엇을 하는지를 인코딩하는 구조화된 전사를 출력하는 통합 음성-텍스트 모델이다. 사용자 지정 핫워드를 지원한다.

2026년 1월 23일 오전 6시 11분

최신뉴스 전체보기

UCSD와 Together AI, 파르카에(Parcae) 발표: 두 배 크기의 트랜스포머 품질을 달성하는 안정적인 루프 언어 모델 아키텍처

2026년 4월 16일 오전 4시 30분

Liquid AI, 450M 매개변수 비전-언어 모델 LFM2.5-VL-450M 출시

Liquid AI가 새로운 비전-언어 모델 LFM2.5-VL-450M을 출시했다. 이 모델은 바운딩 박스 예측, 다국어 지원, 250ms 이하의 엣지 추론 기능을 갖추고 있다.

2026년 4월 11일 오후 10시 41분

구글 AI, Gemini Embedding 2 소개: 텍스트, 이미지, 비디오, 오디오, 문서를 포함한 다중 모달 임베딩 모델

2026년 3월 11일 오전 3시 18분

로봇을 위한 MEM 공개: 복잡한 작업을 위한 3-4B VLAs에 15분간의 컨텍스트를 제공하는 멀티 스케일 메모리 시스템

2026년 3월 4일 오전 1시 01분

알리바바, 기기용 애플리케이션을 위해 구축된 0.8B ~ 9B 파라미터의 Qwen 3.5 Small 모델 발표

알리바바의 Qwen 팀이 0.8B ~ 9B 파라미터의 Qwen3.5 Small 모델 시리즈를 출시했다. 이 모델은 ‘더 많은 지능, 적은 연산’에 초점을 맞춰 산업 트렌드에서 벗어나 더 나은 AI 배포를 지향한다.

2026년 3월 2일 오후 9시 21분

FireRedTeam, 소프트웨어 개발자를 위한 FireRed-OCR-2B를 발표하며 LVLM의 구조적 환각 해결

FireRedTeam은 FireRed-OCR-2B를 발표했는데, 이 모델은 문서 구문 분석을 처리하기 위해 설계되었고, LVLM에서 발생하는 ‘구조적 환각’을 해결하는 데 사용된다.

2026년 3월 2일 오전 1시 38분

Sakana AI, Doc-to-LoRA 및 Text-to-LoRA 소개: 장문 맥락 즉시 내재화하고 LLM을 제로샷 자연어로 조정하는 하이퍼네트워크

2026년 2월 27일 오후 12시 53분

구글 AI, 고급 주제 일관성과 하위 초 4K 이미지 합성 성능을 갖춘 새 AI 모델 Nano-Banana 2 공개

2026년 2월 26일 오후 1시 04분

Meta AI, 고성능 AI 훈련과 하드웨어 신뢰성을 위해 GPU 클러스터 모니터링을 개선하기 위해 GCM 오픈 소스화

2026년 2월 24일 오후 7시 31분

구글 AI, 1백만 토큰 콘텍스트와 77.1% ARC-AGI-2 추론을 갖춘 Gemini 3.1 Pro 출시

구글은 Gemini 3.1 Pro를 공식 출시했는데, 이는 ‘에이전틱’ AI 시장을 겨냥한 것으로, 추론 안정성, 소프트웨어 엔지니어링, 도구 신뢰성에 초점을 맞춰 개발자들을 위한 업데이트다.

2026년 2월 19일 오후 4시 06분

Anthropic, 복잡한 코딩 해결과 개발자 탐색을 위한 1백만 토큰 콘텍스트를 활용한 Claude 4.6 Sonnet 출시

2026년 2월 17일 오후 4시 11분

OpenAI, GPT-5.3-Codex-Spark의 연구 미리보기 발표: Cerebras 하드웨어에서 초당 1000 토큰 이상 제공하는 15배 빠른 AI 코딩 모델

2026년 2월 12일 오후 6시 24분

바이트댄스, Protenix-v1 공개: 생체 분자 구조 예측에서 AF3 수준 성능 달성한 새 오픈 소스 모델

바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.

2026년 2월 8일 오후 1시 26분

구글 AI가 PaperBanana를 소개합니다: 게재 준비된 방법론 다이어그램과 통계 플롯을 자동화하는 에이전틱 프레임워크

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

2026년 2월 7일 오후 1시 45분

Mistral AI, Voxtral Transcribe 2 출시: 다국어 제작 워크로드를 위한 일괄 다이어리제이션 및 실시간 ASR 결합

2026년 2월 5일 오전 2시 36분

알리바바, 에이전틱 워크로드를 동력으로 하는 네이티브 툴 사용을 강화하는 테스트 시간 스케일링 추론 모델 ‘Qwen3-Max-Thinking’을 선보여

2026년 1월 28일 오후 9시 15분

Moonshot AI, Kimi K2.5 공개: 네이티브 스왐 실행 기능을 갖춘 오픈 소스 비주얼 에이전트 인텔리전스 모델

2026년 1월 27일 오후 6시 55분

Tree-KG가 전통적인 RAG를 넘어서는 계층적 지식 그래프를 가능하게 하는 방법

2026년 1월 27일 오후 2시 24분

DeepEval, 사용자 지정 검색기 및 LLM을 활용한 자동화된 LLM 품질 보증을 위한 코딩 구현

2026년 1월 25일 오후 3시 40분

Microsoft, VibeVoice-ASR 공개: 60분 긴 음성을 한 번에 처리하는 통합 음성-텍스트 모델

2026년 1월 23일 오전 6시 11분

Nous Research, NousCoder-14B 발표: Qwen3-14B로 강화학습 후 훈련받은 경쟁 프로그래밍 모델

Nous Research는 NousCoder-14B를 소개했는데, 이는 Qwen3-14B에서 강화학습을 통해 후훈련된 경쟁 프로그래밍 모델이다. LiveCodeBench v6 벤치마크에서 Pass@1 정확도가 67.87%로, Qwen3-14B의 7.08% 높았다.

2026년 1월 19일 오후 2시 30분

LLM 에이전트를 위한 이 에이전틱 메모리 연구가 장기 및 단기 기억을 통합하는 방법

이 연구는 LLM 에이전트를 위해 장기 기억에 저장할 내용, 단기 기억에 유지할 내용, 버릴 내용을 스스로 결정하는 방법을 설계하는 방법에 대해 다루고 있습니다. 이 연구에서는 텍스트 생성과 동일한 액션 공간을 통해 두 유형의 기억을 관리하는 단일 정책을 학습할 수 있는지에 대해 탐구하고 있습니다.

2026년 1월 13일 오전 2시 05분

LLM-Pruning Collection: 구조화 및 비구조화 LLM 압축을 위한 JAX 기반 레포

Zlab Princeton 연구진이 대형 언어 모델을 위한 주요 가지치기 알고리즘을 하나로 통합한 LLM-Pruning Collection을 발표했다. 이 프레임워크는 블록 수준, 레이어 수준 및 가중치 수준 가지치기 방법을 일관된 훈련 및 평가 스택에서 GPU 및 CPU에서 비교하기 쉽게 만든다.

2026년 1월 5일 오후 4시 21분

알리바바 통이 연구소, 안드로이드월드에서 Gemini 2.5 Pro, Seed1.8 및 UI-Tars-2를 능가하는 MAI-UI 발표

알리바바 통이 연구소는 MAI-UI를 발표했다. MCP 도구 사용, 에이전트 사용자 상호작용, 장치-클라우드 협업, 온라인 강화학습을 기반으로 한 MAI-UI는 일반 GUI 기반 및 모바일 GUI 탐색에서 최첨단 결과를 달성했다. Gemini-2.5-Pro, Seed1.8 및 UI-Tars-2를 능가하며 초기 GUI 에이전트가 종종 무시하는 세 가지 특정 간극을 대상으로 한다.

2025년 12월 31일 오전 3시 48분

스탠포드와 하버드의 이 AI 논문은 왜 대부분의 ‘의지 있는 AI’ 시스템이 데모에서 인상적으로 느껴지다가 실제 사용에서 완전히 실패하는지 설명합니다

스탠포드, 하버드, UC의 최신 연구 논문인 ‘의지 있는 AI의 적응’에서는 대부분의 ‘의지 있는 AI’ 시스템이 신뢰할 수 없는 도구 사용, 약한 장기 계획, 부족한 일반화 등에 여전히 어려움을 겪고 있다고 설명하고 있다.

2025년 12월 25일 오전 5시 57분

Meta AI, 오픈소스로 공개된 Perception Encoder Audiovisual (PE-AV): SAM Audio 및 대규모 다중 모달 검색을 동력으로 하는 오디오비주얼 인코더

Meta 연구진은 PEAV(Perception Encoder Audiovisual)를 소개했는데, 이는 오디오와 비디오의 통합 이해를 위한 새로운 인코더 패밀리로, 약 100M개의 오디오 비디오 쌍과 텍스트 캡션을 대규모 대조적 학습을 통해 단일 임베딩 공간에서 정렬된 오디오, 비디오 및 텍스트 표현을 학습한다.

2025년 12월 23일 오전 5시 32분

Anthropic AI, 개방형 소스 에이전틱 프레임워크 ‘Bloom’ 공개

Anthropic이 새로운 오픈 소스 에이전틱 프레임워크 ‘Bloom’을 출시했다. 이 프레임워크는 전방위 인공지능 모델의 자동 행동 평가를 위한 것으로, 연구자가 지정한 행동을 측정하여 현실적인 시나리오에서 얼마나 자주 강도 있게 나타나는지 측정한다. ‘Bloom’의 등장은 안전 및 정렬을 위한 행동 평가가 설계 및 유지에 비용이 많이 드는 문제를 해결한다.

2025년 12월 21일 오후 9시 55분

Mistral AI, 구조화된 문서 AI를 위한 작은 OCR 모델 OCR 3 출시

Mistral AI가 최신 OCR 서비스인 Mistral OCR 3를 출시했다. 이 모델은 PDF 및 기타 문서에서 교차된 텍스트와 이미지를 추출하고 구조를 보존하는 데 사용되며, 1,000 페이지 당 $2의 저렴한 가격에 이를 수행한다.

2025년 12월 20일 오전 4시 26분

OpenAI가 ‘circuit-sparsity’를 발표: Activation Bridges를 통해 Weight Sparse 모델과 밀집 베이스라인을 연결하는 오픈 도구 세트

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. ‘Weight-sparse transformers have interpretable circuits’ 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.

2025년 12월 14일 오후 12시 01분

Nanbeige4-3B-Thinking: 23T 토큰 파이프라인이 3B 모델을 30B 클래스 추론으로 끌어올리는 방법

Boss Zhipin의 Nanbeige LLM Lab이 발표한 Nanbeige4-3B는 데이터 품질, 커리큘럼 스케줄링, 디스틸레이션, 강화 학습에 중점을 둔 3B 파라미터 작은 언어 모델 패밀리로, 30B 클래스 추론을 제공하는 훈련 레시피를 수정함으로써 가능한가에 대한 연구 결과를 소개한다.

2025년 12월 13일 오후 3시 00분

Zhipu AI, 네이티브 도구 호출이 가능한 128K 콘텍스트 비전 언어 모델인 GLM-4.6V 공개

Zhipu AI가 GLM-4.6V 시리즈를 공개했다. 이미지, 비디오, 도구를 주요 입력으로 취급하는 비전 언어 모델로, 텍스트 위에 올려진 후속 조치가 아닌 에이전트를 위한 것이다.

2025년 12월 9일 오후 5시 13분

Jina AI, 2.4B 다국어 비전 언어 모델 ‘Jina-VLM’ 출시

Jina AI가 2.4B 파라미터의 비전 언어 모델인 Jina-VLM을 출시했다. 이 모델은 다국어 비주얼 질의응답 및 제한된 하드웨어에서 문서 이해를 목표로 한다. SigLIP2 비전 인코더와 Qwen3 언어 백본을 결합하며, 시각 토큰을 줄이고 공간 구조를 보존하는 주의 집중 풀링 커넥터를 사용한다.

2025년 12월 9일 오전 6시 14분

StepFun AI, 새 오디오 LLM Step-Audio-R1 발표: 테스트 시간 컴퓨팅 스케일링에서 이점

StepFun 연구팀이 새 오디오 LLM Step-Audio-R1을 발표했다. 이 모델은 테스트 시간 컴퓨팅 스케일링을 위해 설계되어, 오디오에 대한 실제 소리 기반의 의사 결정에서 장시간 추론을 생성할 때 성능이 저하되는 문제를 해결한다.

2025년 11월 30일 오전 7시 03분

Tinygrad를 사용하여 딥러닝 내부를 이해하기 위해 Transformer 및 Mini-GPT 모델의 기능 구성 요소를 처음부터 구현하는 방법

Tinygrad를 사용하여 텐서, 오토그래드, 어텐션 메커니즘 및 트랜스포머 구조를 완전히 손으로 만들어보는 튜토리얼. 기본 텐서 작업부터 멀티헤드 어텐션, 트랜스포머 블록, 미니-GPT 모델까지 순차적으로 구축하면서 Tinygrad의 간결함을 관찰한다.

2025년 11월 26일 오후 4시 04분

NVIDIA AI, Nemotron-Elastic-12B 발표: 추가 훈련 비용 없이 6B/9B/12B 변형 제공하는 단일 AI 모델

NVIDIA는 하나의 탄력 있는 모델로 여러 크기의 모델을 생성할 수 있게 하여 AI 개발팀이 여러 대규모 언어 모델을 훈련하고 저장할 필요성을 없앴다. NVIDIA AI팀은 Nemotron-Elastic-12B를 발표했는데, 이는 12B 파라미터 추론 모델로, 추가 훈련 비용 없이 6B, 9B, 12B 변형을 제공한다.

2025년 11월 24일 오후 3시 54분

Opik를 사용한 투명하고 측정 가능하며 재현 가능한 AI 워크플로우를 위한 완전 추적 및 평가된 로컬 LLM 파이프라인 구현

Opik를 사용하여 LLM 파이프라인을 구축, 추적 및 평가하는 완전한 워크플로우를 구현하는 튜토리얼. 경량 모델로 시작하여 프롬프트 기반 계획 추가, 데이터셋 생성 및 자동화된 평가 실행까지 구조화된 시스템을 단계별로 진행하며 Opik가 각 함수 스팬을 추적하는 방법을 확인합니다.

2025년 11월 21일 오후 5시 47분

vLLM 대 TensorRT-LLM 대 HF TGI 대 LMDeploy, 프로덕션 LLM 추론을 위한 심층 기술 비교

이 비교는 vLLM, TensorRT-LLM, HF TGI, LMDeploy의 4가지 스택에 초점을 맞춰 실제 작업 부하에서 추론 스택의 선택이 GPU 플릿의 토큰 당 초, 테일 레이턴시 및 궁극적으로 백만 토큰 당 비용을 결정한다.

2025년 11월 20일 오후 4시 21분

xAI의 Grok 4.1, 감정 지능 향상, 환각 감소 및 안전 제어 강화를 추진

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.

2025년 11월 19일 오전 8시 21분

구글의 Gemini 3 Pro가 희소 MoE와 1백만 토큰 콘텍스트를 다중 모달 에이전트 워크로드를 위한 실용 엔진으로 변환

구글은 Gemini 3 Pro를 중심으로 하는 Gemini 3 패밀리를 발표했는데, 이는 백만 토큰 콘텍스트를 다루며 현실 신호를 이해하고 신뢰성 있게 대리자로서 행동할 수 있는 시스템으로 발전하는 과정에서 중요한 한걸음을 나아가고 있다.

2025년 11월 19일 오전 4시 12분

Cerebras, 롱 컨텍스트 코딩 에이전트를 위한 MiniMax-M2-REAP-162B-A10B 출시

Cerebras가 MiniMax-M2-REAP-162B-A10B를 발표했다. 이 모델은 MiniMax-M2에서 파생된 압축된 희소 Mixture-of-Experts (SMoE) 인과 언어 모델로, Router 가중 전문가 활성화 가지치기(REAP) 방법을 사용하여 전문가를 가지치기하고 코딩 에이전트 및 도구와 같은 배포 중심 워크로드의 메모리를 줄였다.

2025년 11월 15일 오후 9시 53분

2025년 최고의 OCR (Optical Character Recognition) 모델/시스템 비교

2025년 현대 시스템은 스캔 및 디지털 PDF를 한 번에 읽고 레이아웃을 보존하며 표를 감지하고 키-값 쌍을 추출하고 여러 언어를 처리해야 합니다. 많은 팀들은 이제 OCR이 RAG 및 에이전트 파이프라인에 직접 공급되는 것을 원합니다.

2025년 11월 2일 오전 3시 49분

구글 AI, 지도 강화 학습 (SRL) 공개: 전문가 궤적을 통해 작은 언어 모델에 어려운 문제 해결 능력 가르치기

구글 클라우드 AI 연구팀과 UCLA 연구원들이 ‘지도 강화 학습’ (SRL) 프레임워크를 발표했습니다. 이를 통해 7B 규모의 모델이 어려운 수학 및 에이전트 작업에서 학습할 수 있게 되었습니다.

2025년 10월 31일 오후 10시 58분

IBM AI 팀이 출시한 Granite 4.0 Nano 시리즈: 엣지 AI용 소형 오픈소스 모델

IBM AI 팀이 Granite 4.0 Nano를 출시했다. 이 모델은 로컬 및 엣지 추론을 대상으로 하는 소형 모델로, 기업 제어 및 오픈 라이선스를 갖추고 있으며, 350M과 1B 정도의 두 가지 크기의 8개 모델로 구성되어 있다.

2025년 10월 30일 오전 12시 10분

Microsoft, 새 AI 프레임워크 ‘에이전트 라이트닝’ 출시

Microsoft AI 팀이 출시한 ‘에이전트 라이트닝’은 기존 AI 에이전트 스택을 변경하지 않고도 강화 학습을 통해 정책 LLM을 개선하는 데 도와주는 오픈소스 프레임워크이다. 훈련과 실행을 분리하여 강화 학습을 모든 AI 에이전트에 대해 가능케 한다.

2025년 10월 29일 오후 5시 39분

5가지 일반 LLM 매개변수 예시로 설명

대형 언어 모델(Large Language Models, LLMs)은 여러 매개변수를 제공하여 행동을 세밀하게 조정하고 응답 생성 방식을 제어할 수 있습니다. 이 튜토리얼에서는 max_completion_tokens, temperature, top_p, presence_penalty 등 일반적으로 사용되는 몇 가지 매개변수를 살펴봅니다.

2025년 10월 26일 오후 5시 16분

Anthrogen이 올리는 Odyssey: Attention을 Consensus로 대체하고 이산 확산으로 훈련하는 102B 파라미터 단백질 언어 모델

Anthrogen은 Odyssey를 소개했는데, 이는 시퀀스 및 구조 생성, 단백질 편집, 조건부 설계를 위한 단백질 언어 모델로 1.2B에서 102B 파라미터의 범위를 갖추고 있다. 이 모델을 실제 단백질 설계 작업을 위한 전방향, 멀티모달 모델로 소개하며 API가 조기 액세스 중이라고 밝혔다.

2025년 10월 23일 오전 2시 53분

구글 AI가 소개하는 VISTA: 텍스트에서 비디오로의 생성을 위한 테스트 시간 자가 개선 에이전트

VISTA는 추론 중에 텍스트에서 비디오 생성을 개선하는 다중 에이전트 프레임워크로, 구조화된 프롬프트를 장면으로 계획하고 최고의 후보를 선택하기 위해 페어와이즈 토너먼트를 실행하며 시각, 음향, 문맥에 걸쳐 특화된 심사위원을 활용하고 깊은 사고 프롬프팅 에이전트로 프롬프트를 다시 작성합니다.

2025년 10월 22일 오후 2시 55분

Meta AI의 ‘Early Experience’는 보상 없이 언어 에이전트를 훈련하고 모방 학습을 능가합니다

Meta Superintelligence Labs가 제안한 ‘Early Experience’는 보상 없이 에이전트를 훈련하는 새로운 방법으로, 언어 에이전트의 정책 학습을 개선하며 모방 학습을 능가하는 것으로 나타났습니다.

2025년 10월 15일 오전 5시 32분

NVIDIA 연구진, 강화 학습 사전 학습(RLP) 제안: 사전 학습 중 추론 구축을 위한 사전 학습 목적으로 강화 학습 제안

NVIDIA AI가 강화 학습 사전 학습(RLP)을 소개했습니다. 이는 후속 학습이 아닌 사전 학습 단계에서 강화 학습을 적용하는 교육 목표입니다. 강화 학습을 다음 토큰 예측 전에 샘플링된 작업으로 취급하고 정보 획득에 대한 보상으로 보상합니다.

2025년 10월 14일 오전 5시 55분

마이크로소프트 리서치, Skala 발표: 반 하이브리드 수준 정확도를 목표로 한 딥러닝 교환-상관 기능

Skala는 Kohn-Sham 밀도 기능 이론(DFT)을 위한 딥러닝 교환-상관 기능으로, 반 하이브리드 수준 정확도를 반 공간 비용에서 달성한다. W4-17에서 MAE는 약 1.06 kcal/mol(단일 참조 하위집합에서 0.85), WTMAD-2는 약 3.89 kcal/mol이다. 주요 분자화학에 적합하며 D3(BJ) 분산 보정을 사용한다.

2025년 10월 10일 오전 12시 51분

Zhipu AI, GLM-4.6 출시: 현실 세계 코딩, 장기 맥락 처리, 추론, 탐색 및 에이전틱 AI 향상

Zhipu AI가 GLM-4.6을 출시했다. 이 모델은 에이전틱 워크플로, 장기 맥락 추론, 실용적 코딩 작업에 초점을 맞추고 있으며, 입력 창을 20만 토큰으로 확장하고 12만 8천 토큰의 최대 출력을 제공한다. 이번 업데이트는 실용적 작업에서 효율적인 토큰 사용을 목표로 하며 로컬 배포를 위한 오픈 가중치도 함께 제공된다.

2025년 9월 30일 오후 7시 17분

Gemini Robotics 1.5: DeepMind의 ER↔VLA 스택이 현실 세계로 새로운 로봇을 선사합니다

구글 DeepMind의 Gemini Robotics 1.5는 하이-레벨 신체적 추론과 로우-레벨 시각 운동을 위한 두 가지 모델로 분리하여, 연구자처럼 계획하고 장면을 이해하며 로봇 간 동작을 전달할 수 있다고 말합니다.

2025년 9월 28일 오전 4시 29분

Qwen3Guard 소개: 글로벌 실시간 AI 안전을 위해 구축된 Qwen3 기반의 다국어 안전 가드레일 모델

알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.

2025년 9월 27일 오전 1시 04분

Sakana AI가 발표한 ShinkaEvolve: 과학적 발견을 위해 프로그램을 발전시키는 무첨단 샘플 효율성을 가진 오픈소스 프레임워크

Sakana AI가 과학 및 공학 문제를 위해 프로그램을 진화시키기 위해 대형 언어 모델(LLMs)을 사용하는 오픈 소스 프레임워크인 ShinkaEvolve를 공개했다. 평균적인 해를 얻기 위해 필요한 평가 횟수를 현저히 줄이면서 새로운 SOTA를 보고했다.

2025년 9월 26일 오전 5시 15분

알리바바의 Qwen3-Max: 생산 준비 완료된 생각 모드, 1조+ 매개변수, 그리고 첫날 코딩/에이전틱 벤치 신호

알리바바가 Qwen3-Max를 발표했는데, 이는 조합 전문가(MoE) 모델로, Qwen Chat 및 알리바바 클라우드의 Model Studio API를 통해 즉시 공개되었다. Qwen의 2025년 출시 일정을 미리보기에서 생산까지 이동시키며, Qwen3-Max-Instruct와 Qwen3-Max-Thinking 두 가지 변형에 초점을 맞추고 있다.

2025년 9월 24일 오전 11시 20분

알리바바 큐윈 팀, 상용 GPU로 80B/3B-액티브 하이브리드-MoE를 가져오는 Qwen3-Next-80B-A3B의 FP8 빌드를 공개

알리바바의 큐윈 팀이 새로운 Qwen3-Next-80B-A3B 모델을 위한 FP8-양자화된 체크포인트를 공개했으며, Instruct 및 Thinking 두 가지 후 학습 변형으로 고성능 추론을 위해 설계되었습니다. 이 FP8 레포지토리는 BF16 릴리스를 반영하지만 “미세한 FP8” 가중치와 sglang 및 vLLM 신변 배포 노트가 포장되어 있습니다.

2025년 9월 22일 오전 6시 04분

LLM-as-a-Judge: 신호가 끊기는 곳, 언제 유지되고, “평가”는 무엇을 의미해야 하는가?

LLM 판사가 1-5 (또는 pairwise) 점수를 할당할 때 정확히 무엇이 측정되는가? 대부분의 “정확성/신뢰성/완전성” 평가 기준은 프로젝트별로 다르며, 작업 기반 정의 없이 스칼라 점수는 업무 결과에서 벗어날 수 있다. LLM-as-a-judge (LAJ) 조사에서는 평가 기준의 모호함과 프롬프트 템플릿 선택이 점수와 사람에게 영향을 준다는 것을 언급하고 있다.

2025년 9월 20일 오후 8시 16분

Qwen3-ASR-Toolkit: Qwen-ASR API 3분/10MB 제한 초과를 위한 고급 오픈 소스 파이썬 명령줄 툴킷

Qwen이 Qwen3-ASR-Toolkit을 출시했습니다. 이는 Qwen3-ASR-Flash API의 3분/10MB 제한을 우회하기 위해 VAD 인식 청킹, 병렬 API 호출, FFmpeg를 통한 자동 재샘플링/포맷 정규화를 수행하여 안정적이고 시간 기준의 전사 파이프라인을 제공합니다. Python ≥3.8이 필요하며, 설치 방법은 공식 사이트에서 확인할 수 있습니다.

2025년 9월 19일 오전 3시 55분

알리바바, 통이 딥리서치 공개: 장기연구용 최적화된 30B 파라미터 오픈소스 에이전틱 LLM

알리바바의 통이 랩이 통이-딥리서치-30B-A3B를 오픈소스로 공개했다. 이 모델은 웹 도구를 활용한 장기, 심층 정보탐색을 위해 구축된 에이전트 특화 대형 언어 모델로, 약 30.5B의 총 파라미터와 토큰당 약 3-3.3B의 활성 파라미터를 사용하여 강력한 추론 성능을 유지하면서 고 처리량을 가능케 한다. ReAct 스타일 하의 멀티턴 연구 워크플로우를 대상으로 한다.

2025년 9월 18일 오전 3시 31분

IBM AI, 그래나이트 독링 258M 공개: 기업용 오픈소스 문서 AI 모델

IBM이 그래나이트 독링 258M을 공개했다. 이는 엔드 투 엔드 문서 변환을 위해 설계된 오픈소스 비전-언어 모델로, 레이아웃-정확한 추출을 목표로 함. 테이블, 코드, 수식, 목록, 캡션 및 읽기 순서를 처리하여 손실이 적은 Markdown이 아닌 구조화된 기계 판독 가능한 표현을 출력함.

2025년 9월 17일 오후 8시 35분

AI2 연구진, 다양한 차원에서 평가를 향상시키는 ‘유동 벤치마킹’을 도입해 벤치마킹 게임을 바꾸고 있음

AI2, 워싱턴대학 및 CMU의 연구진이 유동 벤치마킹을 소개하며, 정적 정확도를 2개 매개변수 IRT 능력 추정 및 Fisher 정보 기반 항목 선택으로 대체하는 적응형 LLM 평가 방법을 도입했다. 모델의 현재 능력에 대해 가장 정보가 풍부한 질문만 하므로 더 부드러운 훈련 곡선을 제공하고 벤치마킹을 지연시킵니다.

2025년 9월 17일 오전 4시 43분

UT Austin과 ServiceNow 연구팀, AU-Harness 발표: 오디오 LLMs의 종합평가를 위한 오픈소스 툴킷

음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.

2025년 9월 14일 오전 3시 11분

파이썬을 사용하여 EasyOCR과 OpenCV로 다국어 OCR AI 에이전트 구축하는 방법

본 튜토리얼에서는 EasyOCR, OpenCV, Pillow을 사용하여 Google Colab에서 고급 OCR AI 에이전트를 구축한다. GPU 가속을 사용하여 완전 오프라인으로 실행되며, 이미지 전처리 파이프라인을 포함하여 인식 정확도를 향상시킨다. OCR 이외에도 결과를 신뢰도에 따라 필터링하고 텍스트 통계를 생성한다.

2025년 9월 12일 오후 2시 06분

mmBERT 만나보기: 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용하는 인코더 전용 언어 모델, 이전 모델보다 2-4배 빠름

새로운 다국어 인코더가 필요한 이유와 XLM-RoBERTa가 지배한 다국어 NLP 분야에서 새로운 mmBERT 모델의 소개. 인코더만으로 구성된 mmBERT 모델은 이전 모델보다 2-4배 빠르고 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용한다.

2025년 9월 11일 오전 2시 45분

바이두, ERNIE-4.5-21B-A3B-Thinking 발표: 딥 논리를 위한 소형 MoE 모델

바이두 AI 연구팀이 효율성, 장기적 논리 추론, 도구 통합을 중심으로 설계된 새로운 ERNIE-4.5-21B-A3B-Thinking을 발표했다. 이 모델은 21B 총 매개변수를 가지고 있지만 토큰 당 활성 매개변수는 3B뿐으로, 계산 효율성을 유지하면서 경쟁력 있는 논리 능력을 갖추고 있다.

2025년 9월 10일 오전 3시 43분

알리바바 Qwen 팀, Qwen3-ASR 출시: Qwen3-Omni를 기반으로 한 새로운 음성 인식 모델 출시로 견고한 음성 인식 성능 달성

알리바바 클라우드의 Qwen 팀이 Qwen3-ASR Flash를 공개했다. 이는 Qwen3-Omni의 강력한 지능을 기반으로 한 올인원 자동 음성 인식(ASR) 모델로, 여러 시스템을 번갈아가며 사용하지 않고 다국어, 소음, 도메인별 전사를 간단하게 처리한다. 주요 기능은 edtech 플랫폼(강의 캡처, 다국어 지도), 미디어(자막, 성우), 고객 서비스(다국어 IVR) 등이다.

2025년 9월 9일 오전 5시 15분

메타 초지능 연구소, REFRAG 소개: 16배 더 긴 컨텍스트와 31배 더 빠른 디코딩으로 RAG 확장

메타 초지능 연구소, 싱가포르 국립대학교 및 라이스 대학의 연구진이 REFRAG (REpresentation For RAG)를 발표했다. 이는 RAG 효율성을 재고하는 디코딩 프레임워크로, LLM 컨텍스트 창을 16배로 확장하고 정확도를 저해하지 않으면서 첫 번째 토큰까지의 시간을 최대 30.85배 가속화시킨다.

2025년 9월 7일 오후 4시 49분

Biomni-R0: 의료 연구에서 전문 수준의 인공지능을 위해 다중 턴 강화 학습으로 끝까지 훈련된 새로운 에이전틱 LLMs

의료 인공지능 분야에서 AI의 역할이 증가하고 있으며, 생물학적 문제를 해결하고 환자 데이터를 해석하는 등 복잡한 작업을 수행할 수 있는 에이전트에 대한 수요가 급증하고 있다.

2025년 9월 5일 오전 12시 14분

구글 AI, EmbeddingGemma 공개: 308백만 파라미터 장치 내 임베딩 모델과 최신 MTEB 결과

구글의 EmbeddingGemma는 장치 내 AI용으로 최적화된 새로운 텍스트 임베딩 모델로, 효율성과 최신 검색 성능을 균형 있게 유지하도록 설계되었습니다. 308백만 파라미터로 구성된 이 모델은 경량화되어 모바일 기기 및 오프라인 환경에서 작동할 수 있습니다. 크기에도 불구하고 다른 훨씬 큰 모델들과 경쟁력 있는 성능을 보여줍니다.

2025년 9월 4일 오후 5시 39분

텐센트 훈유안, 훈유안-MT-7B 및 훈유안-MT-Chimera-7B 공개: 최신 다국어 번역 모델

텐센트의 훈유안팀이 훈유안-MT-7B(번역 모델) 및 훈유안-MT-Chimera-7B(앙상블 모델)을 공개했다. 두 모델은 다국어 기계 번역을 위해 특별히 설계되었으며, WMT2025 General Machine Translation 대회에서 훈유안-MT-7B가 31개 언어 쌍 중 30개에서 1위를 차지했다.

2025년 9월 3일 오전 12시 44분

알리바바 큐엔 팀, GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크 Mobile-Agent-v3 및 GUI-Owl 공개

알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.

2025년 8월 31일 오전 5시 41분

Microsoft AI 연구소, 음성 AI용 새로운 인하우스 모델 MAI-Voice-1 및 MAI-1-Preview 발표

Microsoft AI 연구소가 MAI-Voice-1과 MAI-1-Preview를 공식 발표하며 인공지능 연구 및 개발 노력의 새로운 단계를 마련했다. MAI-Voice-1과 MAI-1-Preview 모델은 음성 합성과 일반적인 언어 이해에 각각 고유한 역할을 지원한다.

2025년 8월 29일 오후 6시 51분

Meta AI, 딥러닝 OSS 모델 GPT-OSS-120B를 활용한 AIME 2025에서 99.9% 달성하는 첫 AI 방법인 DeepConf 공개

Meta AI와 UCSD 연구팀이 새로운 AI 방법인 Deep Think with Confidence (DeepConf)를 소개했다. 이 방법은 병렬 사고와 자아일관성 기법을 활용하여 AI 추론을 혁신하였고, AIME 2025에서 99.9%의 성과를 이루었다. 이는 오픈소스 모델 GPT-OSS-120B를 사용하는 첫 번째 사례이다.

2025년 8월 27일 오후 12시 40분

Microsoft, VibeVoice-1.5B 공개: 4명의 다른 화자로 최대 90분 음성 합성 가능한 오픈소스 텍스트 음성 모델

Microsoft이 새로 공개한 VibeVoice-1.5B는 MIT 라이선스로 배포된 텍스트 음성(TTS) 기술의 한계를 재정의하며, 4명의 다른 화자로 최대 90분의 음성을 생성할 수 있는 유연하고 확장 가능한 모델이다.

2025년 8월 25일 오후 7시 28분

구글 AI가 대화형 의료 AI에서 책임성을 강조하는 Guardrailed-AMIE (g-AMIE)를 소개했습니다

최근 대형 언어 모델 판단력을 갖춘 AI 에이전트의 발전으로, 임상 대화, 진단 및 치료 계획이 가능해졌습니다. 그러나 개별 진단과 치료 권고는 규제가 엄격하며, 중요한 환자와 직면한 결정에 대한 책임은 라이선스를 받은 임상 의사만이 가질 수 있습니다. 전통적인 의료는 종종 계층적 감독을 사용하며, 경험 많은 의사가 임상 의사의 의사결정을 검토합니다.

2025년 8월 25일 오전 3시 44분

금융 기관을 위한 대형 언어 모델 LLM 대 소형 언어 모델 SLM: 2025년 실용적 기업 AI 안내서

2025년에는 대형 언어 모델(LLMs)과 소형 언어 모델(SLMs) 사이에 절대적인 승자가 없다. 은행, 보험사 및 자산 관리자들은 규제 리스크, 데이터 민감성, 대기 시간 및 비용 요구 사항, 사용 복잡성에 따라 선택해야 한다.

2025년 8월 23일 오전 5시 22분

신호와 소음: 더 나은 AI 결정을 위한 신뢰할 수 있는 LLM 평가를 해제

대형 언어 모델(Large Language Models, LLMs)을 평가하는 것은 과학적으로나 경제적으로 비용이 많이 든다. LLMs의 크기가 점점 커지면서 이를 평가하고 비교하는 방법론은 점점 중요해지고 있다. Allen Institute for Artificial Intelligence (Ai2)의 최근 연구는 두 가지 기본 요소를 중심으로 한 강력한 프레임워크를 소개했다.

2025년 8월 20일 오전 3시 09분

Ollama, REST API 및 Gradio 채팅 인터페이스를 활용한 완전한 Self-Hosted LLM Workflow 구축의 코딩 구현

본 튜토리얼에서는 Google Colab 내에 완전한 Ollama 환경을 구현하여 Self-Hosted LLM Workflow를 복제하는 방법을 제시한다. Colab VM에 공식 Linux 설치 프로그램을 사용하여 Ollama를 설치하고 localhost:11434에 HTTP API를 노출시키는 과정부터 시작하여 Ollama 서버를 배경에서 실행한다. 서비스를 확인한 후, […]

2025년 8월 20일 오전 12시 04분

Qwen Team이 Qwen-Image-Edit를 소개: 시맨틱 및 외관 편집을 위한 고급 기능을 갖춘 Qwen-Image의 이미지 편집 버전

2025년 8월 알리바바의 Qwen Team이 출시한 Qwen-Image-Edit는 20B-파라미터 Qwen-Image를 기반으로 고급 편집 기능을 제공한다. 이 모델은 시맨틱 편집(스타일 전이 및 새로운 시각 합성)과 외관 편집에서 뛰어나다.

2025년 8월 18일 오후 7시 17분

Hugging Face, AI Sheets 공개: LLM-Powered 데이터셋을 위한 무료 오픈소스 노코드 툴킷

Hugging Face사가 AI Sheets를 출시했는데, 이는 무료이자 오픈소스이며 로컬 기반의 노코드 툴로, AI를 활용한 데이터셋 생성과 보강을 혁신적으로 간소화하는 데 목적이 있다. AI Sheets는 직관적인 스프레드시트 인터페이스를 대표하는 오픈소스 대형 언어 모델(Qwen, Kimi, Llama 3 등)과 직접적으로 결합하여 AI 기반 데이터 처리에 대한 접근성을 민주화하고 있다.

2025년 8월 17일 오후 4시 06분

dots.ocr 만나보기: 다국어 문서 구문 분석에서 최고 수준의 성능을 달성한 새로운 1.7B 비전-언어 모델

dots.ocr은 다국어 문서 레이아웃 구문 분석과 광학 문자 인식(OCR)을 위해 개발된 오픈 소스 비전-언어 트랜스포머 모델이다. 이 모델은 단일 아키텍처 내에서 레이아웃 감지와 내용 인식을 수행하며 100여 개 언어와 다양한 구조화된 및 비구조화된 문서 유형을 지원한다.

2025년 8월 16일 오후 1시 22분

NVIDIA AI, 유럽어용 최대 규모 오픈소스 음성 AI 데이터셋과 첨단 모델 공개

NVIDIA가 유럽어용 Granary라는 최대 규모의 오픈소스 음성 데이터셋과 Canary-1b-v2, Parakeet-tdt-0.6b-v3 두 첨단 모델을 발표했다. 이는 특히 소수 언어에 대한 자동 음성 인식 및 음성 번역 분야에서 액세스 가능하고 고품질의 자원에 새 기준을 제시한다.

2025년 8월 16일 오전 1시 29분

MoE 아키텍처 비교: Qwen3 30B-A3B vs. GPT-OSS 20B

이 기사는 최근 출시된 두 Mixture-of-Experts (MoE) 트랜스포머 모델인 알리바바의 Qwen3 30B-A3B와 OpenAI의 GPT-OSS 20B를 기술적으로 비교한다. 두 모델은 MoE 아키텍처 설계에 대해 다른 접근을 취하며, 계산 효율성과 성능을 다양한 배포 시나리오에서 균형있게 유지한다.

2025년 8월 7일 오전 1시 02분

C3: 복잡한 구두 대화 모델링을 위한 이중 언어 벤치마크 데이터셋 및 평가 프레임워크 소개하는 AI 논문

본문에서는 중국에서 나온 새로운 연구 논문을 소개하며, 구두 대화 모델의 실제 대화 복잡성을 다루는 능력을 평가하는 것이 중요한 도전이라고 설명하고 있다.

2025년 8월 6일 오전 5시 15분

구글 AI가 LangExtract를 공개: 비구조화 텍스트 문서에서 구조화된 데이터 추출하는 오픈 소스 파이썬 라이브러리

LangExtract는 구글 AI의 새로운 오픈 소스 파이썬 라이브러리로, 비구조화된 텍스트 문서에서 의미 있는 정보를 추출하는 것을 목표로 한다. 이 라이브러리는 Gemini와 같은 LLMs를 사용하여 이러한 과제를 직접 해결한다.

2025년 8월 5일 오전 1시 49분

구글 AI, MLE-STAR 발표: 다양한 AI 작업 자동화 가능한 최첨단 기계 학습 엔지니어링 에이전트

MLE-STAR은 구글 클라우드 연구원들이 개발한 최첨단 에이전트 시스템으로, 복잡한 기계 학습 ML 파이프라인 설계와 최적화를 자동화합니다. MLE-STAR은 웹 규모 검색, 특정 코드 수정, 견고한 검사 모듈을 활용하여 기계 학습 엔지니어링 작업에서 우수한 성능을 발휘합니다.

2025년 8월 2일 오후 11시 20분

2025년 코딩 LLM 벤치마크와 성능 측정의 최종 안내서

코딩에 특화된 대형 언어 모델(Large language models, LLM)이 소프트웨어 개발에서 중요해지고 있으며, 상업 및 오픈소스 모델 간 치열한 경쟁으로 코딩 성능 및 개발자 유틸리티를 객관적으로 측정하는 벤치마크가 확대되고 있다.

2025년 7월 31일 오전 4시 30분

MiroMind-M1: 콘텍스트 인식 다단계 강화 학습을 통한 오픈소스 수학적 추론 발전

MiroMind-M1은 오픈소스 파이프라인으로, 수학 문제 해결을 위한 고급 기능을 평가하는 엄격한 기준으로 자리 잡은 다단계 추론에 높은 성과를 보이고 있습니다. 기존의 프로프리어터리 모델에 비해 투명성과 재현성을 향상시키는 MiroMind-M1 시리즈가 출시되었습니다.

2025년 7월 30일 오전 12시 37분

NVIDIA AI 개발팀, Llama Nemotron Super v1.5 출시: 추론 및 에이전틱 AI에서 새 기준 설정

NVIDIA의 최신 릴리스인 Llama Nemotron Super v1.5은 추론 및 에이전틱 작업에 특히 뛰어난 성능과 사용성을 제공하여 모델이 어디까지 이끌 수 있는지에 대한 경계를 넘는 AI 발전을 이끌고 있다.

2025년 7월 27일 오전 4시 21분

AI 논문 소개: AI가 생각하는 대로 도구를 작성하는 Python 중심 프레임워크 PyVision

PyVision은 인식과 논리적 추론을 사용해 시각 정보를 해석하는 인공지능 모델을 도와주는 프레임워크로, 의료 진단, 시각 수학, 상징적 퍼즐 및 이미지 기반 질문 응답 등 여러 응용 분야에 활용될 수 있습니다. 객체 인식뿐만 아니라 동적 적응, 추상화 및 문맥 추론 능력을 요구합니다.

2025년 7월 24일 오전 2시 17분

Qwen, 그들의 가장 강력한 오픈 에이전트 코드 모델인 Qwen3-Coder-480B-A35B-Instruct를 공개

Qwen은 새로운 Mixture-of-Experts 아키텍처와 포괄적인 에이전트 코딩 기능을 갖춘 Qwen3-Coder를 발표했다. 이 모델은 오픈 소스 코딩 모델의 새 기준을 제시하며 대규모 자율 개발자 지원의 가능성을 재정의한다.

2025년 7월 22일 오후 11시 52분

Allen Institute for AI-Ai2가 AutoDS를 발표: 개방형 과학적 발견을 위한 베이지안 서프라이즈 주도 엔진

Allen Institute for AI가 AutoDS(자율적 발견을 통한 서프라이즈)를 소개했는데, 이는 인간이 정의한 목표나 질의에 의존하지 않고 베이지안 서프라이즈를 측정하고 찾아내는 가치 있는 가정을 자동으로 생성, 테스트 및 반복함.

2025년 7월 21일 오전 3시 38분

MIRIX: LLM 기반 에이전트의 향상된 장기 추론과 개인화를 위한 모듈식 멀티 에이전트 메모리 시스템

LLM 기반 에이전트의 장기 추론 및 개인화를 강화하기 위해 모듈식 멀티 에이전트 메모리 시스템인 MIRIX가 소개되었다. 이 시스템은 사용자별 정보를 지속적으로 저장, 회상하고 추론하는 능력을 향상시켜 LLM 기반 에이전트들이 단일 프롬프트 이상의 컨텍스트를 구축할 수 있도록 도와준다.

2025년 7월 20일 오후 10시 00분

데이터를 공유할 필요 없이 언어 모델을 훈련시킬 수 있습니다 – FlexOlmo가 보여줍니다

FlexOlmo는 데이터를 공유하지 않고도 대규모 언어 모델을 개발할 수 있는 방법을 제시하며, 공개되지 않거나 제한이 있는 데이터셋에 대한 의존성을 줄입니다.

2025년 7월 18일 오후 8시 16분

Mistral AI가 발표한 Voxtral: 세계 최고의 (그리고 오픈된) 음성 인식 모델

Mistral AI가 Voxtral을 발표했다. Voxtral은 오디오와 텍스트 입력을 처리하는 Voxtral-Small-24B 및 Voxtral-Mini-3B 모델로, 자동 음성 인식(ASR)과 자연어 이해 기능을 통합한다. Apache 2.0 라이선스로 공개된 Voxtral은 전사, 요약, 질문 응답 등에 실용적인 솔루션을 제공한다.

2025년 7월 17일 오전 4시 07분

Apple, 코드 생성용 7B Diffusion LLM인 DiffuCoder 소개

Apple이 코드 생성을 위해 맞춤화된 7B Diffusion LLM인 DiffuCoder를 소개했다. LLMs는 대화부터 코드 생성까지 다양한 작업에서 놀라운 결과를 얻어내며 자연어 처리를 혁신시켰다.

2025년 7월 16일 오후 7시 02분

NVIDIA, 오디오 일반 지능 발전을 위한 오픈소스 모델 ‘Audio Flamingo 3’ 출시

NVIDIA의 Audio Flamingo 3 (AF3)은 기계가 소리를 이해하고 추론하는 방식에 큰 발전을 이끌어냈다. 이전 모델들은 음성을 전사하거나 오디오 클립을 분류할 수는 있었지만, AF3는 음성, 주변 소리 등을 인간과 유사한 맥락에서 해석하는 능력을 갖췄다.

2025년 7월 16일 오전 12시 10분

AI 논문 소개: 다중 호합 질문 응답을 위한 하이브리드 SQL 및 텍스트 검색 프레임워크 TableRAG

다양한 데이터 유형이 혼합된 콘텐츠를 처리하는 더 지능적이고 유용한 AI 시스템 구축이 중요해지고 있다. 이 논문은 텍스트와 구조화된 테이블을 동시에 다루는 질문에 초점을 맞춘 프레임워크 TableRAG를 소개한다.

2025년 7월 15일 오후 4시 53분

Moonshot AI, 킬러 AI, 코드 추론 및 주체적 행동에 중점을 둔 1조 매개변수 MoE 모델인 Kimi K2 공개

2025년 7월 Moonshot AI가 발표한 Kimi K2는 1조개의 총 매개변수와 토큰당 32억개의 활성 매개변수를 갖춘 MoE 모델로, 1550억 토큰에 대해 훈련되었다. K2는 대규모 모델에서 흔히 볼 수 있는 불안정성 없이 전례 없는 규모에서 안정적인 훈련을 달성했다.

2025년 7월 12일 오전 12시 23분

Mistral AI, 코드 중심 언어 모델링을 위한 Devstral 2507 출시

Mistral AI가 All Hands AI와 협력하여 Devstral 2507 레이블 하에 개발자 중심 대형 언어 모델의 업데이트 버전을 출시했다. Devstral Small 1.1과 Devstral Medium 2507 두 모델은 대규모 소프트웨어 저장소에서 에이전트 기반 코드 추론, 프로그램 합성, 구조화된 작업 실행을 지원하기 위해 설계되었으며 성능에 최적화되어 있다.

2025년 7월 11일 오전 3시 06분

1 2 다음 »