2026년 4월 23일 목요일
오늘의 신문
2026년 4월 23일 목요일 오늘의 신문
구글이 Gemini Embedding 2를 발표했다. 이 모델은 텍스트 뿐만 아니라 이미지, 비디오, 오디오, 문서 등을 임베딩 공간으로 가져와 AI 개발자가 고차원 저장 및 교차 모달 검색 도전에 대처할 수 있도록 설계되었다.
2026년 3월 11일 오전 3시 18분
FireRedTeam은 FireRed-OCR-2B를 발표했는데, 이 모델은 문서 구문 분석을 처리하기 위해 설계되었고, LVLM에서 발생하는 '구조적 환각'을 해결하는 데 사용된다.
2026년 3월 2일 오전 1시 38분
구글이 Nano-Banana 2를 공개했다. 이 모델은 고급 주제 일관성과 초당 하위 4K 이미지 합성 성능을 특징으로 한다. 기술적으로는 Gemini 3.1 Flash Image로 지칭되며, 장치 내에서 완전히 유지되는 고품질 하위 초 이미지 합성을 지향한다.
2026년 2월 26일 오후 1시 04분
OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.
2026년 2월 12일 오후 6시 24분
바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.
2026년 2월 8일 오후 1시 26분
구글과 북경대학이 공동으로 연구한 팀이 'PaperBanana'라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.
2026년 2월 7일 오후 1시 45분
Mistral AI가 새로운 Voxtral Transcribe 2 패밀리를 출시했다. 이 제품은 일괄 및 실시간 사용 사례로 깔끔하게 분리되는 2개 모델을 제공하며 비용, 지연 시간 및 배포 제약 조건을 고려하고 있다.
2026년 2월 5일 오전 2시 36분
Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.
2026년 1월 27일 오후 6시 55분
Black Forest Labs가 FLUX.2 [klein]을 출시했다. 이 모델은 대화형 시각 인텔리전스에 초점을 맞춘 소형 이미지 모델로, 텍스트에서 이미지로, 이미지에서 이미지로의 통합 아키텍처와 로컬 GPU부터 클라우드 API까지의 배포 옵션을 제공한다.
2026년 1월 17일 오전 5시 31분
Google AI가 Gemma 3 기반의 55개 언어를 지원하는 오픈 기계 번역 모델인 TranslateGemma를 출시했다. 4B, 12B, 27B 파라미터 크기로 출시되었으며, 모바일부터 노트북, 단일 H100 GPU나 TPU 인스턴스까지 다양한 디바이스에서 동작 가능하다.
2026년 1월 16일 오후 2시 39분
InstaDeep의 NTv3는 지역 모티프를 메가베이스 규모의 조절 가능한 시퀀스 생성과 함께 연결하는 모델로, 표현 학습, 기능적 트랙 및 유전체 주석 예측을 통합한다.
2025년 12월 24일 오후 3시 53분
OpenAI가 GPT-5.2를 소개했다. ChatGPT 및 API에서 사용 가능한 이 모델은 전문 업무 및 장기 에이전트에 적합하며 3가지 변형이 있다. ChatGPT에서는 ChatGPT-5.2 Instant, Thinking, Pro을 사용할 수 있고, API에서는 gpt-5.2-chat-latest, gpt-5.2, gpt-5.2-pro이다.
2025년 12월 12일 오전 5시 04분
NVIDIA 연구진이 ToolOrchestra를 발표했습니다. 이는 각 작업 단계마다 올바른 모델 또는 도구를 선택하는 AI 시스템을 어떻게 학습시킬 수 있는지에 대한 혁신적인 방법입니다.
2025년 11월 29일 오후 1시 18분
Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.
2025년 11월 21일 오후 7시 56분
xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.
2025년 11월 19일 오전 8시 21분
구글 딥마인드는 복잡한 3D 게임 세계 안에서 얼마나 멀리 진화한 에이전트가 갈 수 있는지 테스트하기 위해 SIMA 2를 출시했다. SIMA 2는 이전의 명령 따르기 에이전트를 업그레이드하여 목표에 대한 추론, 계획 설명, 다양한 환경에서의 자가 플레이로부터 개선하는 제네시스 시스템을 도입했다.
2025년 11월 16일 오후 4시 40분

최신뉴스 전체보기

구글 AI, Gemini Embedding 2 소개: 텍스트, 이미지, 비디오, 오디오, 문서를 포함한 다중 모달 임베딩 모델

구글이 Gemini Embedding 2를 발표했다. 이 모델은 텍스트 뿐만 아니라 이미지, 비디오, 오디오, 문서 등을 임베딩 공간으로 가져와 AI 개발자가 고차원 저장 및 교차 모달 검색 도전에 대처할 수 있도록 설계되었다.

2026년 3월 11일 오전 3시 18분
FireRedTeam, 소프트웨어 개발자를 위한 FireRed-OCR-2B를 발표하며 LVLM의 구조적 환각 해결

FireRedTeam은 FireRed-OCR-2B를 발표했는데, 이 모델은 문서 구문 분석을 처리하기 위해 설계되었고, LVLM에서 발생하는 ‘구조적 환각’을 해결하는 데 사용된다.

2026년 3월 2일 오전 1시 38분
구글 AI, 고급 주제 일관성과 하위 초 4K 이미지 합성 성능을 갖춘 새 AI 모델 Nano-Banana 2 공개

구글이 Nano-Banana 2를 공개했다. 이 모델은 고급 주제 일관성과 초당 하위 4K 이미지 합성 성능을 특징으로 한다. 기술적으로는 Gemini 3.1 Flash Image로 지칭되며, 장치 내에서 완전히 유지되는 고품질 하위 초 이미지 합성을 지향한다.

2026년 2월 26일 오후 1시 04분
OpenAI, GPT-5.3-Codex-Spark의 연구 미리보기 발표: Cerebras 하드웨어에서 초당 1000 토큰 이상 제공하는 15배 빠른 AI 코딩 모델

OpenAI가 GPT-5.3 Codex-Spark라는 새로운 연구 미리보기를 출시했다. 이 모델은 극한 속도에 중점을 둔 것으로, 기존 GPT-5.3 Codex가 심층 추론에 초점을 맞춘 반면, Spark는 거의 즉각적인 응답 시간을 위해 설계되었다. OpenAI와 Cerebras 간의 깊은 하드웨어-소프트웨어 통합의 결과로, Spark는 게임 체인저적인 성과를 보여주고 있다.

2026년 2월 12일 오후 6시 24분
바이트댄스, Protenix-v1 공개: 생체 분자 구조 예측에서 AF3 수준 성능 달성한 새 오픈 소스 모델

바이트댄스가 Protenix-v1을 출시했다. 이 모델은 AF3 수준의 성능을 생체 분자 구조 예측에서 달성하며 코드와 모델 매개변수를 Apache 2.0 하에 공개했다.

2026년 2월 8일 오후 1시 26분
구글 AI가 PaperBanana를 소개합니다: 게재 준비된 방법론 다이어그램과 통계 플롯을 자동화하는 에이전틱 프레임워크

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

2026년 2월 7일 오후 1시 45분
Mistral AI, Voxtral Transcribe 2 출시: 다국어 제작 워크로드를 위한 일괄 다이어리제이션 및 실시간 ASR 결합

Mistral AI가 새로운 Voxtral Transcribe 2 패밀리를 출시했다. 이 제품은 일괄 및 실시간 사용 사례로 깔끔하게 분리되는 2개 모델을 제공하며 비용, 지연 시간 및 배포 제약 조건을 고려하고 있다.

2026년 2월 5일 오전 2시 36분
Moonshot AI, Kimi K2.5 공개: 네이티브 스왐 실행 기능을 갖춘 오픈 소스 비주얼 에이전트 인텔리전스 모델

Moonshot AI가 Kimi K2.5를 공개했다. 이 모델은 큰 Mixture of Experts 언어 기반, 네이티브 비전 인코더, 그리고 에이전트 스왐이라는 병렬 멀티 에이전트 시스템을 결합하였다. 이 모델은 코딩, 멀티모달 추론, 그리고 깊은 웹 연구에 초점을 맞추고 있으며 에이전트, 비전, 코딩 분야에서 강력한 성능을 보여준다.

2026년 1월 27일 오후 6시 55분
Black Forest Labs, FLUX.2 [klein] 출시: 대화형 시각 인텔리전스를 위한 소형 플로우 모델

Black Forest Labs가 FLUX.2 [klein]을 출시했다. 이 모델은 대화형 시각 인텔리전스에 초점을 맞춘 소형 이미지 모델로, 텍스트에서 이미지로, 이미지에서 이미지로의 통합 아키텍처와 로컬 GPU부터 클라우드 API까지의 배포 옵션을 제공한다.

2026년 1월 17일 오전 5시 31분
Google AI, 55개 언어 지원하는 새로운 번역 모델 ‘TranslateGemma’ 출시

Google AI가 Gemma 3 기반의 55개 언어를 지원하는 오픈 기계 번역 모델인 TranslateGemma를 출시했다. 4B, 12B, 27B 파라미터 크기로 출시되었으며, 모바일부터 노트북, 단일 H100 GPU나 TPU 인스턴스까지 다양한 디바이스에서 동작 가능하다.

2026년 1월 16일 오후 2시 39분
인스타딥, Nucleotide Transformer v3 (NTv3) 소개: 1 Mb 컨텍스트 길이에 적합한 새로운 다종 생물 유전체 기반 모델

InstaDeep의 NTv3는 지역 모티프를 메가베이스 규모의 조절 가능한 시퀀스 생성과 함께 연결하는 모델로, 표현 학습, 기능적 트랙 및 유전체 주석 예측을 통합한다.

2025년 12월 24일 오후 3시 53분
OpenAI, 에이전트, 코딩 및 지식 업무용 GPT 5.2 도입

OpenAI가 GPT-5.2를 소개했다. ChatGPT 및 API에서 사용 가능한 이 모델은 전문 업무 및 장기 에이전트에 적합하며 3가지 변형이 있다. ChatGPT에서는 ChatGPT-5.2 Instant, Thinking, Pro을 사용할 수 있고, API에서는 gpt-5.2-chat-latest, gpt-5.2, gpt-5.2-pro이다.

2025년 12월 12일 오전 5시 04분
NVIDIA AI, Orchestrator-8B 발표: 효율적인 도구 및 모델 선택을 위한 강화 학습 훈련 컨트롤러

NVIDIA 연구진이 ToolOrchestra를 발표했습니다. 이는 각 작업 단계마다 올바른 모델 또는 도구를 선택하는 AI 시스템을 어떻게 학습시킬 수 있는지에 대한 혁신적인 방법입니다.

2025년 11월 29일 오후 1시 18분
Perplexity AI, 기존 GPU 클러스터에서 1조 매개변수 LLMs 실행 가능한 TransferEngine 및 pplx garden 공개

Perplexity의 연구팀이 TransferEngine 및 pplx garden 툴킷을 공개하여, 기존 GPU 클러스터에서 1조 매개변수 언어 모델을 실행하는 방법을 제공함.

2025년 11월 21일 오후 7시 56분
xAI의 Grok 4.1, 감정 지능 향상, 환각 감소 및 안전 제어 강화를 추진

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.

2025년 11월 19일 오전 8시 21분
구글 딥마인드, 복잡한 3D 가상 세계용 제네시스 기반 일반적 에이전트 SIMA 2 소개

구글 딥마인드는 복잡한 3D 게임 세계 안에서 얼마나 멀리 진화한 에이전트가 갈 수 있는지 테스트하기 위해 SIMA 2를 출시했다. SIMA 2는 이전의 명령 따르기 에이전트를 업그레이드하여 목표에 대한 추론, 계획 설명, 다양한 환경에서의 자가 플레이로부터 개선하는 제네시스 시스템을 도입했다.

2025년 11월 16일 오후 4시 40분
Cerebras, 롱 컨텍스트 코딩 에이전트를 위한 MiniMax-M2-REAP-162B-A10B 출시

Cerebras가 MiniMax-M2-REAP-162B-A10B를 발표했다. 이 모델은 MiniMax-M2에서 파생된 압축된 희소 Mixture-of-Experts (SMoE) 인과 언어 모델로, Router 가중 전문가 활성화 가지치기(REAP) 방법을 사용하여 전문가를 가지치기하고 코딩 에이전트 및 도구와 같은 배포 중심 워크로드의 메모리를 줄였다.

2025년 11월 15일 오후 9시 53분
Generalist AI가 GEN-θ를 소개: 고품질 원시 물리적 상호작용에 직접 다중 모달 훈련을 위해 구축된 새로운 신체 기반 모델 클래스

Generalist AI가 GEN-θ를 공개했습니다. 이 모델은 시뮬레이션에 의존하지 않고 혼돈스러운 로봇 데이터로부터 물리적 기술을 학습할 수 있는 싱글 모델을 어떻게 구축할 수 있는지 보여줍니다. GEN-θ는 인터넷 비디오나 시뮬레이션 대신에 고품질 원시 물리적 상호작용 데이터로 직접 훈련된 신체 기반 모델의 가족입니다.

2025년 11월 5일 오후 8시 56분
Anthrogen이 올리는 Odyssey: Attention을 Consensus로 대체하고 이산 확산으로 훈련하는 102B 파라미터 단백질 언어 모델

Anthrogen은 Odyssey를 소개했는데, 이는 시퀀스 및 구조 생성, 단백질 편집, 조건부 설계를 위한 단백질 언어 모델로 1.2B에서 102B 파라미터의 범위를 갖추고 있다. 이 모델을 실제 단백질 설계 작업을 위한 전방향, 멀티모달 모델로 소개하며 API가 조기 액세스 중이라고 밝혔다.

2025년 10월 23일 오전 2시 53분
NVIDIA 연구진, 강화 학습 사전 학습(RLP) 제안: 사전 학습 중 추론 구축을 위한 사전 학습 목적으로 강화 학습 제안

NVIDIA AI가 강화 학습 사전 학습(RLP)을 소개했습니다. 이는 후속 학습이 아닌 사전 학습 단계에서 강화 학습을 적용하는 교육 목표입니다. 강화 학습을 다음 토큰 예측 전에 샘플링된 작업으로 취급하고 정보 획득에 대한 보상으로 보상합니다.

2025년 10월 14일 오전 5시 55분
ServiceNow AI Research, 현실적인 기업 심층 연구 벤치마크 ‘DRBench’ 공개

ServiceNow의 연구팀이 DRBench를 공개했다. 이는 공개 웹과 기업 내부 데이터를 종합적으로 활용해 보고서 작성을 요구하는 기업과제에 대한 “심층 연구” 에이전트를 평가하기 위한 벤치마크 및 실행 환경이다. DRBench는 기업 스타일의 다양한 워크플로우를 구현하여 에이전트가 파일, 이메일, 채팅 로그, 클라우드 저장소를 검색, 필터링 및 속성을 할 수 있도록 한다.

2025년 10월 14일 오전 3시 40분
Meta의 ARE + Gaia2, 비동기, 이벤트 주도 조건 하에서 AI 에이전트 평가에 새로운 기준 제시

Meta AI가 Agents Research Environments (ARE)와 Gaia2를 소개했는데, ARE는 에이전트 작업을 만들고 실행하기 위한 모듈화된 시뮬레이션 스택이고, Gaia2는 GAIA의 후속 벤치마크로 동적인, 쓰기가능한 환경에서 에이전트를 평가한다. ARE은 응용 프로그램, 환경, 이벤트, 알림 및 시나리오에 대한 추상화를 제공하며, Gaia2는 ARE 상에서 실행되며 탐색 및 실행 이외의 능력에 초점을 맞춘다.

2025년 10월 13일 오후 10시 03분
Neuphonic, NeuTTS Air 공개: 748M-파라미터 장치 내 음성 언어 모델 및 즉각 음성 복제

Neuphonic이 NeuTTS Air를 공개했는데, 이는 748M 파라미터(큐윈2 아키텍처)를 갖춘 오픈소스 텍스트 음성 변환 모델로, 클라우드 의존성 없이 CPU에서 실시간으로 실행될 수 있다. Apache-2.0 라이선스 하에 제공되며, 러너블 데모와 함께 제공된다.

2025년 10월 3일 오전 2시 22분
Qwen3Guard 소개: 글로벌 실시간 AI 안전을 위해 구축된 Qwen3 기반의 다국어 안전 가드레일 모델

알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.

2025년 9월 27일 오전 1시 04분
OpenAI, Pro 사용자를 위한 ChatGPT ‘Pulse’ 를 공개

OpenAI가 Pro 사용자를 위해 맞춤형 일일 브리핑을 제공하는 ChatGPT Pulse를 선보였다. 이 기능은 사용자의 채팅, 명시적 피드백, 캘린더/이메일과 같은 연결된 앱에서 정보를 수집하여 사용자 맞춤형 카드를 제공하며, ChatGPT를 요청 중심 도구에서 맥락을 이해하는 어시스턴트로 변화시킨다.

2025년 9월 25일 오후 4시 55분
xAI가 Grok-4-Fast를 출시: 2백만 토큰 컨텍스트와 툴 사용 강화 학습(Reinforcement Learning)을 통한 엔드 투 엔드로 훈련된 통합 추론 및 비추론 모델

xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.

2025년 9월 20일 오전 5시 17분
어떤 UI에도 AI 에이전트를 가져오기: 실시간, 구조화된 에이전트-프론트엔드 스트림을 위한 AG-UI 프로토콜

AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.

2025년 9월 18일 오후 3시 29분
알리바바 큐엔 팀, GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크 Mobile-Agent-v3 및 GUI-Owl 공개

알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.

2025년 8월 31일 오전 5시 41분
Microsoft AI 연구소, 음성 AI용 새로운 인하우스 모델 MAI-Voice-1 및 MAI-1-Preview 발표

Microsoft AI 연구소가 MAI-Voice-1과 MAI-1-Preview를 공식 발표하며 인공지능 연구 및 개발 노력의 새로운 단계를 마련했다. MAI-Voice-1과 MAI-1-Preview 모델은 음성 합성과 일반적인 언어 이해에 각각 고유한 역할을 지원한다.

2025년 8월 29일 오후 6시 51분
Qwen Team이 Qwen-Image-Edit를 소개: 시맨틱 및 외관 편집을 위한 고급 기능을 갖춘 Qwen-Image의 이미지 편집 버전

2025년 8월 알리바바의 Qwen Team이 출시한 Qwen-Image-Edit는 20B-파라미터 Qwen-Image를 기반으로 고급 편집 기능을 제공한다. 이 모델은 시맨틱 편집(스타일 전이 및 새로운 시각 합성)과 외관 편집에서 뛰어나다.

2025년 8월 18일 오후 7시 17분
NVIDIA AI, 유럽어용 최대 규모 오픈소스 음성 AI 데이터셋과 첨단 모델 공개

NVIDIA가 유럽어용 Granary라는 최대 규모의 오픈소스 음성 데이터셋과 Canary-1b-v2, Parakeet-tdt-0.6b-v3 두 첨단 모델을 발표했다. 이는 특히 소수 언어에 대한 자동 음성 인식 및 음성 번역 분야에서 액세스 가능하고 고품질의 자원에 새 기준을 제시한다.

2025년 8월 16일 오전 1시 29분
구글 딥마인드가 GenAI 프로세서를 출시: 효율적이고 병렬 콘텐츠 처리를 가능하게 하는 가벼운 파이썬 라이브러리

구글 딥마인드가 최근 발표한 GenAI 프로세서는 가벼운 오픈소스 파이썬 라이브러리로, 실시간 다중 모달 콘텐츠를 포함한 생성 AI 워크플로우의 조율을 간소화하는 데 사용된다. 이 라이브러리는 고급 AI 파이프라인을 구축하기 위한 고청량, 비동기 스트림 프레임워크를 제공한다.

2025년 7월 13일 오전 4시 05분
인식부터 행동까지: 타인 AI 시스템에서 세계 모델의 역할

신체화된 AI 에이전트는 물리적 또는 가상 형태로 존재하며 주변 환경과 상호 작용할 수 있는 시스템이다. 이들은 세계를 지각하고 의미 있는 행동을 취한다. 최근의 발전은 신체화가 된 AI 에이전트의 물리적 상호작용, 인간 신뢰, 인간과 유사한 학습을 향상시킨다.

2025년 7월 11일 오후 4시 52분
Mistral AI, 코드 중심 언어 모델링을 위한 Devstral 2507 출시

Mistral AI가 All Hands AI와 협력하여 Devstral 2507 레이블 하에 개발자 중심 대형 언어 모델의 업데이트 버전을 출시했다. Devstral Small 1.1과 Devstral Medium 2507 두 모델은 대규모 소프트웨어 저장소에서 에이전트 기반 코드 추론, 프로그램 합성, 구조화된 작업 실행을 지원하기 위해 설계되었으며 성능에 최적화되어 있다.

2025년 7월 11일 오전 3시 06분
바이트댄스, 일반 목적 소프트웨어 엔지니어링 작업을 위한 LLM 기반 에이전트 Trae Agent 공개

바이트댄스가 대형 언어 모델(LLM)을 활용한 일반 목적 소프트웨어 엔지니어링 에이전트 ‘Trae Agent’를 공식 출시했다. 복잡한 프로그래밍 작업을 자연어 프롬프트를 통해 실행할 수 있는 Trae Agent는 뛰어난 성능과 확장성을 제공하는 명령줄 인터페이스(CLI)를 제공하여 개발자들이 소프트웨어와 상호 작용하는 방식을 새롭게 정의한다.

2025년 7월 7일 오전 3시 00분
상하이 교통대학 연구원들, 강화 학습-확장 가능한 LLM 개발을 위한 OctoThinker 제안

연구원들이 OctoThinker를 제안하여 강화 학습을 통한 복잡한 추론 작업에 대한 LLM의 발전을 제안했다. CoT 프롬프팅과 대규모 강화 학습을 결합한 LLM은 Deepseek-R1-Zero와 같은 모델이 기본 모델에 직접 RL을 적용함으로써 강한 추론 능력을 보여주었다.

2025년 7월 2일 오후 9시 02분
Polaris-4B와 Polaris-7B: 효율적인 수학 및 논리 추론을 위한 사후 훈련 강화 학습

수학 문제 해결과 상징적 추론과 같은 분야에서 확장 가능한 추론 모델의 필요성이 높아지고 있다. 이러한 모델은 다단계 계산과 논리적 추론을 수행하도록 설계되어 종종 인간의 추론 과정을 모방한 솔루션을 생성한다. 이 글에서는 효율적인 수학 및 논리 추론을 위한 사후 훈련 강화 학습 기술인 Polaris-4B와 Polaris-7B에 대해 소개한다.

2025년 6월 27일 오전 7시 00분
EmbodiedGen: 현실적인 탈바꿈 AI 시뮬레이션을 위한 확장 가능한 3D 월드 생성기

Embodied AI의 3D 환경을 확장하는 과제. 현실적이고 정확한 3D 환경은 Embodied AI의 교육과 평가에 중요하다. 현재의 방법은 비용이 많이 들고 현실감이 부족해 확장성과 일반화를 제한한다. EmbodiedGen은 이러한 문제를 해결하기 위해 개발되었다.

2025년 6월 22일 오후 4시 18분
NBA 결승전 중 AI로 만들어진 광고 방영, 제작 비용 95% 절감

AI 필름 제작자와 첨단 생성 비디오 모델이 협력하여 국내 TV 광고를 제작하고, 제작 비용을 95% 절감했다. 광고와 AI 분야에 있어서 의미 있는 순간.

2025년 6월 15일 오전 1시 02분
Anthropic, 클로드 오퍼스 4 및 클로드 소넷 4 출시: 추론, 코딩 및 AI 에이전트 디자인에서의 기술적 도약

Anthropic이 새로운 언어 모델인 클로드 오퍼스 4와 클로드 소넷 4를 출시했다. 이 업데이트는 클로드 모델 패밀리의 기술적 세련성을 대폭 향상시켰는데, 특히 구조화된 추론, 소프트웨어 엔지니어링 및 자율 에이전트 행동과 관련된 영역에서 주목할만한 발전을 이루었다.

2025년 5월 22일 오후 2시 11분
Technology Innovation Institute TII, Falcon-H1: 확장 가능하고 다국어 및 장문맥 이해를 위한 하이브리드 트랜스포머-SSM 언어 모델 발표

언어 모델의 구조적 트레이드오프를 다루는 기술. 트랜스포머 아키텍처의 성능과 효율성을 균형 있게 유지하면서 장문맥 시나리오에서의 계산 복잡성을 줄이는 방법에 대한 논의.

2025년 5월 22일 오전 2시 49분
데이터 없이 샘플링이 이제 확장 가능해졌습니다: Meta AI, 보상 주도적 생성 모델링을 위한 역순 샘플링 출시

기존 생성 모델은 대규모 고품질 데이터셋에 의존하는데, Meta AI가 발표한 역순 샘플링 기술은 이를 극복하고 데이터 부족 상황에서도 보상 주도적 생성 모델링을 가능하게 합니다.

2025년 5월 21일 오전 3시 06분
구글 AI, 오프라인 오디오 및 원활한 소스 통합을 갖춘 독립형 NotebookLM 모바일 앱 출시

구글이 NotebookLM 모바일 앱을 출시했다. 이 앱은 사용자의 포켓으로 맞춤 학습과 콘텐츠 통합을 제공하며 이동성, 문맥 인식 및 상호 작용 기능을 결합한 새로운 기능을 소개했다.

2025년 5월 20일 오전 3시 08분
Omni-R1: 텍스트 주도 강화 학습과 자동 생성 데이터를 활용한 오디오 질문 응답 발전

연구는 강화 학습이 LLM의 추론 능력을 향상시킬 수 있다는 최근 발전을 기반으로, 오디오 LLMs를 개선하는 것을 목표로 한다. MMAU 벤치마크는 소리, 음성에 관한 객관식 질문을 포함한 데이터셋으로 이 모델들을 평가하는 데 사용된다.

2025년 5월 19일 오후 8시 29분
Stability AI, Adversarial Relativistic-Contrastive (ARC) 후 훈련 및 안정적인 오디오 오픈 스몰 소개: 다양하고 효율적인 텍스트에서 오디오 생성을 위한 다양한 방법

텍스트에서 오디오 생성 기술이 음악 제작, 게임, 가상 경험 등에서 혁신적인 방법으로 부각되고 있으며, 이 기술은 일반적으로 확산 또는 정류된 플로우와 같은 가우시안 플로우 기반 기법을 활용하여 구조화된 오디오로의 점진적인 전환 단계를 모델링한다.

2025년 5월 15일 오후 2시 31분
소프트웨어 문제 정확하고 확장 가능한 위치 파악을 위한 Salesforce AI의 SWERank가 비용 효율적인 대안으로 등장

소프트웨어 문제의 정확한 위치를 식별하는 것은 개발 생애주기에서 가장 인력 집약적인 작업 중 하나이다. 자동화된 패치 생성과 코드 어시스턴트의 발전에도 불구하고, 코드베이스에서 변경이 필요한 위치를 파악하는 프로세스는 종종 수정 방법보다 더 많은 시간을 소비한다.

2025년 5월 14일 오전 2시 53분
NVIDIA AI, 오디오-SDS 소개: 특별한 데이터셋 없이 프롬프트 안내 오디오 합성 및 소스 분리를위한 통합 확산 기반 프레임워크

NVIDIA AI는 오디오 확산 모델을 도입하여 텍스트에서 3D 및 이미지 편집을 지원한 Score Distillation Sampling (SDS)을 활용해 오디오 합성 및 소스 분리 작업을 효율적으로 수행한다. 특별한 데이터셋이 필요하지 않고 명시적이고 해석 가능한 매개변수를 조정할 수 있는 모델이 필요한데, 이를 통해 음악, 효과음 등의 고품질 소리를 생성할 수 있다.

2025년 5월 12일 오전 2시 09분
바이트댄스, 딥 연구 자동화를 위한 모듈화된 멀티 에이전트 프레임워크 DeerFlow 오픈소스화

바이트댄스가 DeerFlow를 공개했는데, 이는 대형 언어 모델(Large Language Models)의 기능을 도메인별 도구와 통합하여 복잡한 연구 워크플로우를 향상시키는 오픈소스 멀티 에이전트 프레임워크이다. DeerFlow는 LangChain과 LangGraph 위에 구축되어 정보 검색부터 다중 모달 콘텐츠 생성까지 협력적인 인간 중심 환경에서 고급 연구 작업을 자동화하는 구조화된, 확장 가능한 플랫폼을 제공한다.

2025년 5월 10일 오전 2시 02분
GPU를 사용하지 않는 기업용 AI: Salesforce의 xGen-small은 맥락, 비용 및 개인정보 보호를 최적화합니다

기업 환경에서의 언어 처리는 점점 다양한 소스에서 정보를 종합해야 하는 문제에 직면하고 있습니다. 최근 대형 언어 모델의 발전은 놀라운 능력을 제공하지만, 매우 높은 비용, 하드웨어 업그레이드 요구와 같은 부작용도 동반됩니다.

2025년 5월 10일 오전 12시 34분
Ming-Lite-Uni: 텍스트와 비전을 통합하기 위해 설계된 오픈소스 AI 프레임워크

Ming-Lite-Uni는 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 이해하고 생성하는 멀티모달 AI 시스템을 구축하는 데 사용되는 오픈소스 프레임워크이다. 이는 다양한 상호작용 형식을 통해 보다 원활한 인간-인공지능 커뮤니케이션을 가능하게 한다.

2025년 5월 9일 오전 2시 26분
바이트댄스, LLM 사전 훈련에서 데이터 품질과 다양성을 위한 통합 AI 프레임워크 ‘QuaDMix’ 소개

대형 언어 모델의 사전 훈련 효율과 일반화는 기본 훈련 말뭉치의 품질과 다양성에 크게 영향을 받는다. 전통적인 데이터 정제 파이프라인은 종종 품질 필터링 다음에 도메인 균형을 적용하여 품질과 다양성을 분리된 목표로 취급한다. 이러한 순차적 최적화는 이러한 요소들 간의 복잡한 상호 의존성을 간과한다. 고품질 데이터셋은 종종…

2025년 4월 27일 오전 2시 16분
Meta AI가 Perception Language Model (PLM)을 발표: 도전적인 시각 인식 작업 해결을 위한 오픈 및 재현 가능한 비전-언어 모델

Meta AI가 Perception Language Model (PLM)을 발표했다. 이 모델은 도전적인 시각 인식 작업을 해결하기 위한 오픈 및 재현 가능한 비전-언어 모델로, 과학적 투명성과 재현성을 높이는 데 기여한다.

2025년 4월 18일 오후 8시 23분
Firecrawl Playground의 심층 안내: 스마터 웹 데이터 추출을 위한 스크래핑, 크롤링, 맵, 추출 기능 탐색

Firecrawl Playground은 사용자 친화적 인터페이스로 웹 데이터 추출 및 스트리밍을 간소화하며, 개발자와 데이터 전문가들이 다양한 추출 방법을 통해 API 응답을 탐색하고 미리 볼 수 있게 합니다.

2025년 4월 18일 오후 5시 59분