2026년 3월 7일 토요일
오늘의 신문
2026년 3월 7일 토요일 오늘의 신문
OpenAI가 Codex Security를 소개했습니다. 이는 코드베이스를 분석하여 취약점을 확인하고 개발자가 수정 전에 검토할 수 있는 보안 에이전트입니다. 제품은 ChatGPT Enterprise, Business 및 Edu 고객을 대상으로 연구 미리보기로 롤아웃 중입니다.
2026년 3월 6일 오후 3시 49분
구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.
2026년 3월 6일 오후 2시 53분
본 튜토리얼에서는 Tree-of-Thoughts(TOT) 다중 분기 추론 에이전트를 처음부터 구축한다. 선형 사고 체인 대신에 여러 추론 분기를 생성하고 각 분기를 휴리스틱 평가 함수로 점수를 매기며 약한 후보를 제거하고 가장 강력한 경로만 계속 확장하는 시스템을 설계한다.
2026년 3월 5일 오후 12시 00분
이 튜토리얼에서는 EverMem-스타일의 영구적인 에이전트 OS를 구축하는 방법에 대해 알아본다. FAISS를 사용하여 짧은 기간의 대화적 맥락과 장기 기억 벡터를 결합하여 각 응답 생성 전 관련 과거 정보를 회상할 수 있게 한다. 의미 기억과 함께 SQLite에 구조화된 레코드를 저장하여 타임스탬프, 중요도 점수, 메모리 신호(선호도 등)와 같은 메타데이터를 영속화한다.
2026년 3월 4일 오후 6시 50분
Generative AI의 발전은 잠재 확산 모델(LDMs)에 많이 의존하고 있습니다. 잠재 공간으로 데이터를 압축함으로써 모델이 효과적으로 확장될 수 있습니다. 그러나 낮은 정보 밀도는 잠재 변수를 학습하기 쉽게 만들지만 재구성 품질을 희생시키는 기본적인 트레이드오프가 존재합니다.
2026년 2월 27일 오후 10시 58분
본 튜토리얼에서는 오픈 소스 instruct 모델을 활용하여 계층적 플래너 에이전트를 구축한다. 이 구조화된 다중 에이전트 아키텍처에는 플래너 에이전트, 실행자 에이전트 및 집계자 에이전트가 포함되어 있으며 각 구성 요소가 복잡한 작업을 해결하는 데 특화된 역할을 수행한다. 플래너 에이전트를 사용하여 고수준 목표를 실행 가능한 단계로 분해한다.
2026년 2월 27일 오후 9시 18분
Microsoft의 연구진은 CORPGEN을 소개했는데, 이는 계층적 계획과 메모리를 활용하여 자율형 디지털 직원을 통해 현실적인 조직 업무의 복잡성을 관리하는 데 사용되는 아키텍처에 중립적인 프레임워크이다. 기존의 AI 에이전트는 단일 작업에 대해 평가되지만, 실제 기업 환경에서는 복잡한 종속성을 가진 여러 작업을 동시에 처리해야 한다.
2026년 2월 26일 오후 7시 32분
Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 '일시적 에이전트'에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.
2026년 2월 26일 오전 3시 01분
Tailscale과 LM Studio가 LM Link를 소개했다. 이는 개인 GPU 하드웨어 자산에 암호화된 포인트 투 포인트 액세스를 제공하며, AI 개발자들에게 생산성을 높여준다.
2026년 2월 25일 오후 11시 29분
최근 ETH 취리히 연구에서, AI의 'Context Engineering'이 중요한데 AGENTS.md 파일이 너무 상세해서 코딩 에이전트가 실패하는 것으로 밝혀졌다. 산업 리더들은 AGENTS.md를 코딩 에이전트의 최종 설정 지점으로 손꼽았는데, 이 파일이 복잡한 코드베이스를 안내하는데 있어 중요한 역할을 한다.
2026년 2월 25일 오후 7시 28분
Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.
2026년 2월 25일 오전 3시 37분
이 튜토리얼에서는 asyncio를 사용하여 Practical Byzantine Fault Tolerance (PBFT) 시뮬레이터를 구현한다. 비동기 메시지 패싱, 구성 가능한 지연 및 프로토콜에서 의도적으로 벗어나는 바이잔틴 노드를 모델링하여 PBFT가 적대적 상황에서 합의를 달성하는 방법을 탐색한다.
2026년 2월 24일 오후 6시 12분
알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.
2026년 2월 24일 오후 2시 33분
구글 딥마인드 연구팀은 MARL 분야에서 진보를 위해 직관에 의존했던 기존의 방식을 변화시켜, CFR 및 PSRO와 같은 알고리즘을 수동으로 개선하는 대신 의미론적 진화를 적용하여 우수한 알고리즘 수렴을 이룩했다.
2026년 2월 24일 오전 4시 48분
최근의 언어 모델은 대규모 문맥 창으로 한 번에 처리할 수 있는 정보량을 크게 증가시켰다. 수십만 개 또는 수백만 개의 토큰을 처리할 수 있는 모델들이 등장함에 따라 검색 보완 생성(RAG)은 더 이상 필요하지 않다고 가정하기 쉽지만, 선택적 검색이 모든 데이터를 프롬프트에 넣는 것보다 더 효율적이고 신뢰할 수 있다.
2026년 2월 24일 오전 3시 07분
오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 'Shin Megami Boson'이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.
2026년 2월 21일 오후 4시 10분

최신뉴스 전체보기

Chunking vs. Tokenization: AI 텍스트 처리에서의 주요 차이점

토큰화와 청킹은 텍스트를 작은 조각으로 나누는 데 관련이 있지만, 서로 다른 목적과 규모에서 작동한다. AI 애플리케이션을 구축하는 경우 이러한 차이를 이해하는 것이 중요하다.

2025년 8월 30일 오후 5시 13분
허깅페이스 모델을 활용한 두뇌 영감을 받은 계층적 추론 AI 에이전트 구축 코딩 가이드

이 튜토리얼에서는 로컬에서 실행되는 무료 허깅페이스 모델을 사용하여 계층적 추론 모델(HRM)의 정신을 재현하고 가벼우면서도 구조화된 추론 에이전트의 설계를 안내합니다. 문제를 하위 목표로 분해하고 Python으로 해결함으로써 우리는 설계자이자 실험자 역할을 수행합니다.

2025년 8월 30일 오후 4시 11분
액센쳐 연구팀, MCP-Bench 소개: MCP 서버를 통해 복잡한 현실 세계 과제에서 LLM 에이전트를 평가하는 대규모 벤치마크

최신 대형 언어 모델(Large Language Models, LLMs)은 단순한 텍스트 생성을 넘어섰다. 현실 세계 응용 프로그램들은 이제 이러한 모델이 API, 데이터베이스, 소프트웨어 라이브러리와 같은 외부 도구를 사용하여 복잡한 과제를 해결해야 한다. 그러나 AI 에이전트가 도구 간에 계획을 세우고 추론하며 조정할 수 있는지를 어떻게 정확히 알 수 있을까?

2025년 8월 30일 오전 2시 18분
OpenAI, MCP 서버 지원 및 이미지 입력, SIP 전화 통화 지원을 포함한 고급 Speech-to-Speech 모델 및 실시간 API 기능 발표

OpenAI가 gpt-realtime과 Realtime API를 공식적으로 출시했으며 엔터프라이즈를 위한 기능을 갖춘 신속한 API를 베타에서 벗어나 발표했다. 음성 AI 기술에서 혁신적인 발전을 이루고 있지만, 의미 있는 개선 사항과 지속적인 도전 과제가 있음을 보여준다.

2025년 8월 29일 오전 4시 09분
의료 AI를 전문가가 라벨링한 데이터에 근거로: 방사선 보고서를 위한 최초의 다중 모달, 이중 언어, 문장 수준 데이터 집합에 대한 사례 연구

의료 AI의 최근 발전은 모델의 정교함뿐만 아니라 기반 데이터의 품질과 풍부함에 달려있다. Centaur.ai, Microsoft Research 및 University of Alicante의 협력으로 성과를 거둔 PadChest-GR은 최초의 다중 모달, 이중 언어, 문장 수준 데이터셋이다.

2025년 8월 28일 오후 4시 30분
Gemini, DuckDuckGo API 및 자동 보고서 작성 기능을 활용한 다단계 딥리서치 에이전트 구축 방법?

구글 콜랩에서 직접 실행되는 모듈식 딥리서치 시스템을 설계하고, 핵심 추론 엔진으로 Gemini를 구성하며, 가벼운 웹 검색을 위해 DuckDuckGo의 인스턴트 답변 API를 통합하고, 중복 처리 및 지연 처리가 있는 다단계 쿼링을 조율한다. API 호출 제한, 간결한 스니펫 구문 분석, […]

2025년 8월 28일 오후 3시 09분
호주의 대형 언어 모델 현황: 기술 평가

호주의 주요 노력인 카카룸 LLM은 호주 영어와 문화에 맞춘 주권 보장, 오픈소스 대형 언어 모델을 구축하기 위한 노력이다. 호주 특유의 유머, 속어, 법적/윤리적 규범을 이해하는 모델을 만들기 위한 목표를 가지고 있다.

2025년 8월 28일 오전 3시 09분
Nous 연구팀, 하이브리드 추론을 사용한 Hermes 4 공개

Nous 연구팀이 Hermes 4를 발표했다. 이 모델은 순수 사후 훈련 기술을 통해 선두 수준의 성능을 달성하는데, 복잡한 문제에 대한 심층 고찰이 필요할 때 모델이 표준 응답과 명시적 추론 사이를 전환할 수 있는 하이브리드 추론을 소개했다.

2025년 8월 28일 오전 1시 03분
Agentic RAG란 무엇인가? 사용 사례 및 최고의 Agentic RAG 도구들 (2025)

Agentic RAG는 대규모 언어 모델이 외부 맥락에서 결과물을 검색하고 구체화하는 전통적인 RAG의 강점과, 의사 결정 및 도구 사용을 결합한 것이다. 정적 방법과 달리, Agentic RAG는 인공지능 에이전트가 검색, 생성, 쿼리 계획, 반복적 추론을 조율하는데 특징이 있다. 이 에이전트들은 데이터 소스를 자율적으로 선택하고 쿼리를 개선하며 API/도구를 실행한다.

2025년 8월 27일 오후 6시 28분
고급 도구 사용 AI 에이전트의 코딩 구현: Semantic Kernel과 Gemini 활용

이 튜토리얼에서는 Semantic Kernel을 활용한 고급 AI 에이전트를 구축하고 Google의 Gemini 무료 모델과 결합하여 Google Colab에서 원활하게 실행합니다. Semantic Kernel 플러그인을 웹 검색, 수학 평가, 파일 I/O, 메모 작성 등의 도구로 연결하고 Gemini를 통해 구조화된 JSON 출력을 조정합니다.

2025년 8월 26일 오후 11시 36분
NVIDIA AI가 공개한 Jet-Nemotron: 추론 규모에서 98% 비용 절감을 가능케 하는 53배 빠른 하이브리드 아키텍처 언어 모델 시리즈

NVIDIA 연구자들이 대형 언어 모델 추론의 효율성 장벽을 깨고, Jet-Nemotron을 공개했는데 이 모델 시리즈는 선도적인 LLM보다 최대 53.6배 높은 생성 처리량을 제공하면서 정확도를 유지하거나 능가한다. 이는 새로운 사전 훈련을 통해 이루어진 것이 아니라는 점이 가장 중요하다.

2025년 8월 26일 오후 9시 03분
구글 AI가 Gemini 2.5 플래시 이미지를 소개: 이미지를 간단히 설명함으로써 생성하고 편집할 수 있는 새로운 모델

구글 AI는 Gemini 2.5 플래시 이미지를 공개했습니다. 이 모델은 사용자가 이미지를 설명함으로써 생성하고 편집할 수 있도록 설계되었는데, 정확하고 일관된 고품질 편집을 빠르고 광범위하게 제공하는 것이 혁신적입니다.

2025년 8월 26일 오후 3시 09분
MLE-Agent와 Ollama를 사용한 신뢰할 수 있는 엔드 투 엔드 머신러닝 파이프라인 구축하기

MLE-Agent와 Ollama를 결합하여 로컬에서 API 없이 머신러닝 워크플로우를 만드는 방법에 대한 튜토리얼. 구글 코랩에서 재현 가능한 환경을 설정하고, 합성 데이터셋을 생성한 후 에이전트를 이용해 훈련 스크립트를 작성하는 방법을 안내한다. 일반적인 실수를 방지하여 견고하게 만든다.

2025년 8월 26일 오전 12시 59분
SEA-LION v4: 동남아시아를 위한 다중언어 모델링

AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.

2025년 8월 25일 오후 12시 16분
Gemini를 활용한 작업 계획, 검색, 계산 및 자가 비판을 위한 그래프 구조 AI 에이전트 설계를 위한 완전한 코드 구현

이 튜토리얼에서는 GraphAgent 프레임워크와 Gemini 1.5 Flash 모델을 사용하여 고급 그래프 기반 AI 에이전트를 구현합니다. 각각 특정 기능을 담당하는 노드의 방향성 그래프를 정의하며, 작업 분해를 담당하는 계획자, 흐름 제어를 담당하는 라우터, 외부 증거 및 계산을 제공하는 연구 및 수학 노드가 있습니다.

2025년 8월 24일 오전 2시 07분
LLMs를 위한 JSON 프롬프팅: Python 코딩 예제로 실용적 가이드

JSON 프롬프팅은 AI 모델에 명확하고 기계가 읽을 수 있는 프롬프트를 제공하는 기술이다. 기존의 텍스트 프롬프트와는 달리 JSON 프롬프트는 요구 사항을 키-값 쌍, 배열, 중첩된 객체로 구조화하여 모호함을 없애고 정확한 청사진으로 바꾼다.

2025년 8월 23일 오후 8시 34분
Native RAG 대 Agentic RAG: 기업 AI 의사 결정을 발전시키는 접근 방식은 무엇인가?

RAG 기술은 대형 언어 모델을 실시간, 도메인 특화 지식으로 강화하는 핵심 기술로 등장했다. “Native RAG”와 “Agentic RAG”의 구현이 주를 이루고 있으며, AI 기반 정보 통합과 의사 결정 지원에서 새로운 패러다임을 제시하고 있다.

2025년 8월 22일 오후 7시 11분
DeepSeek-V3.1가 무엇이며 왜 모두가 그에 대해 이야기하는가?

중국 AI 스타트업인 DeepSeek가 최신 주력 언어 모델인 DeepSeek-V3.1을 발표했다. DeepSeek-V3의 아키텍처를 기반으로 하여 추론, 도구 사용, 코딩 성능을 중요하게 향상시켰다. 이 모델은 저렴한 비용으로 OpenAI 및 Anthropic 수준의 성능을 제공하여 급속하게 명성을 얻고 있다.

2025년 8월 21일 오전 4시 44분
DeepCode: 연구 논문과 기술 문서를 제품용 코드로 변환하는 오픈 에이전틱 코딩 플랫폼

홍콩 대학 연구진이 출시한 DeepCode는 다중 에이전트 AI 시스템을 활용하여 연구 논문 해석부터 코딩 프로세스를 자동화하는 “오픈 에이전틱 코딩” 패러다임을 제안한다.

2025년 8월 21일 오전 3시 58분
한국의 LLM 강자 만나보기: HyperClova, AX, Solar Pro, 그리고 더

한국은 대규모 언어 모델(LLM) 분야에서 중요한 혁신가로 자리매김하고 있으며 정부 투자, 기업 연구, 오픈 소스 협력을 통해 한국어 처리 및 국내 응용 프로그램에 맞는 모델을 만들고 있다. 이는 외국 AI 기술에 대한 의존성을 줄이고 데이터 개인 정보 보호를 향상시키며 의료, 교육 등의 분야를 지원한다.

2025년 8월 21일 오전 3시 31분
Liquid AI, LFM2-VL 출시: 저지연 및 장치 인식 배포용 초고속 오픈가중치 비전-언어 모델

Liquid AI사가 저지연, 장치 내 배포를 위해 최적화된 새로운 비전-언어 기반 모델인 LFM2-VL을 공식 출시했다. LFM2-VL-450M 및 LFM2-VL-1.6B 두 가지 효율적인 변형으로, 스마트폰, 노트북, 웨어러블 및 임베디드 시스템에 다중 모달 AI를 속도나 정확도를 희생하지 않고 도입하는 중요한 발전을 이루었다.

2025년 8월 20일 오후 8시 21분
ZenFlow: 대형 언어 모델 (LLM) 학습용 스톨 프리 오프로딩 엔진으로 설계된 새로운 DeepSpeed 확장판

DeepSpeed 팀이 새로운 오프로딩 엔진인 ZenFlow를 공개했습니다. 이 엔진은 대형 언어 모델 (LLM) 학습 중 발생하는 CPU로 인한 GPU 스톨 문제를 극복하기 위해 설계되었습니다. 기존 프레임워크들과는 다르게 ZenFlow는 비싼 GPU가 훈련 단계 중 대부분을 기다리는 것을 방지합니다.

2025년 8월 20일 오후 7시 52분
구글 AI, 개발자를 위한 5가지 새로운 AI 에이전트/플랫폼 공개

구글 클라우드가 최근에 개발자 작업을 간소화하고 수동 노력을 줄이며 분석 가속화하고 고급 데이터 및 코드 자동화의 진입 장벽을 낮추기 위해 설계된 다섯 가지 특화된 AI 에이전트를 공개했다. 각 에이전트는 데이터 파이프라인 조정부터 기업급 GitHub 관리까지 각각의 개발자 과제를 다룬다.

2025년 8월 20일 오후 1시 46분
Model Context Protocol (MCP)로의 이주: 어댑터-퍼스트 플레이북

Model Context Protocol (MCP)는 AI 모델을 다양한 애플리케이션, 시스템 및 도구에 연결하는 범용 표준으로 급속히 등장했습니다. MCP로의 이주는 사용자 정의 통합에 익숙한 기관들에게 기술적 부채를 줄이고 새로운 상호 운용성 혜택을 누릴 수 있는 변화를 가져올 수 있습니다.

2025년 8월 20일 오전 5시 24분
M3-Agent 만나보기: 장기 기억과 향상된 추론 능력을 갖춘 다중 모달 에이전트

미래에는 가정 로봇이 일상적인 일을 스스로 처리하고 지속적인 경험을 통해 가정 패턴을 학습할 수 있을 것으로 예상된다. 다중 모달 에이전트인 M3-Agent의 지능은 계속해서 다중 모달 센서를 통해 세계를 관찰하고, 장기 기억에 경험을 저장함으로써 이에 달려있다.

2025년 8월 19일 오후 11시 52분
Memp: LLM 기반 에이전트에서 프로시저 메모리를 핵심 최적화 대상으로 끌어올리는 작업에 중립적인 프레임워크

LLM 에이전트는 웹 연구, 보고서 작성, 데이터 분석 및 다단계 소프트웨어 워크플로우와 같은 복잡한 작업을 처리하는 데 충분히 강력해졌지만, 절차적 메모리에 어려움을 겪고 있습니다. 이 프레임워크는 프로시저 메모리를 핵심 최적화 대상으로 끌어올려 에이전트를 견고하게 만듭니다.

2025년 8월 19일 오전 4시 25분
Gemini 및 mcp-agent 프레임워크를 활용한 MCP-Powered AI 에이전트 구축: 단계별 구현 가이드

이 튜토리얼에서는 mcp-agent 및 Gemini를 활용하여 고급 AI 에이전트를 구축하는 방법을 안내합니다. 필요한 모든 종속성을 갖춘 견고한 환경을 설정한 다음 웹 검색, 데이터 분석, 코드 실행 및 날씨 정보와 같은 구조화된 서비스를 제공하는 MCP 도구 서버를 구현합니다.

2025년 8월 18일 오전 1시 25분
아마존의 새 AI 모델 스위트, DeepFleet을 만나보세요

아마존이 글로벌 충족 및 분류 센터에 백만 대의 로봇을 배치하며 세계 최대의 산업용 이동 로봇 운영자로 자리매김했다. 이 달성과 함께 DeepFleet이 출시되었는데, 이는 방대한 이동 로봇 군 사이의 조정을 향상시키기 위해 설계된 혁신적인 기초 모델 스위트이다.

2025년 8월 17일 오전 2시 17분
R-Zero: 스스로 훈련 데이터를 생성하는 완전 자율 AI 프레임워크

대형 언어 모델이 자연어 이해부터 추론 및 코드 생성까지 다양한 분야를 혁신시켰다. 그러나 그들의 추론 능력을 실제 초인간 수준으로 끌어올리는 것은 방대하고 고품질의 인간 주석이 필요한 데이터셋 때문에 제한되어 왔다. Tencent AI Seattle Lab, Washington 대학, Maryland 대학 및 […] 연구진이 자체 훈련 데이터를 생성하는 완전 자율 AI 프레임워크인 R-Zero를 개발했다.

2025년 8월 16일 오전 12시 19분
Parsl를 활용한 다중 도구 AI 에이전트 실행을 위한 지능적인 병렬 워크플로우 디자인 구현 가이드

본 튜토리얼에서는 Parsl을 사용하여 병렬 실행 능력을 활용하여 여러 계산 작업을 독립적인 Python 앱으로 실행하는 AI 에이전트 파이프라인을 구현한다. 로컬 ThreadPoolExecutor를 구성하여 동시성을 활용하고, 피보나치 계산, 소수 계산, 키워드 추출, 시뮬레이션 API 호출과 같은 특수 도구를 정의하고, 가벼운 플래너를 통해 조정한다.

2025년 8월 15일 오후 2시 27분
CoAct-1 만나보기: GUI 기반 제어와 직접적인 프로그래밍 실행을 시너지적으로 결합한 혁신적인 멀티 에이전트 시스템

CoAct-1은 GUI 조작과 동등한 코딩을 통해 복잡한 컴퓨터 작업의 효율성과 신뢰성 문제를 극복하는 혁신적인 멀티 에이전트 컴퓨터 에이전트(CUA)로, USC, Salesforce AI 및 University of Washington의 연구진이 소개했다.

2025년 8월 7일 오후 9시 46분
구글 딥마인드가 Genie 3을 소개합니다: 이전에는 없던 다양한 대화형 환경을 생성할 수 있는 일반용도의 세계 모델

구글 딥마인드가 Genie 3을 발표했습니다. 이 혁신적인 AI 시스템은 간단한 텍스트 프롬프트에서 대화형이고 물리적으로 일관된 가상 세계를 생성할 수 있습니다. 이는 세계 모델 분야에서 큰 도약을 의미하며, 환경을 이해하고 시뮬레이션하는 것뿐만 아니라 동적인 공간을 생성할 수 있습니다.

2025년 8월 7일 오전 12시 38분
OpenAI, 열풍을 일으키는 최신 오픈 가중치 LLMs 공개: gpt-oss-120B (고성능 노트북에서 실행) 및 gpt-oss-20B (휴대폰에서 실행)

OpenAI가 GPT-2 이후 처음으로 오픈 가중치 언어 모델 두 개를 공개했다. gpt-oss-120b와 gpt-oss-20b는 누구나 다운로드하고 검토하며 자신의 하드웨어에서 실행할 수 있는 모델이다. 이 런칭은 AI 세계를 바꾸는 중요한 사건으로 평가된다.

2025년 8월 5일 오후 7시 53분
Anthropic AI, LLMs의 개성 변화를 모니터링하고 제어하기 위해 Persona 벡터 소개

LLMs는 도움이 되고 무해하며 정직한 보조자 페르소나를 제공하는 대화형 인터페이스를 통해 배포된다. 그러나 LLMs는 훈련 및 배포 단계 전체에서 일관된 성격 특성을 유지하지 못한다. LLMs는 다양한 프롬프트 전략이나 문맥적 입력에 노출될 때 드라마틱하고 예측할 수 없는 페르소나 변화를 보인다. 훈련 과정은 의도하지 않은 성격 변화를 일으킬 수도 있다.

2025년 8월 5일 오후 6시 47분
Microsoft AutoGen 및 Gemini API를 활용한 다중 에이전트 대화형 AI 프레임워크 구축

이 튜토리얼에서는 Microsoft AutoGen을 Google의 무료 Gemini API와 통합하여 LiteLLM을 사용하여 Google Colab에서 원활하게 실행되는 강력한 다중 에이전트 대화형 AI 프레임워크를 구축하는 방법을 살펴봅니다. 환경 설정, AutoGen과 Gemini의 호환성 구성, 특화된 에이전트 팀 구축 과정을 안내합니다.

2025년 8월 5일 오전 2시 51분
앤써픽이 기업 AI 경쟁에서 오픈AI를 앞서가는 방법

앤써픽의 클로드가 기업 AI 시장에서 오픈AI를 앞선 것으로 나타났다. 앤써픽이 32%의 시장 점유율을 차지하며 오픈AI의 25%를 넘어섰다. 이는 오픈AI가 지난 해의 50%에서 급격히 하락한 것이다.

2025년 8월 4일 오전 4시 38분
Falcon LLM 팀이 Falcon-H1 기술 보고서를 발표: 70B LLM과 견줄만한 하이브리드 어텐션-SSM 모델

Falcon-H1 시리즈는 대형 언어 모델의 진화에서 중요한 발전을 이룬다. Transformer 기반 어텐션과 Mamba 기반 상태 공간 모델 (SSM)을 하이브리드 병렬 구성으로 통합하여 Falcon-H1은 우수한 성능, 메모리 효율성 및 확장성을 달성한다. 다양한 크기로 출시되며 0.5B~34B 파라미터를 제공한다.

2025년 8월 1일 오전 4시 36분
구글 AI, 고급 딥 리서치 에이전트를 위한 인간 중심 확산 프레임워크인 ‘테스트 타임 디퓨전 딥 리서처(TTD-DR)’ 소개

최근 LLMs의 발전으로 딥 리서치(DR) 에이전트가 연구 및 산업에서 급속히 인기를 얻었지만, 대부분의 인기 있는 공개 DR 에이전트는 인간의 사고와 쓰기 과정을 고려하여 설계되지 않았다. 이들은 종종 초안 작성, 검색, 피드백 사용과 같은 인간 연구자를 지원하는 구조화된 단계가 부족하다.

2025년 8월 1일 오전 12시 15분
TransEvalnia: LLM을 사용한 세밀하고 인간 중심의 번역 평가를 위한 프롬프팅 기반 시스템

LLM을 활용한 번역 시스템은 인간 번역가를 능가할 정도로 발전했다. 그러나 LLM이 복잡한 작업에서 발전하면서 평가도 더 어려워지고 있다. 이에 TransEvalnia는 세밀하고 인간 중심의 번역 평가를 위한 프롬프팅 기반 시스템으로 개발되었다.

2025년 8월 1일 오전 12시 06분
코그니와 무료 허깅페이스 모델을 사용하여 에이전트 메모리를 가진 지능적인 대화형 AI 에이전트 구축하는 코딩 가이드

본 튜토리얼에서는 코그니와 허깅페이스 모델을 이용하여 에이전트 메모리를 가진 고급 AI 에이전트를 구축하는 방법을 다루며, 구글 콜랩 및 기타 노트북에서 완벽하게 작동하는 완전히 무료 오픈 소스 도구를 활용합니다. 코그니를 메모리 저장 및 검색을 위해 구성하고, 응답 생성을 위한 가벼운 대화 모델을 통합하고, 모두를 통합합니다.

2025년 7월 31일 오후 7시 21분
AgentSociety: 대규모 사회 상호작용 시뮬레이션을 위한 LLM 에이전트를 활용한 오픈 소스 AI 프레임워크

AgentSociety는 대규모 에이전트 모집단을 시뮬레이션하는 첨단 오픈 소스 프레임워크로, 각각의 에이전트는 대형 언어 모델 (LLM)에 의해 구동되어 인간 사회에서 발견되는 복잡한 상호작용을 현실적으로 모델링합니다. Ray와 같은 강력한 분산 처리 기술을 활용하여 이 프로젝트는 실제로 수만 명의 활성화된 에이전트로 구성된 시뮬레이션을 달성하며, 각각의 에이전트는 자세하고 현실적인 환경에 내재되어 있습니다.

2025년 7월 31일 오후 5시 12분
Google ADK로 확장 가능한 다중 에이전트 시스템 구축 코딩 가이드

본 튜토리얼에서는 Google의 에이전트 개발 키트(ADK)의 고급 기능을 탐색하며, 특화된 역할과 도구를 갖춘 다중 에이전트 시스템을 구축합니다. 웹 연구, 수학적 계산, 데이터 분석, 콘텐츠 생성과 같은 작업에 맞춘 에이전트 생성 방법을 안내하며 Google 검색, 비동기 실행, 모듈화 아키텍처를 통합합니다.

2025년 7월 30일 오전 3시 14분
스타트업에게 안전한 Vibe 코딩인가? 실제 사용 사례를 기반으로 한 기술 위험 감사

스타트업은 한 때보다 빠르게 빌드, 이터레이션, 배포해야 합니다. Vibe 코딩은 자연어 입력으로부터 코드를 생성하여 MVP를 빠르게 출시하는 것을 약속하며, 많은 스타트업이 AI 주도 개발 환경을 탐색하고 있습니다.

2025년 7월 30일 오전 1시 18분
Rubrics as Rewards (RaR): 구조화된 다중 기준 평가 신호로 언어 모델을 교육하기 위한 강화 학습 프레임워크

Rubrics as Rewards (RaR)는 체계적이고 다중 기준을 갖는 평가 신호를 활용해 언어 모델을 교육하는 강화 학습 프레임워크이다. 명확하고 검증 가능한 결과를 갖는 과제에 대해 복잡한 추론을 수행하는 강화 학습을 통해 수학 및 코딩 분야에서 뛰어난 성능을 보이지만, 직접적인 보상 신호가 없는 모델을 교육하는 것에 도전이 존재한다.

2025년 7월 30일 오전 12시 12분
AI 시스템 보호: NVIDIA의 오픈소스 안전 레시피

대형 언어 모델이 단순 텍스트 생성기에서 계획 수립, 추론, 자율 조치가 가능한 시스템으로 진화함에 따라 능력과 관련 위험이 증가하고 있다. 기업들이 자동화를 위해 AI를 채택하면서 목표 불일치, 프롬프트 주입, 의도치 않은 행동, 데이터 누출과 같은 새로운 도전에 직면하게 된다.

2025년 7월 29일 오전 1시 58분
미국 백악관, 글로벌 AI 경쟁 주도를 위한 대담한 전략인 AI Playbook 발표

백악관이 미 AI 액션 플랜이라는 AI Playbook을 발표했는데, 이는 미국이 인공지능에 올인하고 있다는 것을 명확히 해준다. 실리콘밸리, 포춘 500 기업, 정부 기관을 이끄는 사람이든, 메시지는 명료하다: AI를 신속히 확장하고 발전시켜야 한다.

2025년 7월 27일 오후 7시 11분
Nomic 임베딩과 Gemini LLM을 활용한 맥락 인식 멀티 에이전트 AI 시스템 구축

이 튜토리얼에서는 Nomic 임베딩과 Google의 Gemini를 활용한 고급 AI 에이전트 시스템의 완전한 구현 과정을 안내합니다. 우리는 의미 기억, 맥락적 추론, 멀티 에이전트 조정을 하나의 지능적 프레임워크로 통합하는 아키텍처를 처음부터 설계합니다.

2025년 7월 27일 오후 5시 40분
복잡한 작업 자동화를 위한 다중 노드 그래프 기반 AI 에이전트 프레임워크 구축

구글 젬니 API를 활용한 고급 그래프 에이전트 프레임워크 개발 가이드. 각 노드는 입력 수행, 논리 처리, 결정 등을 나타내며 상호 연결된 구조로 작업을 실행하는 지능적인 다단계 에이전트를 구축하는 것이 목표.

2025년 7월 27일 오전 1시 35분
대규모 추론 모델의 다중 문제 추론을 평가하는 스트레스 테스트 프레임워크 REST

대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론과 같은 다양한 영역에서 복잡한 문제 해결 작업에 강력한 성능을 보여주고 있지만, 현재의 평가 방법은 주로 단일 문제 테스트에 초점을 맞추어 한계를 드러냅니다. 이 기사는 LRMs를 격리된 문제 해결 영역을 넘어서게 하는 새로운 다중 문제 스트레스 테스트 프레임워크 REST를 소개합니다.

2025년 7월 26일 오후 5시 39분
NVIDIA AI, 로봇공학을 위한 6-DOF 그라스핑을 위한 확산 기반 프레임워크인 GraspGen 발표

NVIDIA의 GraspGen은 새로운 확산 기반 그라스핑 프레임워크로, 강력하고 일반적인 6-DOF 그라스핑을 위한 SOTA 성능을 약속하며 산업 피킹부터 서비스 및 인간형 로봇까지 다양한 분야에 중요한 자동화 및 조작 작업을 제공한다.

2025년 7월 26일 오전 6시 11분
GPU 가속 Ollama LangChain 워크플로우 구축하기: RAG 에이전트, 멀티 세션 채팅 성능 모니터링

이 튜토리얼에서는 Ollama와 LangChain을 통합하는 GPU 지원 로컬 LLM 스택을 구축한다. 필요한 라이브러리를 설치하고 Ollama 서버를 실행하며 모델을 끌어와 커스텀 LangChain LLM으로 랩핑하여 온도, 토큰 제한, 컨텍스트를 제어할 수 있다. PDF 또는 텍스트를 소화하는 Retrieval-Augmented Generation 레이어를 추가한다.

2025년 7월 26일 오전 1시 58분
DualDistill 및 Agentic-R1: AI가 자연어와 도구 사용을 결합하여 우수한 수학 문제 해결 능력을 갖는 방법

최신의 장기 CoT 추론 모델은 반복적인 자가 확인과 정제를 통해 추론 궤적을 생성함으로써 수학적 추론에서 최첨단 성능을 달성했습니다. 그러나 오픈 소스 장기 CoT 모델은 자연어 추론 트레이스에만 의존하므로 계산 비용이 많이 들고 검증 메커니즘이 없어 오류가 발생할 수 있습니다. 도구 지원 추론은 대규모 숫자 계산에 대해 효율성과 신뢰성을 제공합니다.

2025년 7월 25일 오전 12시 05분
Prolog 논리와 Gemini, LangGraph를 활용한 ReAct 에이전트 도구 구축 코딩 가이드

본 튜토리얼에서는 상징적 논리와 생성적 AI를 융합하는 방법을 안내합니다. PySwip를 설정하여 Prolog 지식베이스를 포함시키고, LangChain 도구로 묶은 후, 모든 것을 ReAct-스타일의 에이전트로 연결합니다. 이 과정에서 가족 관계 규칙, 팩토리얼과 같은 수학적 술어, 리스트 유틸리티를 만들어갑니다.

2025년 7월 24일 오후 7시 08분
LSM-2를 도입한 Google 연구자들: 불완전한 웨어러블 데이터로부터 직접 학습 가능하게 함

웨어러블 기기는 건강 모니터링을 변화시키고 있지만, 센서 고장, 장치 제거, 충전, 움직임 아티팩트 등으로 데이터 손실이 발생한다. LSM-2는 이러한 불완전한 데이터로부터 직접 학습할 수 있게 해준다.

2025년 7월 24일 오전 5시 02분
2025년 확장 가능한 AI 통합을 위한 7가지 MCP 서버 베스트 프랙티스

조직이 AI 기반 워크플로에 서비스를 노출시키면서 개발 경험, 성능, 보안을 유지하기 위해 MCP 서버가 중요해졌다. 견고한 MCP 서버를 구축, 테스트, 패키징하기 위한 7가지 데이터 기반 베스트 프랙티스 소개.

2025년 7월 24일 오전 2시 45분
가벼운 Hugging Face 모델을 활용한 다재다능한 멀티툴 AI 에이전트 구축

이 튜토리얼에서는 Hugging Face transformers를 활용하여 원활하게 작동하는 소형이지만 능력있는 AI 에이전트를 설정하는 방법을 설명합니다. 대화 생성, 질의응답, 감정 분석, 웹 검색 스텁, 날씨 조회, 안전한 계산기를 하나의 Python 클래스에 통합합니다. 중요한 라이브러리만 설치하고 가벼운 모델을 로드하며 진행합니다.

2025년 7월 22일 오후 5시 43분
TikTok 연구원들, 저장소 수준 코드 성능 최적화를 위한 최초의 벤치마크 ‘SWE-Perf’ 소개

TikTok과 협력 기관의 연구원들이 소프트웨어 엔지니어링 작업에서 대형 언어 모델(LLMs)이 성능 최적화를 어떻게 하는지를 평가하는 데 특히 저장소 수준에서 처음으로 설계된 벤치마크 ‘SWE-Perf’를 소개했다.

2025년 7월 21일 오전 4시 56분
LLM 보상 모델을 신뢰할 수 있을까? 마스터-RM이 그들의 약점을 드러내고 해결한다

대규모 언어 모델(LLM)이 평가자로 작용하는 생성적 보상 모델은 검증 가능한 보상을 통한 강화 학습에서 주목받고 있다. 이 모델들은 열린 답변이나 복잡한 응답이 필요한 작업에 대해 엄격한 규칙 대신 후보 응답을 기준 답변과 비교하고 이진 피드백을 생성한다. 그러나 이러한 모델들은 일부 약점을 가지고 있는데, 이를 드러내고 해결하는 마스터-RM이 등장했다.

2025년 7월 20일 오후 7시 32분
NVIDIA AI, OpenReasoning-Nemotron 출시: DeepSeek R1 0528에서 유래된 추론 강화 LLMs 스위트

NVIDIA AI가 복잡한 추론 작업에서 뛰어난 성과를 내는 대규모 언어 모델인 OpenReasoning-Nemotron을 소개했다. 이 모델 스위트는 1.5B, 7B, 14B 및 32B 매개변수 버전으로 구성되어 있으며, 671B DeepSeek R1 0528 모델에서 추론 능력을 캡처하여 훨씬 작고 효율적인 모델로 압축했다.

2025년 7월 20일 오전 12시 38분
Deep Research Agents: LLM 기반 자율 연구 시스템의 체계적인 로드맵

리버풀 대학, 화웨이 노아아크 랩, 옥스포드 대학 및 런던 대학 연구진이 소개하는 Deep Research Agents(DR 에이전트)는 대형 언어 모델(LLM)을 기반으로 한 자율 연구 시스템으로, 동적 추론, 적응 등을 필요로 하는 복잡하고 장기적인 작업을 수행할 수 있도록 설계되었다.

2025년 7월 19일 오후 7시 20분
MemAgent: LLMs에서 장문 처리 재정의하는 강화 학습 프레임워크

MemAgent는 장문 처리를 위해 설계된 강화 학습 기반 메모리 에이전트로, LLMs에서 발생하는 성능 하락과 컴퓨팅 비용 문제를 해결하기 위해 ByteDance Seed와 Tsinghua University 연구진이 소개했다.

2025년 7월 19일 오후 6시 56분
LangGraph와 Gemini를 활용한 자동 보고를 위한 Multi-Agent AI 연구팀 구축

LangGraph와 Google의 Gemini API를 사용하여 Researcher, Analyst, Writer, Supervisor 역할을 하는 다중 에이전트 연구팀 시스템을 구축하였다. 이들 에이전트는 데이터 수집, 인사이트 분석, 보고서 요약 및 워크플로우 조정을 협업적으로 수행한다.

2025년 7월 19일 오전 3시 06분
OpenAI, 연구에서 현실 세계 자동화로 ChatGPT 에이전트 소개

2025년 7월 17일, OpenAI가 ChatGPT 에이전트를 출시하며 대화형 어시스턴트에서 웹 브라우징부터 코드 실행까지 가상 컴퓨터 환경에서 복잡한 다단계 작업을 자율적으로 수행할 수 있는 통합 AI 에이전트로 변모시켰다. ChatGPT 에이전트는 이전 두 도구를 기반으로 구축되었으며, 이전 기능들의 한계를 극복하고 있다.

2025년 7월 18일 오전 4시 00분
NeuralOS: 상호작용하는 운영 체제 인터페이스를 시뮬레이션하는 생성 프레임워크

최근 생성 모델의 발전은 컴퓨터와 상호작용하는 방식을 변화시켰으며, 사용자 경험을 더 자연스럽고 적응적이며 맞춤화된 것으로 만들고 있다. 초기 인터페이스와 명령줄 도구는 사용자가 기계에 적응해야 했지만, LLMs와 멀티모달 인공지능의 등장으로 사용자는 상호작용하고 있다.

2025년 7월 17일 오전 12시 37분
CrewAI와 Gemini로 다중 에이전트 연구 및 콘텐츠 파이프라인 구축하는 코딩 구현

본 튜토리얼에서는 CrewAI와 Google의 Gemini 모델을 사용하여 최적화된 다중 AI 에이전트 시스템을 구축하는 방법을 안내합니다. 연구, 데이터 분석, 콘텐츠 생성, 품질 보증을 위한 특화된 에이전트들을 순차적 협업에 최적화된 상태로 설치하고 구성합니다.

2025년 7월 15일 오후 5시 05분
Amazon, 개발자들을 적극적인 자동화로 능력을 갖춘 AI IDE ‘Kiro’를 출시

아마존이 새롭고 혁신적인 AI 통합 개발 환경 ‘Kiro’를 발표했다. 오늘의 AI 코딩 어시스턴트의 능력을 훨씬 뛰어넘는 Kiro는 명세 주도 개발, 지능적 자동화, 적응형 사용자 인터페이스에 혁신을 제공한다.

2025년 7월 15일 오전 3시 33분
Gemini Embedding-001 이제 사용 가능: Google API를 통한 다국어 AI 텍스트 임베딩

구글의 Gemini Embedding 텍스트 모델 gemini-embedding-001이 Gemini API와 Google AI Studio를 통해 개발자들에게 일반적으로 제공되었으며, 강력한 다국어 및 유연한 텍스트 표현 기능을 AI 생태계로 확대시켰다. 다국어 지원, 차원적 유연성 기술 명세 및 모델 성능 주요 기능 메트릭/작업 Gemini-embedding-001 레거시 구글 모델 Cohere v3.0 OpenAI-3-large MTEB (다국어) 평균 […]

2025년 7월 15일 오전 2시 55분
OpenAI 에이전트 응답 추적하기: MLFlow 활용

MLflow는 머신러닝 실험을 관리하고 추적하는 오픈소스 플랫폼이다. OpenAI Agents SDK와 함께 사용할 때 MLflow는 에이전트 응답 추적을 자동화한다. 에이전트 간의 협력이나 동적 함수 호출이 필요한 다중 에이전트 시스템을 구축할 때 유용하다.

2025년 7월 14일 오후 1시 50분
NVIDIA AI가 DiffusionRenderer를 공개: 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 위한 AI 모델

AI 기반 비디오 생성 기술이 빠르게 발전하고 있으며, NVIDIA의 DiffusionRenderer는 단일 비디오에서 편집 가능하고 사실적인 3D 장면을 생성하는 AI 모델을 소개했다. 이 모델은 놀라운 현실감을 가진 비디오를 생성하는 능력을 갖추고 있다. 그러나 이제는 전문적이고 현실적인 편집 기능이 추가되어 사용자가 비디오를 보다 전문적으로 수정할 수 있다.

2025년 7월 10일 오후 5시 25분
구글 AI가 스켈러블 다중 모달 의학 추론을 위해 MedGemma 27B와 MedSigLIP를 오픈 소스로 공개

구글 DeepMind와 구글 연구가 MedGemma 우산 아래 두 가지 새로운 모델을 소개했습니다. MedGemma 27B는 대규모 비전-언어 기반 모델이며 MedSigLIP는 가벼운 의학 이미지-텍스트 인코더입니다. 이들은 건강 인공지능 분야에서 가장 능력있는 오픈 소스 모델입니다.

2025년 7월 10일 오전 3시 35분
Salesforce AI, GTA1 출시: OpenAI의 CUA를 능가하는 테스트 시간 기반 GUI 에이전트

Salesforce AI가 새로운 GUI 에이전트인 GTA1을 소개했다. GTA1은 리눅스와 같은 OS 환경에서 자율적으로 작동하며, 모호한 작업 계획과 부정확한 행동 기반에 대한 두 가지 핵심 병목 현상을 해결한다. 45.2%의 작업 성공률을 보이며 OpenAI의 CUA를 능가한다.

2025년 7월 9일 오후 3시 43분
Hugging Face, SmolLM3 공개: 3B 길이의 다국어 추론 모델

Hugging Face가 SmolLM3을 공개했다. 3B 파라미터 아키텍처를 사용하여 강력한 다국어 추론을 제공하며 상태-of-the-art 성능을 획득하였다. 더 적은 파라미터로 비용 효율적이고 제약된 환경에서도 배포 가능하다.

2025년 7월 8일 오후 9시 04분
BeeAI 프레임워크를 활용한 지능적인 다중 에이전트 워크플로우 설계를 위한 코드 구현

BeeAI 프레임워크를 사용하여 다중 에이전트 시스템을 구축하는 방법을 탐구하는 튜토리얼. BeeAI가 지능적이고 협력적인 에이전트의 개발을 어떻게 간단하게 만드는지 보여줌.

2025년 7월 8일 오전 2시 51분
Python, OpenAI API 및 PrimisAI Nexus를 활용한 도구 지원 다중 에이전트 워크플로우 구현

본 튜토리얼에서는 PrimisAI Nexus 프레임워크를 활용하여 OpenAI API와 통합된 다중 에이전트 작업 자동화 시스템을 구축하는 방법을 소개합니다. 계층적 감독, 지능적인 도구 활용 및 구조화된 출력을 통해 여러 AI 에이전트의 협조를 통해 복잡한 작업을 수행하는 방법을 보여줍니다.

2025년 7월 7일 오후 4시 41분
더 적은 컴퓨팅으로 더 나은 코드 병합: Osmosis AI의 Osmosis-Apply-1.7B 소개

Osmosis AI가 고도로 정확하고 구조화된 코드 병합 작업을 수행하기 위해 설계된 Osmosis-Apply-1.7B를 오픈소스로 공개했다. 이 모델은 IDE 에이전트에서 영감을 받아 문맥에 민감하고 함수 수준의 코드 편집에 최적화되어 있으며, 코드 특정 포맷팅을 활용하여 더 적은 파라미터로 강력한 성능을 달성한다.

2025년 7월 7일 오전 11시 01분
ACP(Agent Communication Protocol)로 날씨 에이전트 만들기

ACP는 AI 에이전트, 애플리케이션, 인간 간 원활한 통신을 위한 오픈 표준이다. 다양한 프레임워크 및 인프라를 사용하여 개발된 AI 시스템은 종종 격리되어 호환되지 않을 수 있는데, ACP는 이러한 단절을 해소하고 통일된 RESTful API를 제공하여 협업 능력을 확장한다.

2025년 7월 6일 오후 10시 34분
SynPref-40M 및 Skywork-Reward-V2: 최첨단 보상 모델을 위한 확장 가능한 인간-인공지능 정렬

현재의 보상 모델의 한계를 이해하는 것은 중요하다. 오늘날의 최고의 모델들도 여전히 복잡한 인간 선호도의 전체 범위를 반영하는 데 어려움을 겪고 있다. 훈련 기술이 발전해도 의미 있는 진전이 제한되어있는데, 주요 이유는 모델의 한계 때문이다.

2025년 7월 6일 오후 10시 09분
Chai Discovery Team가 Chai-2를 발표: AI 모델이 De Novo 항체 디자인에서 16%의 성공률 달성

Chai Discovery Team이 Chai-2를 소개했다. 이는 제로샷 De Novo 항체 디자인을 가능케 하는 멀티모달 AI 모델로, 각각의 대상에 대해 최대 20명의 후보자를 사용하여 52가지의 신규 대상에서 16%의 성공률을 달성했다. Chai-2는 이전 방법보다 100배 이상 우수한 결과를 보여주며, 2주 미만의 시간 내에 유효한 결합체를 제공하여 대규모 스크리닝의 필요성을 없앴다.

2025년 7월 6일 오전 1시 23분
AbstRaL: LLM에 추상적 추론 가르치기, GSM 벤치마크에서 강건성 향상을 위해

작은 LLM은 강건한 추론에 어려움을 겪는데, 익숙한 문제에서는 잘 작동하지만 이름이나 숫자를 바꾸거나 관련 없는 정보를 추가하는 등 약간의 변경으로 성능이 급격히 감소하는 것이 보고되고 있다.

2025년 7월 5일 오후 8시 46분
대형 언어 모델에서 주요 추론 단계를 식별하고 측정하는 머신러닝 프레임워크: Thought Anchors

대규모 언어 모델의 핵심 추론 단계를 식별하고 측정하는 머신러닝 프레임워크인 Thought Anchors 소개. 현재 해석 도구의 한계를 이해하는데 중점을 두며, DeepSeek 및 GPT 변형과 같은 AI 모델이 복잡한 추론 작업을 처리하는 데 어려움을 겪고 있음을 설명.

2025년 7월 3일 오후 8시 48분
DeepSeek R1T2 Chimera: R1-0528보다 200% 빠르며 개선된 추론과 간결한 출력

TNG 기술 컨설팅이 새로운 AoE 모델인 DeepSeek-TNG R1T2 Chimera를 발표했다. R1-0528, R1, V3-0324 세 부모 모델로 구성된 R1T2는 전문가 계층 보간을 통해 대형 언어 모델에서 새로운 효율성을 발휘한다.

2025년 7월 3일 오전 7시 39분
바이오메드 개념 그래프 생성 및 쿼리를 위한 BioCypher 파워 AI 에이전트 구축

BioCypher AI 에이전트를 구현하여 생명 과학 지식 그래프를 구축, 쿼리 및 분석하는 튜토리얼. BioCypher의 강점과 NetworkX의 유연성을 결합하여 복잡한 생물 관계를 시뮬레이션할 수 있도록 사용자에게 권한을 부여.

2025년 7월 3일 오전 7시 07분
Together AI, Qwen3-32B를 기반으로 한 DeepSWE 출시, SWEBench에서 59% 달성

Together AI가 최신 기술인 강화학습을 통해 완전히 오픈소스로 훈련된 소프트웨어 공학 에이전트인 DeepSWE를 출시했다. Qwen3-32B 언어 모델을 기반으로 한 DeepSWE는 SWEBench-Verified 벤치마크에서 59% 정확도와 42.2% Pass@1을 달성하여 오픈 웨이트 모델 중 최고의 성과를 거뒀다.

2025년 7월 2일 오후 10시 23분
ReasonFlux-PRM: LLM에서 사고 연쇄 추론을 향상시키는 궤적 인식 보상 모델

대형 언어 모델은 논리적 사고 과정을 시뮬레이션하는 중간 단계를 통해 추론 정확도를 향상시키고 오류를 명확히 합니다. ReasonFlux-PRM은 LLM에서 이러한 사고 연쇄를 향상시키는 궤적 인식 보상 모델입니다.

2025년 7월 2일 오후 8시 42분
바이두 연구원들, 더 스마트한 정보 검색을 위한 AI 검색 패러다임 제안

최신 검색 시스템은 사용자 쿼리의 부피와 복잡성이 증가함에 따라 콘텍스트 인식 및 적응형 정보 검색 수요가 높아지고 있습니다. 이에 바이두 연구원들은 단순 키워드 일치나 문서 순위 매기기에 그치던 시스템을 넘어 계층적 추론이 필요한 사용자 쿼리에 대응하는 지능적이고 적응형 검색 엔진을 제안합니다.

2025년 7월 1일 오후 10시 14분
AutoGen 및 Semantic Kernel을 활용한 고급 Multi-Agent AI 워크플로우 구축

이 튜토리얼에서는 AutoGen과 Semantic Kernel을 Google의 Gemini Flash 모델과 원활하게 통합하는 방법을 안내합니다. GeminiWrapper 및 SemanticKernelGeminiPlugin 클래스를 설정하여 Gemini의 생성력과 AutoGen의 Multi-Agent Orchestration을 연결하는 과정부터 코드 리뷰어에서 창의적 분석가까지 다양한 전문 에이전트를 구성하는 방법을 보여줍니다.

2025년 6월 30일 오후 9시 33분
LongWriter-Zero: 합성 데이터 없이 초장문 텍스트 생성을 위한 강화 학습 프레임워크

LongWriter-Zero는 강화 학습 기반의 프레임워크로, 수천 단어에 걸쳐 있는 초장문 텍스트 생성에 도전하는 것을 소개하며, 대규모 언어 모델이 직면한 문제점들을 다루고 있다. 주요 문제로는 불일치, 주제 이탈 등이 있다.

2025년 6월 30일 오후 9시 04분
AI 에이전트를 위한 기계 학습과 통계 분석을 결합한 사용자 정의 AI 도구 구축

Python을 사용하여 LangChain으로 구동되는 AI 에이전트에 통합할 수 있는 강력하고 지능적인 데이터 분석 도구를 만드는 방법을 안내하는 튜토리얼. 사용자 입력을 위한 구조화된 스키마를 정의하고 상관 분석과 같은 주요 기능을 구현함으로써 사용자 정의 AI 에이전트를 구축하는 중요성을 강조.

2025년 6월 29일 오전 6시 03분
텐센트, 훈유안-A13B 공개: 이중 모드 추론과 256K 컨텍스트를 갖춘 13B 액티브 파라미터 MoE 모델

텐센트의 훈유안 팀이 희소 MoE 아키텍처로 구축한 새로운 오픈소스 대형 언어 모델인 훈유안-A13B를 소개했다. 이 모델은 80억 개의 총 파라미터 중 추론 중에는 13억 개만 활성화되어 성능과 계산 비용 사이에 뛰어난 효율을 제공한다. 그룹화된 쿼리 어텐션 (GQA), 256K 컨텍스트 길이 등을 지원한다.

2025년 6월 28일 오후 4시 33분
Gemini Command Line Interface (CLI)로 시작하기

Gemini CLI는 AI를 활용하여 개발자의 업무를 강화하는 강력한 명령줄 도구이다. 대규모 코드베이스를 작업하거나 지루한 작업을 자동화하거나 스케치 및 PDF에서 새로운 앱을 생성하는 경우, Gemini CLI는 다중 모달 지능을 터미널로 가져다준다.

2025년 6월 28일 오후 4시 13분
알리바바 Qwen 팀, Qwen-VLo 출시: 통합 멀티모달 이해 및 생성 모델

알리바바 Qwen 팀이 Qwen 모델 패밀리에 새로운 모델인 Qwen-VLo를 소개했습니다. 이 모델은 멀티모달 이해와 생성을 단일 프레임워크 내에서 통합하는 데 중점을 두었습니다. Qwen-VLo는 강력한 창의적 엔진으로 사용자들이 여러 언어로 텍스트, 스케치 및 명령에서 고품질 시각 콘텐츠를 생성, 편집 및 개선할 수 있도록 지원합니다.

2025년 6월 28일 오전 3시 03분
Nebius를 사용하여 Llama 3 및 실시간 추론 도구로 강력한 멀티 툴 AI 에이전트 구축하기

Nebius의 강력한 생태계를 활용하여 구축된 고급 AI 에이전트를 소개합니다. 에이전트는 Llama-3.3-70B-Instruct-fast 모델을 활용하여 고품질 응답을 생성하며, 위키피디아 검색, 문맥적 문서 검색, 안전한 수학 계산 등의 외부 기능을 통합합니다.

2025년 6월 27일 오전 3시 30분
구글 AI, 엣지 배포용으로 만들어진 소형 다중 모달 모델 ‘Gemma 3n’ 출시

구글이 엣지 디바이스에 대규모 다중 모달 AI 기능을 제공하기 위해 디자인된 Gemma 3n을 소개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 클라우드 컴퓨팅에 의존하지 않고 장치 내에서 처리하고 이해할 수 있다.

2025년 6월 27일 오전 1시 56분
MIT와 NUS 연구진, 장기적 대화 에이전트를 위한 메모리 효율적인 프레임워크 MEM1 소개

MIT와 NUS 연구진은 메모리 사용량이 폭발하는 문제 해결을 위해 장기적인 대화 에이전트를 위한 메모리 효율적인 프레임워크 MEM1을 소개했다. 기존 시스템의 문제점을 보완하여 성능 향상과 더 나은 추론을 이끌어냈다.

2025년 6월 26일 오전 3시 17분
구글 AI가 Gemini CLI를 공개: 당신의 터미널을 위한 오픈소스 AI 에이전트

구글은 Gemini CLI를 발표했는데, 이는 Gemini 2.5 Pro 모델을 터미널에 직접 통합한 오픈소스 커맨드 라인 AI 에이전트다. 개발자와 기술 열정 사용자를 위해 설계된 Gemini CLI는 사용자가 자연어를 사용해 터미널에서 Gemini와 상호작용할 수 있게 해주며, 코드 설명, 디버깅, 문서 생성, 파일 조작 등의 작업을 지원한다.

2025년 6월 26일 오전 1시 13분
BAAI, OmniGen2 출시: 멀티모달 AI를 위한 통합 디퓨전 및 트랜스포머 모델

BAAI가 OmniGen2를 소개했는데, 이는 텍스트에서 이미지 생성, 이미지 편집, 주제 중심 생성을 하나의 트랜스포머 프레임워크 내에서 통합하는 차세대 오픈소스 멀티모달 생성 모델이다. 텍스트와 이미지 생성의 모델링을 분리하고 반사적 훈련 메커니즘을 통합하며 특별히 설계된 기능을 구현함으로써 혁신을 이루었다.

2025년 6월 24일 오후 7시 21분
바이트댄스 연구원들, 프로토리즈닝 소개: 논리 기반 프로토타입을 통한 LLM 일반화 향상

바이트댄스 연구자들이 프로토리즈닝을 소개했는데, 이는 LLM(대규모 언어 모델)의 일반화를 논리 기반 프로토타입을 통해 향상시키는 것이다. 최근 LRM의 교차 도메인 추론이 중요한데, 특히 Long CoT 기술을 사용해 훈련된 모델들은 다양한 도메인에서 인상적인 일반화를 보여준다.

2025년 6월 24일 오후 5시 37분
Moonshot AI, Kimi-Researcher: 복잡한 추론과 웹 규모 검색을 위한 강화 학습 RL 훈련 에이전트 공개

Moonshot AI가 Kimi-Researcher를 발표했다. 이는 복잡한 추론과 웹 규모 검색을 위해 강화 학습으로 훈련된 에이전트이다.

2025년 6월 24일 오전 4시 34분
스탠포드 연구에 따르면 새로운 AI 프레임워크가 어디서 일자리를 자동화하고 보조해야 하는지 평가

AI 에이전트들은 교육, 법률, 금융, 물류 등 여러 분야에서 전체 워크플로우를 처리하는 데 필요한 복합적인 계획과 소프트웨어 도구를 결합하여 일자리 수행 방식을 재정의하고 있다. 스탠포드 연구에 따르면, 새로운 AI 프레임워크는 어디서 AI가 일자리를 자동화하고 어디서는 보조해야 하는지 평가할 수 있다.

2025년 6월 23일 오후 12시 11분
대화식 고객 맞닥뜨린 LLM 환각 해결

대규모 기업의 기술 리더들과의 회의 중에 발생한 LLM 환각 현상에 대한 해결책에 대해 논의하던 중에 발생한 이야기.

2025년 6월 23일 오전 2시 26분