구글이 캐글과 코랩 사이의 간극을 메우기 위해 새로운 기능인 코랩 데이터 익스플로러를 출시했다. 이를 통해 노트북 내에서 캐글 데이터셋, 모델, 대회를 검색하고 편집기를 벗어나지 않고 캐글허브를 통해 가져올 수 있다.
최신뉴스 전체보기
Panel을 활용해 고급 다중 페이지 인터랙티브 대시 보드를 만드는 튜토리얼. 각 구성 요소를 통해 합성 데이터 생성, 풍부한 필터 적용, 동적 시계열 트렌드 시각화, 세그먼트 및 지역 비교, 그리고 실시간 KPI 업데이트 시뮬레이션 방법을 탐구한다.

메타 AI 연구원들이 소개한 매트릭스는 현대 AI 모델을 위해 합성 데이터를 신선하고 다양하게 유지하는 방법을 제시하는데, 단일 조율 파이프라인을 병목 현상으로 만들지 않고, 분산된 대기열을 통해 메시지로 직렬화된 제어와 데이터 흐름을 구현한 분산 프레임워크이다.

NVIDIA 연구진이 ToolOrchestra를 발표했습니다. 이는 각 작업 단계마다 올바른 모델 또는 도구를 선택하는 AI 시스템을 어떻게 학습시킬 수 있는지에 대한 혁신적인 방법입니다.
Tinygrad를 사용하여 텐서, 오토그래드, 어텐션 메커니즘 및 트랜스포머 구조를 완전히 손으로 만들어보는 튜토리얼. 기본 텐서 작업부터 멀티헤드 어텐션, 트랜스포머 블록, 미니-GPT 모델까지 순차적으로 구축하면서 Tinygrad의 간결함을 관찰한다.

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.

NVIDIA는 하나의 탄력 있는 모델로 여러 크기의 모델을 생성할 수 있게 하여 AI 개발팀이 여러 대규모 언어 모델을 훈련하고 저장할 필요성을 없앴다. NVIDIA AI팀은 Nemotron-Elastic-12B를 발표했는데, 이는 12B 파라미터 추론 모델로, 추가 훈련 비용 없이 6B, 9B, 12B 변형을 제공한다.
Opik를 사용하여 LLM 파이프라인을 구축, 추적 및 평가하는 완전한 워크플로우를 구현하는 튜토리얼. 경량 모델로 시작하여 프롬프트 기반 계획 추가, 데이터셋 생성 및 자동화된 평가 실행까지 구조화된 시스템을 단계별로 진행하며 Opik가 각 함수 스팬을 추적하는 방법을 확인합니다.

Meta AI 팀이 Meta Segment Anything Model 3 또는 SAM 3을 공개했다. SAM 3은 간단한 프롬프트를 사용하여 대규모 이미지 및 비디오 컬렉션에서 모든 개념의 인스턴스를 신뢰성 있게 찾고 세분화하고 추적하는 데 사용되는 통합 기본 모델이다.

xAI의 최신 대형 언어 모델인 Grok 4.1은 인간들에게 감정적으로 지능적이고 신뢰할 수 있는 AI 어시스턴트를 구축하는 방법을 제시한다. 이 모델은 모든 사용자에게 이용 가능하며, 감정 지능을 향상시키고 환각을 줄이며 안전 제어를 강화한다.

Cerebras가 MiniMax-M2-REAP-162B-A10B를 발표했다. 이 모델은 MiniMax-M2에서 파생된 압축된 희소 Mixture-of-Experts (SMoE) 인과 언어 모델로, Router 가중 전문가 활성화 가지치기(REAP) 방법을 사용하여 전문가를 가지치기하고 코딩 에이전트 및 도구와 같은 배포 중심 워크로드의 메모리를 줄였다.

Prior Labs가 TabPFN-2.5를 발표했다. 이는 탭피에프엔의 규모와 속도를 높여준다. 금융, 의료, 에너지 및 산업팀은 행과 열의 테이블로 작업하며, 이 모델은 50,000개 샘플과 2,000개 피처로 학습 범위를 확장한다.

Moonshot AI사가 Kimi K2 Thinking을 공개했다. 이 모델은 Kimi K2 Mixture of Experts 아키텍처의 전체 추론 스트림을 노출하는 오픈 소스 사고 에이전트 모델로, 깊은 추론이 필요한 작업을 대상으로 한다.
이 튜토리얼에서는 Meta Research가 개발하고 오픈 소스로 공개한 고급 구성 관리 프레임워크 인 하이드라를 탐색합니다. Python 데이터 클래스를 사용하여 구조화된 구성을 정의하여 실험 매개변수를 깔끔하고 모듈식으로 관리하고 재현 가능하게 합니다. 튜토리얼을 진행하면서 구성을 구성하고 런타임 오버라이드를 적용하고 시뮬레이션합니다.

Microsoft AI 팀이 출시한 ‘에이전트 라이트닝’은 기존 AI 에이전트 스택을 변경하지 않고도 강화 학습을 통해 정책 LLM을 개선하는 데 도와주는 오픈소스 프레임워크이다. 훈련과 실행을 분리하여 강화 학습을 모든 AI 에이전트에 대해 가능케 한다.

미니맥스팀이 코딩과 에이전트 워크플로에 최적화된 전문가 모델인 MiniMax-M2를 공개했다. 이 모델은 최대 모델 비용의 일부분으로 오랜 기간 동안 MCP, 쉘, 브라우저, 검색 및 코드 작업을 지원한다.

대형 언어 모델(Large Language Models, LLMs)은 여러 매개변수를 제공하여 행동을 세밀하게 조정하고 응답 생성 방식을 제어할 수 있습니다. 이 튜토리얼에서는 max_completion_tokens, temperature, top_p, presence_penalty 등 일반적으로 사용되는 몇 가지 매개변수를 살펴봅니다.
PokeeResearch-7B는 7B 파라미터 딥 리서치 에이전트로, 쿼리를 분해하고 검색 및 읽기 호출을 실행하며 후보 답변을 확인한 후 여러 리서치 스레드를 최종 응답으로 합성하는 기능을 제공한다. 에이전트는 연구 및 검증 루프를 실행한다.
VISTA는 추론 중에 텍스트에서 비디오 생성을 개선하는 다중 에이전트 프레임워크로, 구조화된 프롬프트를 장면으로 계획하고 최고의 후보를 선택하기 위해 페어와이즈 토너먼트를 실행하며 시각, 음향, 문맥에 걸쳐 특화된 심사위원을 활용하고 깊은 사고 프롬프팅 에이전트로 프롬프트를 다시 작성합니다.
강화 학습 RL 후 훈련은 이제 추론 중심 LLMs에 대한 주요 수단이지만, 사전 훈련과 달리 예측 가능한 스케일링 규칙이 없었습니다. Meta, UT Austin, UCL, Berkeley, Harvard 등의 연구진이 시그모이드 스케일링 곡선을 도입하여 이 문제를 해결했습니다.
이 튜토리얼에서는 도구 문서를 표준화된 호출 인터페이스로 변환하고 중앙 시스템에 등록한 후 자동화된 파이프라인의 일부로 실행하는 효율적인 프레임워크를 구축하는 방법을 보여줍니다.
Qualifire AI가 Rogue를 공개했는데, 이는 AI 에이전트의 성능을 평가하는 파이썬 프레임워크로, 기존 QA 방법론의 한계를 극복하고 개발팀이 믿고 릴리스를 관리할 수 있도록 도와준다.
Meta Superintelligence Labs가 제안한 ‘Early Experience’는 보상 없이 에이전트를 훈련하는 새로운 방법으로, 언어 에이전트의 정책 학습을 개선하며 모방 학습을 능가하는 것으로 나타났습니다.
이 튜토리얼에서는 파이썬의 강력한 테스트 프레임워크 중 하나인 PyTest의 고급 기능을 탐구합니다. 픽스처, 마커, 플러그인, 매개변수화 및 사용자 정의 구성을 보여주는 완전한 미니 프로젝트를 처음부터 구축합니다. PyTest가 단순한 테스트 러너에서 현실 세계의 견고하고 확장 가능한 시스템으로 어떻게 진화하는지에 초점을 맞춥니다.
NVIDIA AI가 강화 학습 사전 학습(RLP)을 소개했습니다. 이는 후속 학습이 아닌 사전 학습 단계에서 강화 학습을 적용하는 교육 목표입니다. 강화 학습을 다음 토큰 예측 전에 샘플링된 작업으로 취급하고 정보 획득에 대한 보상으로 보상합니다.
Skala는 Kohn-Sham 밀도 기능 이론(DFT)을 위한 딥러닝 교환-상관 기능으로, 반 하이브리드 수준 정확도를 반 공간 비용에서 달성한다. W4-17에서 MAE는 약 1.06 kcal/mol(단일 참조 하위집합에서 0.85), WTMAD-2는 약 3.89 kcal/mol이다. 주요 분자화학에 적합하며 D3(BJ) 분산 보정을 사용한다.
상하이교통대학교 및 SII Generative AI Research Lab (GAIR)의 연구진은 LIMI (“Less Is More for Agency”)라는 감독 세부 조정 방법을 제안하며, 기본 모델을 78개의 샘플을 사용하여 능숙한 소프트웨어/연구 에이전트로 변환합니다.
Zhipu AI가 GLM-4.6을 출시했다. 이 모델은 에이전틱 워크플로, 장기 맥락 추론, 실용적 코딩 작업에 초점을 맞추고 있으며, 입력 창을 20만 토큰으로 확장하고 12만 8천 토큰의 최대 출력을 제공한다. 이번 업데이트는 실용적 작업에서 효율적인 토큰 사용을 목표로 하며 로컬 배포를 위한 오픈 가중치도 함께 제공된다.
OpenAI는 물리적 타당성, 다중 샷 제어, 동기화된 대화/SFX에 중점을 둔 텍스트-비디오-오디오 모델인 Sora 2를 출시했다. 미국과 캐나다를 대상으로 한 동의 게이트 Sora iOS 앱을 출시하여 소셜 크리에이션, 리믹싱, 검증된 유사성 삽입을 허용한다.
oLLM은 Huggingface Transformers와 PyTorch 기반의 가벼운 Python 라이브러리로, NVIDIA GPU에서 대규모 컨텍스트 Transformers를 빠른 지역 SSD로 가중치와 KV-캐시를 공격적으로 오프로드하여 실행합니다. 이 프로젝트는 오프라인, 단일 GPU 워크로드를 대상으로 하며 명시적으로 양자화를 피하며 FP16/BF16 가중치를 사용합니다.
이 튜토리얼에서는 Dash, Plotly 및 Bootstrap을 사용하여 고급 대화형 대시보드를 구축하는 방법을 설명합니다. 이 도구들이 레이아웃 및 시각화를 설계하는 데 어떻게 도움을 주고, Dash의 콜백 메커니즘이 컨트롤을 출력에 연결하여 실시간으로 응답 할 수 있도록 하는 방법을 강조합니다.
구글 DeepMind의 Gemini Robotics 1.5는 하이-레벨 신체적 추론과 로우-레벨 시각 운동을 위한 두 가지 모델로 분리하여, 연구자처럼 계획하고 장면을 이해하며 로봇 간 동작을 전달할 수 있다고 말합니다.
AI 애플리케이션에서 성능은 중요하다. 대형 언어 모델(Large Language Models, LLM)을 사용할 때 API 응답이나 I/O 작업을 기다리는 시간이 많이 소요된다. 이때 asyncio가 도움이 된다. 많은 개발자들이 LLM을 사용하면서 asyncio를 사용하고 있다.
알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.
Sakana AI가 과학 및 공학 문제를 위해 프로그램을 진화시키기 위해 대형 언어 모델(LLMs)을 사용하는 오픈 소스 프레임워크인 ShinkaEvolve를 공개했다. 평균적인 해를 얻기 위해 필요한 평가 횟수를 현저히 줄이면서 새로운 SOTA를 보고했다.
알리바바가 Qwen3-Max를 발표했는데, 이는 조합 전문가(MoE) 모델로, Qwen Chat 및 알리바바 클라우드의 Model Studio API를 통해 즉시 공개되었다. Qwen의 2025년 출시 일정을 미리보기에서 생산까지 이동시키며, Qwen3-Max-Instruct와 Qwen3-Max-Thinking 두 가지 변형에 초점을 맞추고 있다.
알리바바의 큐윈 팀이 새로운 Qwen3-Next-80B-A3B 모델을 위한 FP8-양자화된 체크포인트를 공개했으며, Instruct 및 Thinking 두 가지 후 학습 변형으로 고성능 추론을 위해 설계되었습니다. 이 FP8 레포지토리는 BF16 릴리스를 반영하지만 “미세한 FP8” 가중치와 sglang 및 vLLM 신변 배포 노트가 포장되어 있습니다.
IBM과 ETH 취리히의 연구진은 아날로그 퍼운데이션 모델(AFMs)을 발표했는데, 이 모델은 대형 언어 모델(LLMs)과 아날로그 인메모리 컴퓨팅(AIMC) 하드웨어 사이의 간극을 메우는 데 사용된다. AIMC는 효율성 측면에서 혁명적인 발전을 약속하며, 임베디드나 엣지 디바이스에 적합한 작은 공간에서 십억 개의 파라미터를 가진 모델을 실행할 수 있다.
xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.
Qwen이 Qwen3-ASR-Toolkit을 출시했습니다. 이는 Qwen3-ASR-Flash API의 3분/10MB 제한을 우회하기 위해 VAD 인식 청킹, 병렬 API 호출, FFmpeg를 통한 자동 재샘플링/포맷 정규화를 수행하여 안정적이고 시간 기준의 전사 파이프라인을 제공합니다. Python ≥3.8이 필요하며, 설치 방법은 공식 사이트에서 확인할 수 있습니다.
실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.
AI 에이전트는 단순히 답변을 내뱉는 챗봇이 아닙니다. 실시간으로 협업하며 대시보드를 업데이트하고 API를 호출할 수 있는 복잡한 시스템으로 진화하고 있습니다. 하지만 에이전트가 사용자 인터페이스와 대화하는 방법은 무엇이어야 하는가? 이를 위한 AG-UI 프로토콜이 소개되었습니다.
알리바바의 통이 랩이 통이-딥리서치-30B-A3B를 오픈소스로 공개했다. 이 모델은 웹 도구를 활용한 장기, 심층 정보탐색을 위해 구축된 에이전트 특화 대형 언어 모델로, 약 30.5B의 총 파라미터와 토큰당 약 3-3.3B의 활성 파라미터를 사용하여 강력한 추론 성능을 유지하면서 고 처리량을 가능케 한다. ReAct 스타일 하의 멀티턴 연구 워크플로우를 대상으로 한다.
IBM이 그래나이트 독링 258M을 공개했다. 이는 엔드 투 엔드 문서 변환을 위해 설계된 오픈소스 비전-언어 모델로, 레이아웃-정확한 추출을 목표로 함. 테이블, 코드, 수식, 목록, 캡션 및 읽기 순서를 처리하여 손실이 적은 Markdown이 아닌 구조화된 기계 판독 가능한 표현을 출력함.
이 튜토리얼에서는 프로모터 예측, 스플라이스 사이트 감지, 규제 요소 식별 등과 같은 실제 생물학적 작업을 시뮬레이션하는 DNA 서열 분류를 위한 고급 합성곱 신경망을 구축하는 방법을 다룹니다. 원-핫 인코딩, 다중 스케일 합성곱 레이어 및 주목 메커니즘을 결합하여 모델을 설계합니다.
음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.
새로운 다국어 인코더가 필요한 이유와 XLM-RoBERTa가 지배한 다국어 NLP 분야에서 새로운 mmBERT 모델의 소개. 인코더만으로 구성된 mmBERT 모델은 이전 모델보다 2-4배 빠르고 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용한다.
NVIDIA의 새로운 프로토타입 프레임워크 ‘UDR’은 확장 가능하고 감사 가능한 딥 리서치 에이전트를 위해 개발되었다. 기존의 딥 리서치 도구들은 제한적인 워크플로와 모델 교체, 도메인별 프로토콜 적용이 어려운 문제점을 가지고 있었는데, ‘UDR’은 이러한 제약을 극복하고자 한다.
바이두 AI 연구팀이 효율성, 장기적 논리 추론, 도구 통합을 중심으로 설계된 새로운 ERNIE-4.5-21B-A3B-Thinking을 발표했다. 이 모델은 21B 총 매개변수를 가지고 있지만 토큰 당 활성 매개변수는 3B뿐으로, 계산 효율성을 유지하면서 경쟁력 있는 논리 능력을 갖추고 있다.
메타 초지능 연구소, 싱가포르 국립대학교 및 라이스 대학의 연구진이 REFRAG (REpresentation For RAG)를 발표했다. 이는 RAG 효율성을 재고하는 디코딩 프레임워크로, LLM 컨텍스트 창을 16배로 확장하고 정확도를 저해하지 않으면서 첫 번째 토큰까지의 시간을 최대 30.85배 가속화시킨다.
Resemble AI가 최근 23개 국어로 제로샷 음성 클로닝을 위한 프로덕션 급 오픈 소스 TTS 모델인 Chatterbox Multilingual을 출시했다. MIT 라이선스로 배포되어 통합 및 수정에 자유롭다. 이 모델은 Chatterbox 프레임워크를 기반으로 다국어 기능, 표현 제어, 내장형 기능을 추가했다.
의료 인공지능 분야에서 AI의 역할이 증가하고 있으며, 생물학적 문제를 해결하고 환자 데이터를 해석하는 등 복잡한 작업을 수행할 수 있는 에이전트에 대한 수요가 급증하고 있다.
구글 딥마인드 팀의 최근 연구에서, RAG 시스템의 밀집 임베딩 모델이 규모에 한계를 가지고 있음을 설명했다. 이 한계는 더 큰 모델이나 더 나은 훈련만으로 해결할 수 없는 기본적인 구조적 한계이다.
인간 시각 세계에 대한 내부 표현을 뇌가 어떻게 구축하는지 이해하는 것은 뇌과학에서 가장 매혹적인 도전 중 하나다. 최근 10년간 딥러닝은 컴퓨터 비전을 혁신하여 인간 수준의 정확도로 작업을 수행할 뿐 아니라 정보를 처리하는 방식이 우리의 것과 닮았다는 것을 보여준다.
Apple은 FastVLM을 발표했다. 이는 비교 가능한 크기의 비전 언어 모델(VLM)보다 85배 빠르고 3.4배 작다. 고해상도 이미지를 처리하는 VLM의 성능에 중요한 역할을 하는데, 높은 해상도 이미지에 대한 사전 훈련된 비전 인코더의 비효율성과 추론 실행 시의 계산 비용 증가 등이 도전 요인이다.
이 튜토리얼에서는 채팅 뿐만 아니라 기억도 할 수 있는 고급 AI 에이전트를 구축하는 방법을 안내합니다. 경량 LLM, FAISS 벡터 검색 및 요약 메커니즘을 결합하여 단기 및 장기 메모리를 만드는 방법을 보여줍니다. 임베딩 및 자동 압축된 사실들과 함께 작동하여 […]
알리바바 큐엔 팀이 GUI 자동화를 위한 다음 세대 멀티 에이전트 프레임워크인 Mobile-Agent-v3와 GUI-Owl을 발표했다. 최신 언어 모델의 발전으로 화면을 이해하고 작업을 추론하며 실행할 수 있는 에이전트의 가능성이 열렸다.
대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.
TPOT를 활용하여 기계 학습 파이프라인을 자동화하고 최적화하는 방법을 실제로 시연하는 튜토리얼. Google Colab에서 작업하여 가벼우면서 재현 가능하고 접근성이 좋도록 설정. 데이터 로드, 사용자 정의 스코어러 정의, XGBoost와 같은 고급 모델로 검색 공간을 맞춤화하는 방법, 설정하는 과정을 안내.
Meta AI와 UCSD 연구팀이 새로운 AI 방법인 Deep Think with Confidence (DeepConf)를 소개했다. 이 방법은 병렬 사고와 자아일관성 기법을 활용하여 AI 추론을 혁신하였고, AIME 2025에서 99.9%의 성과를 이루었다. 이는 오픈소스 모델 GPT-OSS-120B를 사용하는 첫 번째 사례이다.
구글의 새로운 회귀 언어 모델(RLM) 접근 방식은 복잡한 피쳐 엔지니어링이나 엄격한 테이블 형식에 의존하지 않고 대용량 언어 모델(LLMs)이 원시 텍스트 데이터에서 산업 시스템 성능을 예측할 수 있게 합니다.
Microsoft이 새로 공개한 VibeVoice-1.5B는 MIT 라이선스로 배포된 텍스트 음성(TTS) 기술의 한계를 재정의하며, 4명의 다른 화자로 최대 90분의 음성을 생성할 수 있는 유연하고 확장 가능한 모델이다.
최근 대형 언어 모델 판단력을 갖춘 AI 에이전트의 발전으로, 임상 대화, 진단 및 치료 계획이 가능해졌습니다. 그러나 개별 진단과 치료 권고는 규제가 엄격하며, 중요한 환자와 직면한 결정에 대한 책임은 라이선스를 받은 임상 의사만이 가질 수 있습니다. 전통적인 의료는 종종 계층적 감독을 사용하며, 경험 많은 의사가 임상 의사의 의사결정을 검토합니다.
데이터 주도 세계에서 데이터베이스는 모바일 앱부터 기업 시스템에 이르기까지 현대 애플리케이션의 중추를 이룬다. 다양한 데이터베이스 유형과 그 응용을 이해하는 것은 특정한 요구 사항에 맞는 적절한 시스템을 선택하는 데 중요하며, 개인 프로젝트를 구축하거나 기업 수준의 솔루션을 설계하는 경우 필수적이다.
LLM은 파라미터 수가 급증하고 MoE 디자인과 대규모 컨텍스트 길이의 널리 사용으로 급속히 발전했습니다. DeepSeek-R1, LLaMA-4, Qwen-3 같은 모델은 이제 수조 개의 파라미터에 이르며 엄청난 컴퓨팅, 메모리 대역폭, 빠른 칩 간 통신이 요구됩니다. MoE는 효율성을 향상시키지만 전문가 라우팅에서 도전을 야기하며 백만 개 이상의 토큰을 갖는 컨텍스트 창은 […]
자연어를 SQL이나 Cypher와 같은 형식적인 쿼리 언어로 변환하는 의미 파싱은 데이터베이스와 직관적으로 상호작용할 수 있게 합니다. 그러나 자연어는 모호하고 쿼리 언어는 정확성을 요구하기 때문에 모호성은 그래프 데이터베이스에서 어려운 과제입니다.
Zhipu AI가 ComputerRL을 소개했다. 본 프레임워크는 에이전트에게 복잡한 디지털 작업 환경을 탐색하고 조작할 능력을 부여하는 것을 목표로 한다. 이 혁신은 AI 에이전트 개발에서 핵심적인 도전 과제를 해결하는데, 즉 컴퓨터 에이전트와 인간이 디자인한 GUI 간의 연결 부재를 해소한다.
2025년 현재 인공지능 개발에서 PyTorch와 TensorFlow 사이의 선택은 여전히 가장 논란이 되는 문제 중 하나이다. Alfaisal 대학의 종합 조사 논문을 통해 최신 동향을 탐색하며 사용성, 성능, 배포, 생태계 고려 사항을 종합적으로 분석한다.
McKinsey의 오픈소스 파이썬 툴킷 Vizro는 몇 줄의 설정으로 멋진 대시보드를 만드는데 도움을 주며, Plotly, Dash, Pydantic 위에 구축되어 있다.
인공지능 시대에 기업은 전례 없는 기회와 복잡한 도전에 직면하고 있습니다. 최신 도구를 채택하는 것뿐만 아니라 AI가 사람, 프로세스, 플랫폼과 어떻게 통합되는지에 대해 근본적으로 재고하는 것이 성공의 열쇠입니다. 최신 연구를 바탕으로 기업 리더가 이해해야 할 11가지 AI 개념을 소개합니다.
Rutgers 대학 연구팀이 소개한 ReaGAN은 각 노드를 독립적인 추론 에이전트로 재구상하는 그래프 에이전트 네트워크로, 그래프 내 모든 노드를 인공지능 에이전트로 만들어 맞춤형 추론, 적응적 검색, 자율적 의사 결정을 가능케 한다.
Salesforce AI Research가 Moirai 2.0을 공개했다. 이는 타임 시리즈 기반 모델의 최신 진보로, 디코더 전용 트랜스포머 아키텍처 위에 구축되어 성능과 효율성에서 새로운 기준을 세우며 GIFT-Eval 벤치마크에서 1위를 차지했다.
지도된 미세 조정(SFT)은 LLMs를 새로운 작업에 적응시키는 표준 기술이지만, 종종 강화 학습(RL)에 비해 일반화에서 성능이 저하됩니다. DFT는 이 간극을 줄이는 새로운 방법을 제안합니다.
구글 AI가 UC Santa Cruz Genomics Institute와 협력하여 개발한 DeepPolisher는 염기 수준 오류를 정확하게 교정하여 유전체 조립의 정확도를 크게 향상시키는 새로운 딥러닝 도구이다. 최근 인간 판유전체 참조물을 발전시키는 데 효과적으로 활용되었다.
본문에서는 중국에서 나온 새로운 연구 논문을 소개하며, 구두 대화 모델의 실제 대화 복잡성을 다루는 능력을 평가하는 것이 중요한 도전이라고 설명하고 있다.
실제 세계에서 자율적으로 생각하고 배우고 행동할 수 있는 AI 시스템을 만들기 위해 필요한 7가지 핵심 레이어에 대한 포괄적인 프레임워크 소개.
Roboflow 감독 라이브러리를 활용하여 객체 감지 파이프라인을 구축하는 고급 튜토리얼. 실시간 객체 추적 설정, 감지 부드럽게 처리, 비디오 스트림에서 특정 지역을 모니터링하기 위해 다각형 영역 정의 등을 다룸. 프레임을 처리하면서 경계 상자, 객체 ID 등을 주석으로 달아줌.
MLE-STAR은 구글 클라우드 연구원들이 개발한 최첨단 에이전트 시스템으로, 복잡한 기계 학습 ML 파이프라인 설계와 최적화를 자동화합니다. MLE-STAR은 웹 규모 검색, 특정 코드 수정, 견고한 검사 모듈을 활용하여 기계 학습 엔지니어링 작업에서 우수한 성능을 발휘합니다.
Trackio는 머신 러닝 워크플로우에서 중요한 실험 추적을 간편하고 통찰력 있게 만들어주는 파이썬 라이브러리다. 다양한 실험 추적 솔루션들과는 달리 복잡한 설정이 필요 없으며 라이선스 비용도 없다. 사용자 데이터를 소유권이 있는 프로토콜에 가둬두지 않는다.
Apple 연구자들이 FastVLM을 소개했다. 이 모델은 비전 언어 모델에서 최신 해상도-지연-정확도 트레이드오프를 달성하는데 중요한 역할을 한다. 높은 해상도 이미지 처리에 대한 도전과 효율적인 사전 훈련 요구 등 다양한 문제를 다룬다.
MiroMind-M1은 오픈소스 파이프라인으로, 수학 문제 해결을 위한 고급 기능을 평가하는 엄격한 기준으로 자리 잡은 다단계 추론에 높은 성과를 보이고 있습니다. 기존의 프로프리어터리 모델에 비해 투명성과 재현성을 향상시키는 MiroMind-M1 시리즈가 출시되었습니다.
아마존 연구진이 뇌가 특정 작업을 위해 특수 영역을 사용하는 것과 유사하게 작업 관련 뉴런만 선택하여 추론 시간을 30% 단축하는 새로운 AI 아키텍처를 개발했다. 이 혁신적인 방법은 대규모 AI 모델이 직면한 가장 큰 문제 중 하나인 모든 요청마다 모든 뉴런을 활성화하는 데 필요한 계산 비용과 지연 시간을 해결한다.
Microsoft가 Edge에서 코파일럿 모드를 출시하면서 AI 네이티브 브라우저로 나아가며 웹 브라우징의 미래를 재정립했다. 브라우저의 새로운 가능성을 열었다.
NVIDIA의 최신 릴리스인 Llama Nemotron Super v1.5은 추론 및 에이전틱 작업에 특히 뛰어난 성능과 사용성을 제공하여 모델이 어디까지 이끌 수 있는지에 대한 경계를 넘는 AI 발전을 이끌고 있다.
의료 이미지 세분화는 현대 의료 AI의 핵심이며 질병 감지, 진행 모니터링, 맞춤형 치료 계획 등 필수적인 작업을 가능케 한다. 그러나 특히 피부과, 영상의학, 심장병학과 같은 분야에서 정확한 세분화의 필요성이 절실하다. GenSeg는 초저 데이터 환경에서 의료 이미지 세분화를 혁신하는 연구이다.
알리바바가 Qwen API를 통해 Qwen3-MT(큐언 엠티터보)를 소개했다. 이는 언어 장벽을 뛰어넘는 놀랍도록 정확하고 빠르며 유연한 최신 기계 번역 모델로, 92개 이상의 언어를 지원하며 전 세계 인구의 95% 이상을 커버한다. 최신 아키텍처, 강화 학습, 풍부한 맞춤 옵션을 활용하여 뛰어난 성능을 보여준다.
자기 회귀 비디오 생성은 영상 합성에 초점을 맞추며 공간 배열과 시간 역학의 학습된 패턴을 사용하여 프레임별로 비디오를 생성하는 것이다. 이 논문은 MM-RoPE 및 AR-DF를 활용한 Lumos-1이라는 통합 자기 회귀 비디오 생성기를 소개한다.

Allen Institute for AI가 AutoDS(자율적 발견을 통한 서프라이즈)를 소개했는데, 이는 인간이 정의한 목표나 질의에 의존하지 않고 베이지안 서프라이즈를 측정하고 찾아내는 가치 있는 가정을 자동으로 생성, 테스트 및 반복함.

구글은 Gemini 2.5 Pro, 딥 서치, 그리고 강력한 새로운 에이전틱 기능을 도입하며 검색과 상호작용하는 방식을 변화시키고, 검색 엔진을 보다 똑똑하고 맥락에 맞게 만들고 있다. 이러한 기능들은 현재 미국 사용자에게만 제한되어 있지만, 구글 검색 방식에 대대적인 변화를 암시한다.

Apple이 코드 생성을 위해 맞춤화된 7B Diffusion LLM인 DiffuCoder를 소개했다. LLMs는 대화부터 코드 생성까지 다양한 작업에서 놀라운 결과를 얻어내며 자연어 처리를 혁신시켰다.

NVIDIA의 Audio Flamingo 3 (AF3)은 기계가 소리를 이해하고 추론하는 방식에 큰 발전을 이끌어냈다. 이전 모델들은 음성을 전사하거나 오디오 클립을 분류할 수는 있었지만, AF3는 음성, 주변 소리 등을 인간과 유사한 맥락에서 해석하는 능력을 갖췄다.

다양한 데이터 유형이 혼합된 콘텐츠를 처리하는 더 지능적이고 유용한 AI 시스템 구축이 중요해지고 있다. 이 논문은 텍스트와 구조화된 테이블을 동시에 다루는 질문에 초점을 맞춘 프레임워크 TableRAG를 소개한다.

Liquid AI가 새로운 엣지 LLMs인 LFM2를 오픈소스로 공개했다. 이 모델은 2배 빠른 추론과 3배 빠른 학습 성능을 제공하며, 컨볼루션과 어텐션 블록을 혼합한 하이브리드 설계를 특징으로 한다. 350M, 700M, 1.2B 파라미터 크기의 세 가지 모델이 제공되며, 유사한 크기의 모델과 비교했을 때 우수한 성능을 보여준다.

신체화된 AI 에이전트는 물리적 또는 가상 형태로 존재하며 주변 환경과 상호 작용할 수 있는 시스템이다. 이들은 세계를 지각하고 의미 있는 행동을 취한다. 최근의 발전은 신체화가 된 AI 에이전트의 물리적 상호작용, 인간 신뢰, 인간과 유사한 학습을 향상시킨다.

컨텍스트 엔지니어링은 대형 언어 모델(LLM)에 공급되는 컨텍스트를 설계, 조직화 및 조작하는 학문을 의미하며 모델 가중치나 아키텍처를 미세 조정하는 대신 입력에 초점을 맞춥니다. 이 기술은 프롬프트, 시스템 지침, 검색된 지식, 포맷팅 및 심지어 순서 등을 최적화하여 LLM의 성능을 향상시킵니다.

Meta AI와 Washington 대학의 연구진이 ASTRO(자동 회귀 검색 가르치는 추론기)를 소개했다. Llama-3.1-70B-Instruct에서 추론을 향상시키기 위한 포스트 트레이닝 프레임워크로, 모델에 컨텍스트 내 검색 수행을 가르치는 것이 특징이다.

연구원들이 OctoThinker를 제안하여 강화 학습을 통한 복잡한 추론 작업에 대한 LLM의 발전을 제안했다. CoT 프롬프팅과 대규모 강화 학습을 결합한 LLM은 Deepseek-R1-Zero와 같은 모델이 기본 모델에 직접 RL을 적용함으로써 강한 추론 능력을 보여주었다.

타블러 기계 학습에서 벤치마킹의 중요성을 이해하고, 정형 데이터에서 패턴을 학습하는 모델을 구축하는 것에 초점을 맞추고 있습니다. 이는 정확성과 해석 가능성이 필수적인 의료 및 금융 분야에서 사용됩니다.

미시간 대학 연구진이 G-ACT를 소개했다. 이는 프로그래밍 언어 편향을 조절하기 위한 확장 가능한 기계 학습 프레임워크로, LLMs의 과학적 코드 생성에 활용될 수 있다.

MLflow는 머신러닝 라이프사이클을 관리하기 위한 강력한 오픈소스 플랫폼이다. 최근 MLflow는 대형 언어 모델(Large Language Models, LLMs)의 성능을 평가하기 위한 지원을 도입했다. 본 튜토리얼에서는 MLflow를 사용하여 LLM의 성능을 어떻게 평가하는지 살펴본다.








