AI Shorts 보관 - 2 중 2 번째 페이지

확률적 경사 하강법(SGD)의 빈도 편향과 Adam의 해결 방법

현대 언어 모델은 불균형한 토큰 분포로 훈련되며, 이는 최적화의 숨겨진 도전 과제를 만듭니다. 일반적인 토큰은 지속적인 기울기 업데이트를 받지만, 희귀한 토큰은 업데이트가 적어 문제를 일으킵니다.

2026년 5월 19일 오전 5시 18분

조건부 베이지안 하이퍼파라미터 최적화 파이프라인 구축하기

이 튜토리얼에서는 Hyperopt와 TPE 알고리즘을 사용하여 조건부 베이지안 하이퍼파라미터 최적화 워크플로우를 구현합니다. 다양한 모델 패밀리 간의 동적 전환을 보여주는 검색 공간을 구성합니다.

2026년 4월 21일 오후 8시 04분

CUDA에서 PrismML Bonsai 1비트 LLM 실행하기 위한 코딩 튜토리얼

이 튜토리얼에서는 GPU 가속을 활용하여 PrismML의 최적화된 GGUF 배포 스택을 사용해 Bonsai 1비트 대형 언어 모델을 효율적으로 실행하는 방법을 설명합니다.

2026년 4월 19일 오전 12시 33분

상태 기반, 차별적, 변형 테스트 설계를 활용한 속성 기반 테스트 코딩 가이드

이 튜토리얼에서는 Hypothesis를 사용한 속성 기반 테스트를 탐구하며, 전통적인 단위 테스트를 넘어서는 엄격한 테스트 파이프라인을 구축합니다. 다양한 테스트 기법을 통해 시스템의 기능적 정확성과 행동 보장을 검증합니다.

2026년 4월 18일 오후 5시 55분

마커 없는 3D 인간 운동학을 위한 코딩 가이드

이 튜토리얼에서는 Colab에서 마커 없는 3D 운동학을 이해하기 위한 Pose2Sim 파이프라인을 구축하고 실행하는 방법을 설명합니다. 환경 설정부터 시작해 다양한 단계가 포함됩니다.

2026년 4월 10일 오후 4시 14분

안전한 머신러닝 모델 배포를 위한 네 가지 전략

머신러닝 모델을 생산 환경에 배포하는 것은 ML 생애 주기에서 중요한 단계입니다. 기존 모델을 직접 교체하는 것은 위험할 수 있으며, 이를 안전하게 수행하기 위한 네 가지 전략이 소개됩니다.

2026년 3월 21일 오후 7시 02분

구글, 고성능 AI를 위한 비용 효율적인 Gemini 3.1 Flash-Lite 공개

구글이 Gemini 3.1 Flash-Lite를 공개했다. 고성능 작업에 최적화된 이 모델은 낮은 지연시간과 토큰 당 비용을 중점으로 고안되었다. 현재 Gemini API 및 Vertex AI를 통해 Public Preview로 이용 가능하다.

2026년 3월 3일 오후 1시 28분

구글 AI가 소개한 STATIC: LLM 기반 생성 검색을 위한 948배 빠른 Sparse Matrix 프레임워크

산업용 추천 시스템에서 Large Language Models (LLMs)를 활용한 Generative Retrieval (GR)이 일반적인 임베딩 기반의 검색을 대체하고 있으며, 이에 따라 엄격한 비즈니스 로직을 준수하는 STATIC 프레임워크가 속도 향상을 제공한다.

2026년 3월 1일 오후 4시 47분

Perplexity, 새로운 SOTA Qwen3 양방향 임베딩 모델 pplx-embed를 출시

Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.

2026년 2월 26일 오후 11시 01분

Microsoft Research, 자율형 AI 에이전트를 위한 다중 시계획 작업 관리 도구 CORPGEN 소개

Microsoft의 연구진은 CORPGEN을 소개했는데, 이는 계층적 계획과 메모리를 활용하여 자율형 디지털 직원을 통해 현실적인 조직 업무의 복잡성을 관리하는 데 사용되는 아키텍처에 중립적인 프레임워크이다. 기존의 AI 에이전트는 단일 작업에 대해 평가되지만, 실제 기업 환경에서는 복잡한 종속성을 가진 여러 작업을 동시에 처리해야 한다.

2026년 2월 26일 오후 7시 32분

Nous Research가 'Hermes Agent'를 발표하여 멀티레벨 메모리와 전용 원격 터미널 액세스 지원으로 AI 망각문제를 해결합니다

Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 '일시적 에이전트'에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.

2026년 2월 26일 오전 3시 01분

Liquid AI의 새로운 LFM2-24B-A2B 하이브리드 아키텍처는 최신 LLM의 확장 병목 현상을 해결하기 위해 주의와 합성을 결합함

Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.

2026년 2월 25일 오전 3시 37분

알리바바 Qwen 팀, Qwen 3.5 중간 모델 시리즈 출시: 더 작은 AI 모델이 더 똑똑함을 증명하는 생산 성능 중심

알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.

2026년 2월 24일 오후 2시 33분

팔란티어의 커뮤니티 에디션이 있을까요? 오픈플랜터를 만나보세요: 마이크로 감시용 오픈소스 재귀 인공지능 에이전트

오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 'Shin Megami Boson'이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.

2026년 2월 21일 오후 4시 10분

Tavus가 Phoenix-4를 출시: 실시간 감성 지능과 생성 비디오 AI에 서브-600ms 지연 시간을 제공하는 가우시안 확산 모델

Tavus는 Phoenix-4를 출시하여 인공적인 비디오의 최종 영역인 '거친 계곡'을 개선하려고 합니다. Phoenix-4는 인간 상호 작용의 영혼을 부족한 AI 아바타를 보완하기 위해 설계된 새로운 생성 AI 모델입니다.

2026년 2월 18일 오후 6시 12분

구글, AI 안경을 위한 새로운 Spatial UI 프레임워크 'Jetpack Compose Glimmer' 발표

구글이 투명 디스플레이를 위한 인터페이스 구축을 탐구한 결과물인 'Jetpack Compose Glimmer'를 소개했다. 이는 픽셀이 아닌 빛을 활용한 디자인 시스템으로, AI 안경을 위해 특별히 개발되었다.

2026년 2월 18일 오전 4시 02분

구글 딥마인드, 미래 경제를 위한 신흥 에이전틱 웹을 안전하게 하는 지능적 AI 위임을 위한 새로운 프레임워크 제안

구글 딥마인드 연구원들은 현재 대부분의 다중 에이전트 시스템이 환경이 변할 때 실패하는 취약한 하드 코딩 휴리스틱에 의존하고 있음을 지적하며, '에이전틱 웹'이 확장되려면 에이전트가 단순히 넘어선 더 복잡한 작업을 수행해야 한다고 주장하고 새로운 해결책을 제안했다.

2026년 2월 16일 오전 2시 04분

Moonshot AI, Kimi.com에 5,000개 커뮤니티 스킬과 40GB 클라우드 스토리지를 갖춘 Kimi Claw 공식 출시

Moonshot AI가 OpenClaw 프레임워크의 기능을 브라우저로 직접 제공하기 시작했다. 새로운 Kimi Claw는 kimi.com에서 네이티브로 제공되며 개발자와 데이터 과학자에게 지속적인 24/7 AI 에이전트 환경을 제공한다. 이 업데이트로 프로젝트가 로컬 설정에서 클라우드 네이티브 강자로 이동했다.

2026년 2월 15일 오후 3시 33분

장기 AI 추론을 위한 자기 조직화 에이전트 메모리 시스템 구축 방법

이 튜토리얼에서는, 에이전트를 위한 자기 조직화 메모리 시스템을 구축하는 방법에 대해 알아본다. 이 시스템은 대화 내용을 단순히 저장하는 것을 넘어 상호작용을 지속적이고 의미 있는 지식 단위로 구조화한다. 추론과 메모리 관리가 명확히 분리되어 있어 정보를 추출, 압축, 정리하는 전용 구성 요소를 허용한다.

2026년 2월 14일 오후 3시 00분

구글 AI가 젠파이(Gemini) 기반으로 구축된 NAI(Natively Adaptive Interfaces)를 소개합니다

구글 리서치가 Natively Adaptive Interfaces (NAI)를 통해 접근성 있는 소프트웨어 구축 방법을 제안했습니다. NAI는 다중 모달 AI 에이전트가 주 사용자 인터페이스가 되어 응용 프로그램을 실시간으로 사용자의 능력과 문맥에 맞게 적응시키는 에이전틱 프레임워크입니다.

2026년 2월 10일 오후 7시 03분

최신뉴스 전체보기

H회사가 Holo1.5를 출시: GUI 로컬라이제이션 및 UI-VQA에 중점을 둔 오픈 웨이트 컴퓨터 사용 VLMs

H 회사가 Holo1.5를 출시했다. 이는 컴퓨터 사용을 위한 오픈 기반 비전 모델로, 실제 사용자 인터페이스에 스크린샷 및 포인터/키보드 조작을 통해 작동하는 CU 에이전트를 위해 설계되었다. 3B, 7B, 72B 체크포인트가 포함되어 있으며, 크기별로 Holo1 대비 약 10% 정확도 향상이 문서화되어 있다.

2025년 9월 18일 오전 4시 14분

구글 AI, 상인과 지갑 간 상호 운용 가능한 AI 에이전트 체크아웃을 위한 오픈 프로토콜 AP2 소개

구글의 Agent Payments Protocol (AP2)은 에이전트 주도의 결제를 위한 오픈, 상호 운용 가능한 명세서로, 사용자, 에이전트 개발자 또는 상인 중 누가 책임을 져야 하는지에 대한 불신이 해결됨.

2025년 9월 16일 오후 11시 21분

대규모 데이터에 Zarr 구현하는 코딩 가이드: 청킹, 압축, 인덱싱, 시각화 기술

Zarr 라이브러리의 기능을 깊이 파헤치는 튜토리얼. 대규모 다차원 배열의 효율적인 저장 및 조작을 위해 설계된 Zarr의 기본부터 시작하여 청킹 전략 설정, 직접 디스크에서 값 수정 등의 고급 작업까지 탐색.

2025년 9월 16일 오후 7시 17분

Google AI, TimesFM-2.5 출시: GIFT-Eval에서 선두를 달리는 작고 긴 컨텍스트의 기반 모델 (제로샷 예측)

Google Research가 200M 파라미터의 TimesFM-2.5를 공개했다. 이 모델은 16K 컨텍스트 길이와 원천 확률 예측 지원을 갖추고 있으며, GIFT-Eval에서 최상의 정확성 지표(MASE, CRPS)를 기록하고 있다. 시계열 예측은 무엇인가? 시계열 예측은 [ … ]

2025년 9월 16일 오후 12시 29분

OpenAI가 GPT-5-Codex를 소개: Codex에서 Agentic 코딩을 위해 더 최적화된 GPT-5의 발전된 버전

OpenAI가 GPT-5-Codex를 발표했다. 이는 Codex 생태계 내에서 “agentic coding” 작업에 더 최적화된 GPT-5의 버전이다. 이번 업데이트의 목표는 Codex가 더 신뢰성 있고 빠르며 자율적인 행동을 보여 팀원처럼 행동할 수 있도록 하는 것이다.

2025년 9월 15일 오후 8시 43분

Meta AI가 MobileLLM-R1을 공개: 10억 개 이하의 파라미터를 가진 엣지 추론 모델이 다른 완전 오픈 소스 AI 모델보다 2배~5배의 성능 향상을 이룩

Meta가 MobileLLM-R1을 출시했습니다. 이는 Hugging Face에서 사용 가능한 가벼운 엣지 추론 모델로, 140M에서 950M의 파라미터를 가진 모델들이 포함되어 있습니다. 일반적인 챗봇 모델과는 달리 MobileLLM-R1은 엣지 배포용으로 설계되어 있어 최신 추론 정확도를 제공합니다.

2025년 9월 15일 오전 2시 34분

IBM AI 연구팀, ModernBERT 아키텍처 기반 두 개의 영어 Granite 임베딩 모델 공개

IBM은 고성능 검색 및 RAG 시스템용으로 설계된 두 개의 새로운 임베딩 모델, granite-embedding-english-r2와 granite-embedding-small-english-r2를 소개했다. 이 모델들은 효율적이고 소형이며 Apache 2.0 라이선스로 제공된다.

2025년 9월 12일 오후 11시 50분

BentoML이 llm-optimizer를 발표: LLM 추론의 벤치마킹과 최적화를 위한 오픈 소스 AI 도구

BentoML은 llm-optimizer를 출시했는데, 이는 self-hosted large language models (LLMs)의 벤치마킹과 성능 튜닝을 간소화하기 위해 설계된 오픈 소스 프레임워크이다. 이 도구는 LLM 배포에서의 최적의 구성을 찾는 것과 같은 일반적인 도전에 대처하며, 수동 시행착오 없이 지연 시간, 처리량 및 비용에 대한 최적화된 구성을 찾는 데 도움을 준다.

2025년 9월 12일 오전 3시 23분

Python을 사용하여 SpeechBrain을 활용한 음성 개선 및 자동 음성 인식 (ASR) 파이프라인 구축

이 튜토리얼에서는 SpeechBrain을 사용한 고급이면서도 실용적인 워크플로우를 안내합니다. gTTS로 자체 깨끗한 음성 샘플을 생성하고 실제 시나리오를 시뮬레이션하기 위해 음향을 의도적으로 추가한 다음 SpeechBrain의 MetricGAN+ 모델을 적용하여 오디오를 향상시킵니다. 오디오가 소음 제거되면 언어 모델-재점수화를 통해 자동 음성 인식을 실행합니다.

2025년 9월 9일 오후 11시 54분

시퀀셜 추론에서 터널 비전 극복을 위해 원시 병렬 사고로 LLM 테스트 시간 계산 확장하는 ParaThinker

LLM의 시험 시간 계산 확장은 단일 추론 경로를 확장하는 데 의존했지만, 이는 한정된 범위에서는 추론을 개선하지만 성능이 빠르게 수렴한다. 32K 이상의 토큰 예산을 증가시켜도 무의미한 정확도 향상. 이 병목 현상은 초기 토큰에서 발생.

2025년 9월 8일 오후 11시 26분

Tilde AI, TildeOpen LLM 공개: 300억개 이상의 파라미터를 가진 오픈 소스 대규모 언어 모델, 대부분의 유럽어 지원

Tilde AI가 TildeOpen LLM을 공개했다. 이 모델은 300억개 이상의 파라미터를 가지며 유럽어에 특화되어 있어 소수 언어에도 주목한다. EU 내 언어 균형과 디지털 주권을 강화하는 전략적인 발전이다.

2025년 9월 7일 오전 1시 34분

Hugging Face, 새로운 비전-언어 모델 학습용 2천400만 샘플을 포함한 멀티모달 데이터셋 FineVision 오픈 소스화

Hugging Face가 FineVision을 공개했다. 이 데이터셋은 17.3백만 개의 이미지, 24.3백만 개의 샘플, 88.9백만 개의 질문-답변 쌍, 약 100억 개의 응답 토큰을 보유하며 비전-언어 모델(VLMs) 학습을 위한 최대 규모의 구조화된 데이터셋 중 하나로 손꼽힌다.

2025년 9월 6일 오전 4시 05분

알리바바 AI, Qwen3-Max 미리보기 발표: 초고속 및 품질을 갖춘 조수 모델

알리바바의 Qwen 팀이 1조 개 이상의 파라미터를 갖춘 새로운 플래그십 대형 언어 모델인 Qwen3-Max-Preview를 발표했다. 이 모델은 Qwen Chat, 알리바바 클라우드 API, OpenRouter에서 접근 가능하며 Hugging Face의 AnyCoder 도구에서 기본으로 제공된다. 이 모델은 현재의 대형 언어 모델 환경에 어떻게 맞는지 살펴보자.

2025년 9월 6일 오전 3시 16분

구글 AI가 개인 건강 에이전트(PHA)를 소개: 개인 건강 요구를 해결하기 위해 맞춤 상호작용을 가능하게 하는 멀티 에이전트 프레임워크

구글 AI가 개인 건강 에이전트(PHA)를 소개했다. 이는 맞춤 상호작용을 통해 개인 건강 요구를 해결하는 멀티 에이전트 프레임워크로, 임상 추론, 의사 결정 지원, 소비자 건강 애플리케이션 등 다양한 영역에서 강력한 성능을 보여주고 있다.

2025년 9월 5일 오후 7시 58분

구글 AI가 대규모 언어 모델 평가를 위한 Stax 도구를 소개합니다

구글 AI가 대규모 언어 모델의 평가를 간편하게 하는 Stax를 출시했습니다. Stax는 구조화된 방법으로 모델을 평가하고 비교할 수 있어, 확률적 시스템인 언어 모델의 일관성 테스트를 간단하게 도와줍니다.

2025년 9월 2일 오후 7시 55분

의료 AI를 전문가가 라벨링한 데이터에 근거로: 방사선 보고서를 위한 최초의 다중 모달, 이중 언어, 문장 수준 데이터 집합에 대한 사례 연구

의료 AI의 최근 발전은 모델의 정교함뿐만 아니라 기반 데이터의 품질과 풍부함에 달려있다. Centaur.ai, Microsoft Research 및 University of Alicante의 협력으로 성과를 거둔 PadChest-GR은 최초의 다중 모달, 이중 언어, 문장 수준 데이터셋이다.

2025년 8월 28일 오후 4시 30분

호주의 대형 언어 모델 현황: 기술 평가

호주의 주요 노력인 카카룸 LLM은 호주 영어와 문화에 맞춘 주권 보장, 오픈소스 대형 언어 모델을 구축하기 위한 노력이다. 호주 특유의 유머, 속어, 법적/윤리적 규범을 이해하는 모델을 만들기 위한 목표를 가지고 있다.

2025년 8월 28일 오전 3시 09분

구글 AI가 Gemini 2.5 플래시 이미지를 소개: 이미지를 간단히 설명함으로써 생성하고 편집할 수 있는 새로운 모델

구글 AI는 Gemini 2.5 플래시 이미지를 공개했습니다. 이 모델은 사용자가 이미지를 설명함으로써 생성하고 편집할 수 있도록 설계되었는데, 정확하고 일관된 고품질 편집을 빠르고 광범위하게 제공하는 것이 혁신적입니다.

2025년 8월 26일 오후 3시 09분

SEA-LION v4: 동남아시아를 위한 다중언어 모델링

AI Singapore가 Google과 협력하여 개발한 SEA-LION v4는 Gemma 3 (27B) 아키텍처를 기반으로 한 오픈소스 다중언어 모델이다. 주로 동남아시아 언어를 지원하며 텍스트와 이미지 이해 능력을 제공한다. SEA-LION v4는 상용 허용 라이선스를 사용한다.

2025년 8월 25일 오후 12시 16분

LLMs를 위한 JSON 프롬프팅: Python 코딩 예제로 실용적 가이드

JSON 프롬프팅은 AI 모델에 명확하고 기계가 읽을 수 있는 프롬프트를 제공하는 기술이다. 기존의 텍스트 프롬프트와는 달리 JSON 프롬프트는 요구 사항을 키-값 쌍, 배열, 중첩된 객체로 구조화하여 모호함을 없애고 정확한 청사진으로 바꾼다.

2025년 8월 23일 오후 8시 34분

한국의 LLM 강자 만나보기: HyperClova, AX, Solar Pro, 그리고 더

한국은 대규모 언어 모델(LLM) 분야에서 중요한 혁신가로 자리매김하고 있으며 정부 투자, 기업 연구, 오픈 소스 협력을 통해 한국어 처리 및 국내 응용 프로그램에 맞는 모델을 만들고 있다. 이는 외국 AI 기술에 대한 의존성을 줄이고 데이터 개인 정보 보호를 향상시키며 의료, 교육 등의 분야를 지원한다.

2025년 8월 21일 오전 3시 31분

Liquid AI, LFM2-VL 출시: 저지연 및 장치 인식 배포용 초고속 오픈가중치 비전-언어 모델

Liquid AI사가 저지연, 장치 내 배포를 위해 최적화된 새로운 비전-언어 기반 모델인 LFM2-VL을 공식 출시했다. LFM2-VL-450M 및 LFM2-VL-1.6B 두 가지 효율적인 변형으로, 스마트폰, 노트북, 웨어러블 및 임베디드 시스템에 다중 모달 AI를 속도나 정확도를 희생하지 않고 도입하는 중요한 발전을 이루었다.

2025년 8월 20일 오후 8시 21분

Memp: LLM 기반 에이전트에서 프로시저 메모리를 핵심 최적화 대상으로 끌어올리는 작업에 중립적인 프레임워크

LLM 에이전트는 웹 연구, 보고서 작성, 데이터 분석 및 다단계 소프트웨어 워크플로우와 같은 복잡한 작업을 처리하는 데 충분히 강력해졌지만, 절차적 메모리에 어려움을 겪고 있습니다. 이 프레임워크는 프로시저 메모리를 핵심 최적화 대상으로 끌어올려 에이전트를 견고하게 만듭니다.

2025년 8월 19일 오전 4시 25분

코딩을 위한 최고의 로컬 LLMs(2025)

2025년 중반 기준으로 코딩을 위한 최고의 로컬 대형 언어 모델(LLMs)을 검토하고, 주요 모델 기능을 강조하며 로컬 배포를 쉽게 하는 도구에 대해 논의합니다.

2025년 7월 31일 오전 4시 13분

NVIDIA AI, OpenReasoning-Nemotron 출시: DeepSeek R1 0528에서 유래된 추론 강화 LLMs 스위트

NVIDIA AI가 복잡한 추론 작업에서 뛰어난 성과를 내는 대규모 언어 모델인 OpenReasoning-Nemotron을 소개했다. 이 모델 스위트는 1.5B, 7B, 14B 및 32B 매개변수 버전으로 구성되어 있으며, 671B DeepSeek R1 0528 모델에서 추론 능력을 캡처하여 훨씬 작고 효율적인 모델로 압축했다.

2025년 7월 20일 오전 12시 38분

Hugging Face, SmolLM3 공개: 3B 길이의 다국어 추론 모델

Hugging Face가 SmolLM3을 공개했다. 3B 파라미터 아키텍처를 사용하여 강력한 다국어 추론을 제공하며 상태-of-the-art 성능을 획득하였다. 더 적은 파라미터로 비용 효율적이고 제약된 환경에서도 배포 가능하다.

2025년 7월 8일 오후 9시 04분

ReasonFlux-PRM: LLM에서 사고 연쇄 추론을 향상시키는 궤적 인식 보상 모델

대형 언어 모델은 논리적 사고 과정을 시뮬레이션하는 중간 단계를 통해 추론 정확도를 향상시키고 오류를 명확히 합니다. ReasonFlux-PRM은 LLM에서 이러한 사고 연쇄를 향상시키는 궤적 인식 보상 모델입니다.

2025년 7월 2일 오후 8시 42분

알리바바 Qwen 팀, Qwen-VLo 출시: 통합 멀티모달 이해 및 생성 모델

알리바바 Qwen 팀이 Qwen 모델 패밀리에 새로운 모델인 Qwen-VLo를 소개했습니다. 이 모델은 멀티모달 이해와 생성을 단일 프레임워크 내에서 통합하는 데 중점을 두었습니다. Qwen-VLo는 강력한 창의적 엔진으로 사용자들이 여러 언어로 텍스트, 스케치 및 명령에서 고품질 시각 콘텐츠를 생성, 편집 및 개선할 수 있도록 지원합니다.

2025년 6월 28일 오전 3시 03분

구글 AI, 엣지 배포용으로 만들어진 소형 다중 모달 모델 ‘Gemma 3n’ 출시

구글이 엣지 디바이스에 대규모 다중 모달 AI 기능을 제공하기 위해 디자인된 Gemma 3n을 소개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 클라우드 컴퓨팅에 의존하지 않고 장치 내에서 처리하고 이해할 수 있다.

2025년 6월 27일 오전 1시 56분

CMU 연구진, 확장 가능한 웹 에이전트 훈련을 위한 그래프 기반 프레임워크 ‘Go-Browse’ 소개

CMU 연구진이 웹 환경을 위한 디지털 에이전트들이 동적 웹 인터페이스에 어려움을 겪는 이유와 이를 극복하기 위해 그래프 기반 프레임워크 ‘Go-Browse’를 소개했다. 이 프레임워크는 확장 가능한 웹 에이전트 훈련을 위해 개발되었으며, 웹 페이지 탐색, 클릭, 양식 제출 등의 작업을 자동화한다.

2025년 6월 24일 오전 3시 47분

DeepSeek 연구원들이 ‘nano-vLLM’이라는 개인 프로젝트를 오픈소스로 공개: 처음부터 구축된 가벼운 vLLM 구현

DeepSeek 연구자들이 ‘nano-vLLM’을 공개했다. 이는 가벼우면서도 효율적인 vLLM(가상 대형 언어 모델) 엔진의 최소주의적이고 효율적인 구현으로, 간결하고 읽기 쉬운 코드베이스에 고성능 추론 파이프라인의 본질을 응축시켰다.

2025년 6월 22일 오전 3시 26분

Mistral AI, Mistral Small 3.2 출시: AI 통합을 위한 강화된 명령 따르기, 반복 감소 및 강화된 함수 호출

Mistral AI가 Mistral Small 3.2를 출시했다. 이 버전은 반복적인 오류 최소화, 강화된 강인성, 사용자 상호작용 향상을 위해 설계되었으며 AI 모델이 더욱 복잡한 계산 작업에 필수적해지는 가운데, 실제 시나리오에 매끄럽게 통합될 수 있도록 지속적으로 업그레이드되고 있다.

2025년 6월 21일 오후 5시 31분

작은 언어 모델(SLMs)이 기계학습 AI의 효율성, 비용, 실용적 배치 재정의할 준비가 되어있다

작은 언어 모델(SLMs)이 인간과 유사한 능력과 대화 기술로 널리 존경받지만, 기계학습 AI 시스템의 성장으로 인해 반복적이고 전문화된 작업에 점점 더 활용되고 있다. 주요 IT 기업의 절반 이상이 이미 AI 에이전트를 사용하고 있으며, 상당한 자금과 예상된 투자를 받고 있다.

2025년 6월 18일 오후 1시 27분

구글, Gemini 2.5와 LangGraph를 활용한 오픈소스 풀 스택 AI 에이전트 스택 소개

대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개

2025년 6월 8일 오후 3시 56분

NVIDIA AI, Llama Nemotron Nano VL 출시: 문서 이해를 위한 최적화된 소형 Vision-Language 모델

NVIDIA가 Llama Nemotron Nano VL을 소개했다. 이는 문서 수준 이해 작업에 효율적이고 정확한 비전-언어 모델(VLM)로, 복잡한 문서 구조의 정확한 구문 분석이 필요한 애플리케이션을 대상으로 한다.

2025년 6월 4일 오전 2시 47분

세계 최대 규모의 이벤트 데이터셋 Yambda 만나보기: 추천 시스템 가속화

야н덱스가 Yambda를 공개하여 추천 시스템 연구 및 개발을 가속화하는데 기여했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하며 학술 연구와 산업 규모 응용 프로그램 간의 간극을 줄이는 데 도움이 된다.

2025년 6월 2일 오전 3시 31분

BOND 2025 AI 트렌드 보고서, 사용자 및 개발자의 채택이 급증함에 따라 AI 생태계가 이전보다 빠르게 성장

BOND의 최신 보고서는 2025년 5월의 인공지능 트렌드를 소개하며, AI 기술의 현재 상태와 급속한 발전에 대한 데이터 기반 스냅샷를 제시한다. 보고서는 AI 채택 속도, 기술적 향상, 시장 영향의 전례없는 속도를 강조하며, 주요 결과들을 살펴보고 있다.

2025년 5월 31일 오후 11시 12분

Yandex가 세계 최대 규모의 이벤트 데이터셋 Yambda를 공개하여 추천 시스템 가속화

Yandex가 세계 최대 규모의 이벤트 데이터셋 ‘Yambda’를 공개했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하여 학술 연구와 산업 규모 응용 사이의 간극을 줄이는 데 기여한다.

2025년 5월 30일 오후 4시 45분

NVIDIA, 효율적인 엣지 AI 및 과학 작업에 최적화된 Llama Nemotron Nano 4B 발표

NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.

2025년 5월 25일 오후 5시 06분

Microsoft, 개발자들이 자연어 인터페이스를 통해 웹사이트를 AI 기반 앱으로 쉽게 변환할 수 있는 오픈 프로젝트 NLWeb 출시

마이크로소프트가 NLWeb을 출시했다. 이 프로젝트는 모든 웹사이트를 자연어 인터페이스를 통해 AI 기반 앱으로 쉽게 변환할 수 있게 해준다. 기존 솔루션들은 중앙집중식이거나 기술적 전문 지식이 필요한데, 이로 인해 개발자들이 지능형 에이전트를 구현하는 데 제약이 생겼다.

2025년 5월 25일 오전 2시 25분

LLM을 활용한 어셈블리 코드 최적화: 강화 학습이 기존 컴파일러를 능가

LLM은 프로그래밍 작업에서 놀라운 능력을 보여주었지만, 프로그램 최적화에 대한 잠재력은 완전히 탐구되지 않았다. 최근의 노력 중 일부는 LLM을 사용하여 C++ 및 Python과 같은 언어의 성능을 향상시키는 데 사용되었지만, LLM을 사용하여 코드를 최적화하는 더 넓은 응용은 여전히 제한적이다.

2025년 5월 24일 오후 4시 03분

구글 딥마인드, 실시간 장치 사용을 위한 소형 고효율 다중 모달 AI 모델 ‘Gemma 3n’ 공개

Gemma 3n은 실시간 장치 사용을 위한 소형이면서 고효율적인 다중 모달 AI 모델로, 지능을 기기에 직접 통합함으로써 빠른 응답 속도를 제공하고 메모리 요구를 줄이며 사용자 프라이버시를 강화한다.

2025년 5월 22일 오전 12시 03분

구글 AI가 발표한 MedGemma: 의료 텍스트 및 이미지 이해 성능을 위해 훈련된 오픈 스위트

구글이 개발한 MedGemma는 의료 텍스트와 이미지 이해를 위해 훈련된 모델 스위트로, Gemma 3 아키텍처 기반으로 구축되었다. 의료 이미지와 텍스트 데이터의 통합 분석을 필요로 하는 의료 애플리케이션 개발자들에게 견고한 기반을 제공한다.

2025년 5월 20일 오후 9시 31분

SWE-Bench 성능이 도구 사용 없이 50.8%로 달성: 단일 상태 내 문맥 에이전트에 대한 사례

LM 에이전트의 최근 발전은 복잡한 실제 과제 자동화에 유망한 잠재력을 보여주고 있음. 이러한 에이전트는 일반적으로 API를 통해 작업을 제안하고 실행하여 소프트웨어 공학, 로봇공학, 과학 실험 등의 응용 프로그램을 지원함. 이러한 과제가 더 복잡해지면 LM 에이전트 프레임워크는 다중 에이전트, 다단계 검색, 맞춤형 지원을 포함하도록 진화해왔음.

2025년 5월 17일 오후 11시 06분

Windsurf가 SWE-1 출시: 소프트웨어 엔지니어링을 위한 최첨단 AI 모델 패밀리

Windsurf가 SWE-1을 발표하며 AI와 소프트웨어 엔지니어링의 깊은 융합을 시사했다. SWE-1은 전체 소프트웨어 개발 수명주기를 위해 특별히 설계된 최초의 AI 모델 패밀리로, 전통적인 코드 생성 모델과는 달리 실제 소프트웨어 엔지니어링 워크플로우를 지원하며 미완성 코드 상태부터 다중 표면 처리까지 다룬다.

2025년 5월 17일 오전 1시 55분

AI 에이전트들이 이제 병렬로 코드를 작성합니다: OpenAI가 ChatGPT 내부의 클라우드 기반 코딩 에이전트 Codex를 소개합니다

OpenAI가 ChatGPT에 통합된 클라우드 기반 소프트웨어 엔지니어링 에이전트 Codex를 소개했습니다. 기존의 코딩 어시스턴트와 달리 Codex는 자동 완성 도구뿐만 아니라 코드 작성, 디버깅, 테스트 실행 등의 프로그래밍 작업을 자율적으로 수행할 수 있는 클라우드 기반 에이전트 역할을 합니다.

2025년 5월 16일 오후 2시 46분

Rime, Arcana와 Rimecaster 공개: 현실 세계 음성에 기반한 실용적 음성 AI 도구

Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.

2025년 5월 14일 오후 3시 35분

LightOn AI가 GTE-ModernColBERT-v1을 공개: 장문 문서 검색을 위한 확장 가능한 토큰 수준의 의미 검색 모델 및 최고 수준의 벤치마크 성능

LightOn AI가 GTE-ModernColBERT-v1을 발표했다. 이 모델은 토큰 수준의 의미 검색을 통해 장문 문서 검색에 탁월한 성능을 보여준다. 이는 키워드 기반 방법보다 더욱 효과적인 사용자 의도에 부합하는 결과를 제공한다.

2025년 5월 11일 오후 2시 08분

Adala와 Google Gemini를 활용한 빠른 활성 학습 주석의 코딩 구현

Adala 프레임워크를 사용하여 의료 증상 분류를 위한 모듈식 활성 학습 파이프라인을 구축하는 방법을 배우고, Google Gemini을 사용하여 증상을 사전 정의된 의료 도메인으로 분류하는 방법을 통해 간단한 세 단계의 활성 학습 루프를 실행합니다.

2025년 5월 11일 오전 2시 42분

ServiceNow AI Released Apriel-Nemotron-15b-Thinker: 기업 규모의 배포와 효율성을 위해 최적화된 강력한 추론 모델

AI 모델은 수학 문제 해결, 논리적 문장 해석, 기업 의사 결정 지원과 같은 복잡한 작업을 처리해야 합니다. 이를 위해 수학적 추론, 과학적 이해, 고급 패턴 인식을 통합하는 것이 필요합니다. 실시간 응용 프로그램에서 지능형 에이전트에 대한 수요가 계속되는 가운데, 코딩 보조 도구와 비즈니스 자동화 도구가 포함됩니다.

2025년 5월 9일 오후 4시 39분

Hugging Face, NanoVLM 출시: 750줄의 코드로 처음부터 비전-언어 모델 학습 가능한 순수 PyTorch 라이브러리

Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.

2025년 5월 8일 오전 3시 08분

모델 컨텍스트 프로토콜 (MCP)이 AI 에이전트 도구 호출을 표준화, 간소화하고 미래를 대비하는 방법

MCP 이전에 LLM은 외부 도구에 액세스하기 위해 임시적이고 모델별 통합에 의존했다. ReAct, Toolformer, LangChain, LlamaIndex 등 다양한 접근 방식이 소개되었으며 MCP는 AI 에이전트 도구 호출을 모델 간에 표준화, 간단화하고 미래에 대비하는 역할을 한다.

2025년 5월 5일 오전 1시 56분

IBM AI, 그랜ite 4.0 Tiny 미리보기 공개: 긴 문맥과 지시 작업에 최적화된 콤팩트 오픈 언어 모델

IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.

2025년 5월 3일 오후 9시 36분

ELIZA에서 대화 모델링으로: 대화형 AI 시스템과 패러다임의 진화

ELIZA의 간단한 규칙 기반 시스템에서 현재의 정교한 플랫폼으로 대화형 AI가 발전해왔다. 이 과정은 80년대부터 90년대의 스크립트 봇, 2010년대의 Rasa와 같은 ML-규칙 하이브리드 프레임워크를 거쳐 2020년대의 혁명적인 대형 언어 모델로 이어져 자연스러운 대화를 가능케 했다. 현재는 Parlant와 같은 최첨단 대화 모델링 플랫폼이 주류다.

2025년 5월 2일 오후 2시 08분

AI 에이전트 프로토콜에 대한 기술적 탐구: 확장 가능한 인공지능 시스템에서의 역할

대형 언어 모델 에이전트가 기업 및 연구 생태계 전반에 걸쳐 주목을 받는 가운데, 에이전트들의 통신 역량을 제한하는 표준화된 프로토콜의 부재로 인해 커뮤니케이션 병목 현상이 발생했다. 이로 인해 에이전트들의 상호 조정 능력 및 외부 도구와의 인터페이스가 제약을 받고 있다.

2025년 5월 1일 오후 10시 53분

Meta AI, Llama 4-Powered AI 앱 첫 버전 공개: ChatGPT와 경쟁할 독립형 AI 어시스턴트

Meta가 Llama 4로 구동되는 새 AI 앱을 출시했다. 이 앱은 ChatGPT와 경쟁하기 위해 더 개인화된 AI 경험을 제공하며, 소셜적으로 통합된 기능을 갖추고 있다.

2025년 5월 1일 오후 1시 32분

개발자 GPU에서의 다중 모달 AI: 알리바바, VRAM 사용량 50% 감소 및 거의 7B 모델 성능을 달성한 Qwen2.5-Omni-3B 출시

알리바바가 Qwen2.5-Omni-3B를 발표했다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등을 포함한 시스템을 가능하게 하는 다중 모달 기반 모델로, VRAM 사용량이 50% 감소하고 거의 7B 모델 성능을 보여준다.

2025년 4월 30일 오후 6시 18분

Mem0: 장기 AI 대화를 위한 지속적이고 구조화된 기억을 가능하게 하는 확장 가능한 메모리 아키텍처

대형 언어 모델은 정보를 유지하는 데 어려움을 겪지만, Mem0는 장기적인 참여가 필요한 응용 프로그램에 통합될 때 더욱 중요해집니다. Mem0는 구조적인 기억을 유지하며 여러 세션에 걸쳐 정보를 지속적으로 보관하는 확장 가능한 메모리 아키텍처입니다.

2025년 4월 30일 오후 3시 51분

AI 열풍 너머: 모든 창업 창립자가 읽어야 할 구글의 실용적 AI 가이드

2025년, AI는 창업 기업이 구축, 운영 및 경쟁하는 방식을 혁신하고 있습니다. 구글의 ‘미래 AI: 창업을 위한 전망’ 보고서는 인프라 리더, 창업 창립자 및 벤처 캐피탈 파트너의 통찰을 바탕으로 종합적인 로드맵을 제시합니다. AI는 접근성이 높아지고 있지만 신중한 응용과 장기적인 관점이 속도보다 중요하다는 실용적인 메시지를 전합니다.

2025년 4월 30일 오전 3시 49분

알리바바 Qwen 팀, Qwen 시리즈의 최신 대형 언어 모델인 Qwen3 공개

알리바바의 Qwen 팀이 Qwen 시리즈의 최신 대형 언어 모델인 Qwen3을 공개했다. 이 모델은 Dense 및 Mixture-of-Experts (MoE) 모델의 포괄적인 스위트를 제공하며, 세밀한 추론, 다국어 능력, 계산 효율성에 대한 다양한 도전 과제를 해결하고 있다.

2025년 4월 28일 오후 9시 08분

Sea AI Lab, UCAS, NUS, SJTU 연구진, 개인화 시스템 생성을 위한 쿼리 수준 메타 에이전트 FlowReasoner 소개

LLM 기반의 다중 에이전트 시스템은 계획, 추론, 도구 사용, 기억 능력을 가지며 챗봇, 코드 생성, 수학, 로봇학 등 다양한 응용 프로그램의 기반을 형성한다. 그러나 수동으로 설계되어 고인적인 비용과 확장성 제약으로 인해 중요한 도전에 직면했다. 그래프 기반 방법은 워크플로 디자인을 자동화하기 위해 노력해왔다.

2025년 4월 27일 오후 4시 28분

구글 AI, 산업 전반에 걸친 601가지 실제 세계 생성 AI 사용 사례 공개

구글 클라우드가 세계 최고 기관들로부터 601가지 실제 세계 생성 AI 사용 사례 compendium을 공개했다. 지난해 구글 클라우드 넥스트 2024에서 공유한 101가지 사용 사례에서 6배로 확장된 이번 공개는 GenAI 기술이 폭발적인 속도로 발전하고 있음을 보여준다.

2025년 4월 26일 오후 6시 29분

GenAI 데모에서 제품 생산까지: 구조화된 워크플로우의 필요성

Generative AI 애플리케이션은 인상적인 능력을 보여주지만, 제품 시스템의 요구사항에 부딪힐 때 종종 실패하는 현실이 있다. 산업 조사는 이 문제의 규모를 보여준다.

2025년 4월 25일 오후 5시 10분

NVIDIA AI, 수학 추론을 위한 OpenMath-Nemotron-32B 및 14B-Kaggle 공개: AIMO-2 대회에서 1위 차지하며 새로운 기록 설정

NVIDIA AI가 OpenMath-Nemotron-32B 및 14B-Kaggle을 발표했다. 이는 수학 추론을 위한 고급 AI 모델로, AIMO-2 대회에서 1위를 차지하고 새로운 기록을 세웠다.

2025년 4월 25일 오전 1시 49분

LLMs는 여전히 의학 자료를 신뢰할 수 없을 정도로 언급하는 데 어려움을 겪고 있음: 스탠포드 연구진이 AI 생성 응답에서 사실적인 지원을 감사하기 위한 SourceCheckup을 소개

LLMs가 의료 분야에서 중요해지면서 신뢰할 수 있는 소스가 그들의 결과물을 뒷받침하는 것이 점점 중요해지고 있다. 아직 FDA가 임상 의사 결정에 승인한 LLM은 없지만, GPT-4o, Claude, MedPaLM과 같은 최고 모델은 USMLE과 같은 표준 시험에서 의사를 능가했다. 이러한 모델들은 이미 정신 건강과 같은 현실적 상황에서 활용되고 있다.

2025년 4월 21일 오후 4시 51분

바이트댄스, 강력한 비전-언어 모델을 기반으로 한 오픈소스 다중모달 AI 에이전트 UI-TARS-1.5 공개

바이트댄스가 GUI 상호작용 및 게임 환경에 초점을 맞춘 최신 다중모달 에이전트 프레임워크인 UI-TARS-1.5를 공개했다. 화면 콘텐츠를 인식하고 대화형 작업을 수행할 수 있는 비전-언어 모델로 설계된 UI-TARS-1.5는 GUI 자동화 및 게임 추론 벤치마크 영역에서 지속적인 개선을 선보이며 선도적인 모델들을 능가하고 있다.

2025년 4월 21일 오전 3시 09분

OpenAI, 기업 워크플로우에서 AI 활용 사례 식별과 확장에 대한 실용적 가이드 발표

OpenAI가 “Identifying and Scaling AI Use Cases”라는 포괄적인 프로세스 지향 가이드를 발행했다. 300개 이상의 사례 연구와 통찰을 바탕으로 기업이 AI를 측정 가능한 영향을 창출하는 방법을 결정하는 것이 주요 과제다.

2025년 4월 21일 오전 2시 46분

Meta AI, 협업 추론자 (코랄)를 소개합니다: LLM에서 협업 추론 기술을 평가하고 향상시키기 위해 특별히 설계된 AI 프레임워크

대형 언어 모델(Large language models, LLMs)은 질문 응답 및 구조적 추론과 같은 단일 에이전트 작업에서 놀라운 능력을 보여주었지만, 협업적으로 추론하는 능력은 여전히 미발달 상태입니다. Meta AI는 협업 추론자인 Coral을 소개하여 다수의 에이전트가 상호 작용하고 의견 충돌을 해결하며 해결책을 도출하는 능력을 향상시키는 AI 프레임워크를 특별히 설계했습니다.

2025년 4월 20일 오전 2시 15분

IBM, 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B 발표

IBM이 새로운 음성-텍스트(STT) 모델 Granite 3.3 8B를 발표했다. 이 모델은 자동 음성 인식(ASR) 및 자동 음성 번역(AST)에서 뛰어난 성능을 보여준다.

2025년 4월 18일 오전 3시 08분

« 이전 1 2