Open Source 보관 - 2 중 2 번째 페이지

구글 AI, 안드로이드 개발을 위한 LLMs 평가 프레임워크 및 리더보드 '안드로이드 벤치' 공개

구글이 안드로이드 개발 작업에서 Large Language Models (LLMs)의 성능을 측정하기 위한 새로운 리더보드 및 평가 프레임워크인 안드로이드 벤치를 공개했다. 데이터셋, 방법론, 테스트 하네스는 GitHub에서 공개되었으며, 일반 코딩 벤치마크가 캡처하지 못하는 안드로이드 개발 작업에 적합하다.

2026년 3월 6일 오후 2시 53분

YuanLab AI, 강력한 지능과 탁월한 효율성을 위해 만들어진 플래그십 멀티모달 MoE Foundation 모델인 Yuan 3.0 Ultra 공개

YuanLab AI가 오픈소스 Mixture-of-Experts (MoE) 대형 언어 모델인 Yuan 3.0 Ultra를 공개했다. 이 모델은 1조 개의 총 파라미터와 68.8조 개의 활성화된 파라미터를 특징으로 하며, 기업 성능을 최적화하고 사전 훈련 효율성을 높이는 것을 목표로 한다.

2026년 3월 5일 오전 12시 55분

오픈 소스 LLM을 활용한 계층적 플래너 AI 에이전트 구축의 코딩 구현

본 튜토리얼에서는 오픈 소스 instruct 모델을 활용하여 계층적 플래너 에이전트를 구축한다. 이 구조화된 다중 에이전트 아키텍처에는 플래너 에이전트, 실행자 에이전트 및 집계자 에이전트가 포함되어 있으며 각 구성 요소가 복잡한 작업을 해결하는 데 특화된 역할을 수행한다. 플래너 에이전트를 사용하여 고수준 목표를 실행 가능한 단계로 분해한다.

2026년 2월 27일 오후 9시 18분

Perplexity, 새로운 SOTA Qwen3 양방향 임베딩 모델 pplx-embed를 출시

Perplexity사가 대규모 검색 작업에 최적화된 다국어 임베딩 모델 pplx-embed을 출시했다. 웹 규모 데이터의 복잡성과 잡음을 처리하기 위한 이 모델은 전용 임베딩 API에 대한 대안으로 제작되었다. 양방향 어텐션과 확산을 활용한 구조적 혁신이 돋보인다.

2026년 2월 26일 오후 11시 01분

Nous Research가 'Hermes Agent'를 발표하여 멀티레벨 메모리와 전용 원격 터미널 액세스 지원으로 AI 망각문제를 해결합니다

Nous Research 팀이 Hermes Agent를 공개하여 AI의 망각 문제를 해결하기 위해 디자인된 오픈소스 자율 시스템을 출시했습니다. 현재의 AI 환경에서 우리는 '일시적 에이전트'에 익숙해졌는데, 이는 매 채팅 세션마다 인지 클락을 재시작하는 잊어버리기 쉬운 조수입니다. LLMs는 뛌륭한 코더가 되었지만, 진정한 팀원으로 기능하는 데 필요한 지속적인 상태가 부족합니다.

2026년 2월 26일 오전 3시 01분

Liquid AI의 새로운 LFM2-24B-A2B 하이브리드 아키텍처는 최신 LLM의 확장 병목 현상을 해결하기 위해 주의와 합성을 결합함

Liquid AI 팀이 발표한 LFM2-24B-A2B는 24억 개의 파라미터를 가진 모델로, 전력 소비 및 메모리 병목 현상의 한계에 부딪히는 산업에서, 파라미터 수보다 아키텍처 효율성에 대한 대화로 전환되고 있다.

2026년 2월 25일 오전 3시 37분

알리바바 Qwen 팀, Qwen 3.5 중간 모델 시리즈 출시: 더 작은 AI 모델이 더 똑똑함을 증명하는 생산 성능 중심

알리바바의 Qwen 3.5 중간 모델 시리즈 출시는 대규모 언어 모델의 발전이 초기에는 성능 향상을 이끌었지만, 이로 인해 상당한 인프라 부담과 한계적인 이득이 도입되었음을 신호한다. 작은 AI 모델이 더 똑똑하다는 점을 강조하며 Qwen 접근 방식의 변화를 시사한다.

2026년 2월 24일 오후 2시 33분

팔란티어의 커뮤니티 에디션이 있을까요? 오픈플랜터를 만나보세요: 마이크로 감시용 오픈소스 재귀 인공지능 에이전트

오픈소스 프로젝트인 OpenPlanter는 개인들에게 데이터 추적 권한을 돌려주는 노력으로, 개발자 'Shin Megami Boson'이 만들었으며 재귀 언어 모델 조사 에이전트입니다. 사용자들의 마이크로 감시 요구를 지원하는 것이 목표입니다.

2026년 2월 21일 오후 4시 10분

NVIDIA, 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델 DreamDojo 공개

NVIDIA가 DreamDojo를 발표했다. 이는 44,711시간의 실제 인간 비디오 데이터로 훈련된 오픈소스 로봇 월드 모델로, 기존의 물리 엔진 대신 픽셀에서 직접 로봇 행동의 결과를 '꿈꾼다'.

2026년 2월 20일 오후 3시 30분

Kyutai가 Hibiki-Zero를 발표: GRPO 강화 학습을 사용한 A3B 매개 변수 동시 음성 대 음성 번역 모델, 어떤 단어 수준의 정렬 된 데이터도 필요하지 않음

Kyutai가 Hibiki-Zero를 발표했다. 이 모델은 동시 음성 대 음성 및 음성 대 텍스트 번역을 위한 새로운 시스템이다. 이 모델은 실시간으로 원본 음성을 대상 언어로 번역하며, 과거 모델과 달리 학습에 단어 수준의 정렬 된 데이터가 필요하지 않다.

2026년 2월 13일 오후 1시 05분

알리바바, Zvec 오픈소스화: SQLite와 유사한 간편함과 고성능을 제공하는 임베디드 벡터 데이터베이스

알리바바의 Tongyi Lab 연구팀이 'Zvec'을 발표했다. 이는 엣지 및 장치 내 검색 워크로드를 대상으로 하는 오픈소스 인프로세스 벡터 데이터베이스로, SQLite와 유사한 라이브러리로 작동하여 외부 서비스나 데몬이 필요하지 않다. 검색 증강 생성(RAG)을 위해 설계되었다.

2026년 2월 10일 오전 10시 25분

NVIDIA AI, 분류, 밀집 예측, 세분화 작업에 대한 C-RADIOv4 비전 백본 출시

NVIDIA의 C-RADIOv4는 SigLIP2, DINOv3, SAM3을 하나의 비전 백본으로 통합하여 밀집 또는 세분화 성능을 희생하지 않고 결합하는 방법에 대해 소개합니다. 이 모델은 세 강력한 선생님 모델을 학생 인코더로 결합하여 AM-RADIO 및 RADIOv2.5 라인을 확장하며 계산 비용을 유지하면서 성능을 향상시킵니다.

2026년 2월 6일 오후 7시 31분

NVIDIA AI가 발표한 VibeTensor: 코딩 에이전트에 의해 끝에서 끝까지 프로그래밍적으로 구축된 AI 생성 딥러닝 런타임

NVIDIA가 VibeTensor를 공개했는데, 이는 딥러닝을 위한 오픈소스 연구 시스템 소프트웨어 스택이다. VibeTensor는 LLM 기반 코딩 에이전트에 의해 고수준의 인간 안내 아래 생성되었다. 이 시스템은 코딩 에이전트가 Python과 JavaScript API에서 C++ 런타임 구성 요소 및 CUDA 메모리 관리까지 포괄하는 일관된 딥러닝 런타임을 생성할 수 있는지에 대한 구체적인 질문을 제기한다.

2026년 2월 4일 오후 11시 10분

Qwen 팀, 코딩 에이전트 및 로컬 개발을 위해 특별히 설계된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시

Qwen 팀이 코딩 에이전트와 로컬 개발을 위해 디자인된 오픈 웨이트 언어 모델인 Qwen3-Coder-Next를 출시했다. 모델은 80B의 총 파라미터를 가지고 있지만 각 토큰 당 활성화되는 파라미터는 3B뿐이다.

2026년 2월 3일 오후 3시 47분

Robbyant, LingBot World를 오픈 소스로 공개: 대화형 시뮬레이션과 실제 AI를 위한 실시간 세계 모델

Robbyant은 LingBot-World를 공개했는데, 이는 영상 생성을 상호작용 시뮬레이터로 변환하는 대규모 세계 모델로, 총체 AI, 자율 주행, 게임 등을 위한 환경을 렌더링하며 시각적으로 뛰어나고 반응성이 뛰어난 특징을 갖추고 있다.

2026년 1월 30일 오후 8시 53분

AI2, 감독 학습만 사용한 실용적 리포지토리 수준 자동화 워크플로우용 SERA 출시

AI2가 SERA(Soft Verified Efficient Repository Agents)를 소개했다. SERA는 감독 학습과 합성 경로만 사용하여 훨씬 큰 폐쇄 시스템과 맞추기 위해 개발된 코딩 에이전트 패밀리다. SERA는 AI2의 오픈 코딩 에이전트 시리즈의 첫 번째 릴리스이며, 주요 모델인 SERA-32B는...

2026년 1월 30일 오후 5시 53분

DeepSeek AI, 인쇄물 이해를 위한 레이아웃 인식 OCR을 발표

DeepSeek AI가 DeepSeek-OCR 2를 공개했습니다. 이는 레이아웃을 고려한 문서 이해 시스템으로, 인간이 복잡한 문서를 스캔하는 방식과 유사하게 페이지를 읽을 수 있도록 구조화합니다. 핵심 구성 요소는 DeepEncoder V2로, 2D 페이지를 1D 시퀀스로 변환하는 언어 모델 스타일의 트랜스포머입니다.

2026년 1월 30일 오전 3시 21분

안트 그룹이 LingBot-VLA를 발표, 현실 세계 로봇 조작을 위한 비전 언어 액션 기반 모델

안트 그룹의 LingBot-VLA는 현실 세계에서 실제 로봇 조작을 대상으로 하는 비전 언어 액션 기반 모델이다. 9개의 듀얼 암 로봇을 제어할 수 있는 단일 비전 언어 액션 모델을 구축하는 방법에 대한 연구 결과이며, 약 20,000 시간의 텔레오퍼레이션 양쪽 손 데이터로 학습되었다.

2026년 1월 29일 오후 7시 02분

MBZUAI, K2 Think V2 발표: 수학, 코드, 과학을 위한 완전한 주권을 갖춘 70B 추론 모델

MBZUAI 연구진이 K2 Think V2를 발표했다. 이는 완전한 주권을 갖춘 추론 모델로, 투명한 훈련 파이프라인을 통해 최신 시스템과 경쟁하는 것을 목표로 한다.

2026년 1월 28일 오후 4시 17분

DSGym는 데이터 과학 에이전트를 구축하고 평가하기 위한 재사용 가능한 컨테이너 기반 기본체를 제공합니다

DSGym은 스탠퍼드 대학, Together AI, 더크 대학, 하버드 대학의 연구진들이 소개한 프레임워크로, 1,000개 이상의 데이터 과학 과제를 전문가가 선별한 정답과 함께 평가하고 훈련합니다.

2026년 1월 27일 오후 2시 52분

최신뉴스 전체보기

더 적은 컴퓨팅으로 더 나은 코드 병합: Osmosis AI의 Osmosis-Apply-1.7B 소개

Osmosis AI가 고도로 정확하고 구조화된 코드 병합 작업을 수행하기 위해 설계된 Osmosis-Apply-1.7B를 오픈소스로 공개했다. 이 모델은 IDE 에이전트에서 영감을 받아 문맥에 민감하고 함수 수준의 코드 편집에 최적화되어 있으며, 코드 특정 포맷팅을 활용하여 더 적은 파라미터로 강력한 성능을 달성한다.

2025년 7월 7일 오전 11시 01분

DeepSeek R1T2 Chimera: R1-0528보다 200% 빠르며 개선된 추론과 간결한 출력

TNG 기술 컨설팅이 새로운 AoE 모델인 DeepSeek-TNG R1T2 Chimera를 발표했다. R1-0528, R1, V3-0324 세 부모 모델로 구성된 R1T2는 전문가 계층 보간을 통해 대형 언어 모델에서 새로운 효율성을 발휘한다.

2025년 7월 3일 오전 7시 39분

Together AI, Qwen3-32B를 기반으로 한 DeepSWE 출시, SWEBench에서 59% 달성

Together AI가 최신 기술인 강화학습을 통해 완전히 오픈소스로 훈련된 소프트웨어 공학 에이전트인 DeepSWE를 출시했다. Qwen3-32B 언어 모델을 기반으로 한 DeepSWE는 SWEBench-Verified 벤치마크에서 59% 정확도와 42.2% Pass@1을 달성하여 오픈 웨이트 모델 중 최고의 성과를 거뒀다.

2025년 7월 2일 오후 10시 23분

바이두, ERNIE 4.5 공개 소스화: 0.3B에서 424B 파라미터까지 스케일링하는 LLM 시리즈

바이두가 최신 ERNIE 4.5 시리즈를 오픈 소스로 공개했다. 이는 언어 이해, 추론 및 생성을 강화하기 위해 설계된 강력한 foundation 모델의 가족이다. 공개된 모델은 0.3B 밀집 모델부터 424B 파라미터를 가진 거대한 MoE(Mixture-of-Experts) 아키텍처까지 10가지 모델 변형을 포함하고 있다.

2025년 7월 1일 오전 11시 40분

텐센트, 훈유안-A13B 공개: 이중 모드 추론과 256K 컨텍스트를 갖춘 13B 액티브 파라미터 MoE 모델

텐센트의 훈유안 팀이 희소 MoE 아키텍처로 구축한 새로운 오픈소스 대형 언어 모델인 훈유안-A13B를 소개했다. 이 모델은 80억 개의 총 파라미터 중 추론 중에는 13억 개만 활성화되어 성능과 계산 비용 사이에 뛰어난 효율을 제공한다. 그룹화된 쿼리 어텐션 (GQA), 256K 컨텍스트 길이 등을 지원한다.

2025년 6월 28일 오후 4시 33분

구글 AI가 Gemini CLI를 공개: 당신의 터미널을 위한 오픈소스 AI 에이전트

구글은 Gemini CLI를 발표했는데, 이는 Gemini 2.5 Pro 모델을 터미널에 직접 통합한 오픈소스 커맨드 라인 AI 에이전트다. 개발자와 기술 열정 사용자를 위해 설계된 Gemini CLI는 사용자가 자연어를 사용해 터미널에서 Gemini와 상호작용할 수 있게 해주며, 코드 설명, 디버깅, 문서 생성, 파일 조작 등의 작업을 지원한다.

2025년 6월 26일 오전 1시 13분

DeepSeek 연구원들이 ‘nano-vLLM’이라는 개인 프로젝트를 오픈소스로 공개: 처음부터 구축된 가벼운 vLLM 구현

DeepSeek 연구자들이 ‘nano-vLLM’을 공개했다. 이는 가벼우면서도 효율적인 vLLM(가상 대형 언어 모델) 엔진의 최소주의적이고 효율적인 구현으로, 간결하고 읽기 쉬운 코드베이스에 고성능 추론 파이프라인의 본질을 응축시켰다.

2025년 6월 22일 오전 3시 26분

MiniMax AI가 MiniMax-M1을 공개: 장기 문맥 및 강화 학습을 위한 456B 파라미터 하이브리드 모델

AI 모델의 장기 문맥 추론 도전, AI가 현실 세계와 소프트웨어 개발 환경에서 더 많은 책임을 맡을 때, 연구자들은 장기 문맥과 강화 학습에 적합한 아키텍처를 찾고 있다.

2025년 6월 19일 오후 1시 40분

StepFun이 Step-Audio-AQAA를 소개합니다: 자연스러운 음성 상호작용을 위한 완전한 엔드 투 엔드 오디오 언어 모델

Step-Audio-AQAA는 음성 인식, 자연어 이해, 오디오 생성을 결합한 오디오 언어 모델로, 텍스트 변환에 의존하지 않고 음성 상호작용을 위해 설계되었습니다.

2025년 6월 16일 오전 4시 17분

Meta AI, V-JEPA 2 공개: 이해, 예측, 계획을 위한 오픈 소스 자기 지도 세계 모델

Meta AI가 V-JEPA 2를 소개했다. 이는 인터넷 규모의 비디오에서 학습하고 강력한 시각적 이해, 미래 상태 예측, 제로샷 계획을 가능하게 하는 확장 가능한 오픈 소스 세계 모델이다.

2025년 6월 12일 오전 4시 09분

구글, Gemini 2.5와 LangGraph를 활용한 오픈소스 풀 스택 AI 에이전트 스택 소개

대화형 AI 연구 보조기의 필요성, 최신 대형 언어 모델의 한계와 동적 AI 에이전트 스택 소개

2025년 6월 8일 오후 3시 56분

알리바바 Qwen 팀, Qwen3-Embedding 및 Qwen3-Reranker 시리즈 공개 – 다국어 임베딩 및 랭킹 표준 재정의

알리바바의 Qwen 팀이 Qwen3-Embedding 및 Qwen3-Reranker 시리즈를 발표했다. 이는 다국어 임베딩 및 랭킹 표준을 재정의하여 현대 정보 검색 시스템에 기초를 제공한다. 현재 접근 방식은 고다국어 충실성 및 작업 적응성을 달성하는 데 어려움을 겪고 있지만, Qwen3 시리즈는 이러한 문제를 극복하고 있다.

2025년 6월 6일 오전 12시 24분

세계 최대 규모의 이벤트 데이터셋 Yambda 만나보기: 추천 시스템 가속화

야н덱스가 Yambda를 공개하여 추천 시스템 연구 및 개발을 가속화하는데 기여했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하며 학술 연구와 산업 규모 응용 프로그램 간의 간극을 줄이는 데 도움이 된다.

2025년 6월 2일 오전 3시 31분

Yandex가 세계 최대 규모의 이벤트 데이터셋 Yambda를 공개하여 추천 시스템 가속화

Yandex가 세계 최대 규모의 이벤트 데이터셋 ‘Yambda’를 공개했다. 이 데이터셋은 약 50억 건의 익명 사용자 상호 작용 이벤트를 제공하여 학술 연구와 산업 규모 응용 사이의 간극을 줄이는 데 기여한다.

2025년 5월 30일 오후 4시 45분

DeepSeek, 오픈 소스 추론 AI 모델 R1-0528 출시: 단일 GPU 효율성으로 향상된 수학 및 코드 성능 제공

DeepSeek가 R1 추론 모델의 업데이트 버전인 DeepSeek-R1-0528을 출시했다. 이번 업데이트로 모델은 수학, 프로그래밍, 일반 논리 추론 분야에서 능력을 향상시켰으며, 주요 모델인 OpenAI의 o3 및 Google의 Gemini 2.5 Pro과의 경쟁력을 갖추게 되었다.

2025년 5월 29일 오후 10시 38분

NVIDIA, 효율적인 엣지 AI 및 과학 작업에 최적화된 Llama Nemotron Nano 4B 발표

NVIDIA가 Llama Nemotron Nano 4B를 공개했는데, 이는 과학 작업, 프로그래밍, 심볼릭 수학, 함수 호출 및 명령어 따르기에 강력한 성능과 효율성을 제공하면서 엣지 배포에 적합한 오픈 소스 추론 모델이다. 40억 개의 파라미터로 높은 정확도를 달성하며, 비교 모델 대비 최대 50% 높은 처리량을 달성했다.

2025년 5월 25일 오후 5시 06분

Microsoft, 개발자들이 자연어 인터페이스를 통해 웹사이트를 AI 기반 앱으로 쉽게 변환할 수 있는 오픈 프로젝트 NLWeb 출시

마이크로소프트가 NLWeb을 출시했다. 이 프로젝트는 모든 웹사이트를 자연어 인터페이스를 통해 AI 기반 앱으로 쉽게 변환할 수 있게 해준다. 기존 솔루션들은 중앙집중식이거나 기술적 전문 지식이 필요한데, 이로 인해 개발자들이 지능형 에이전트를 구현하는 데 제약이 생겼다.

2025년 5월 25일 오전 2시 25분

Rime, Arcana와 Rimecaster 공개: 현실 세계 음성에 기반한 실용적 음성 AI 도구

Rime은 사람들이 실제로 말하는 방식을 반영하는 음성 모델을 구축하고 있는데, 최근에 공개한 Arcana와 Rimecaster는 실용적인 도구로 설계되었다.

2025년 5월 14일 오후 3시 35분

PrimeIntellect가 INTELLECT-2를 발표: 분산 비동기 강화 학습을 통해 훈련된 32B 추론 모델

INTELLECT-2는 32B의 추론 모델로, 분산 비동기 강화 학습을 통해 훈련되었다. 이 모델은 전통적인 중앙 집중식 훈련 파이프라인의 제약을 극복하고, 협업과 실험의 가능성을 확대한다.

2025년 5월 12일 오후 1시 12분

메타 AI, 안전한 AI 에이전트 구축을 돕는 보안 가드레일 도구 ‘LlamaFirewall’ 오픈 소스로 공개

Meta AI가 출시한 LlamaFirewall은 AI 에이전트의 보안 위험에 대응하기 위해 시스템 수준의 보안 계층을 제공하는 오픈 소스 가드레일 시스템이다.

2025년 5월 8일 오후 11시 30분

Hugging Face, NanoVLM 출시: 750줄의 코드로 처음부터 비전-언어 모델 학습 가능한 순수 PyTorch 라이브러리

Hugging Face가 nanoVLM을 출시했다. 이는 750줄의 코드로 비전-언어 모델을 처음부터 학습할 수 있는 PyTorch 기반의 간결하고 교육적인 프레임워크다.

2025년 5월 8일 오전 3시 08분

IBM AI, 그랜ite 4.0 Tiny 미리보기 공개: 긴 문맥과 지시 작업에 최적화된 콤팩트 오픈 언어 모델

IBM은 그랜ite 4.0 패밀리의 최소 구성원인 그랜ite 4.0 Tiny 미리보기를 소개했다. Apache 2.0 라이선스로 출시된 이 콤팩트 모델은 효율성, 투명성, 성능 사이의 균형을 잡아 긴 문맥 작업 및 지시 따르기 시나리오에 최적화되었다.

2025년 5월 3일 오후 9시 36분

DeepSeek-AI가 DeepSeek-Prover-V2를 발표: 공식 이론 증명을 위한 대형 언어 모델, 서브 골 분해 및 강화 학습을 통해

DeepSeek-Prover-V2는 공식 이론 증명을 위해 설계된 대형 언어 모델로, 서브 골 분해와 강화 학습을 활용한다. 수학적 추론은 강력한 논리 일관성을 요구하는데, 이 모델은 Lean, Coq, Isabelle과 같은 증명 어시스턴트의 역할을 한다.

2025년 5월 1일 오후 3시 54분

개발자 GPU에서의 다중 모달 AI: 알리바바, VRAM 사용량 50% 감소 및 거의 7B 모델 성능을 달성한 Qwen2.5-Omni-3B 출시

알리바바가 Qwen2.5-Omni-3B를 발표했다. 이 모델은 텍스트, 이미지, 오디오, 비디오 등을 포함한 시스템을 가능하게 하는 다중 모달 기반 모델로, VRAM 사용량이 50% 감소하고 거의 7B 모델 성능을 보여준다.

2025년 4월 30일 오후 6시 18분

복잡한 다중 에이전트 시스템을 구축하기 위한 오픈 소스 IDE인 로우보트 만나보기

로우보트는 다중 에이전트 시스템의 구축, 디버깅, 배포를 가속화하는 오픈 소스 IDE로, OpenAI Agents SDK를 기반으로 하며 MCP 서버와 연결되어 다중 에이전트 AI 워크플로를 구축할 수 있다.

2025년 4월 24일 오후 1시 21분

바이트댄스, 강력한 비전-언어 모델을 기반으로 한 오픈소스 다중모달 AI 에이전트 UI-TARS-1.5 공개

바이트댄스가 GUI 상호작용 및 게임 환경에 초점을 맞춘 최신 다중모달 에이전트 프레임워크인 UI-TARS-1.5를 공개했다. 화면 콘텐츠를 인식하고 대화형 작업을 수행할 수 있는 비전-언어 모델로 설계된 UI-TARS-1.5는 GUI 자동화 및 게임 추론 벤치마크 영역에서 지속적인 개선을 선보이며 선도적인 모델들을 능가하고 있다.

2025년 4월 21일 오전 3시 09분

« 이전 1 2