머신러닝 보관 - 미주투데이

Daft를 활용한 고성능 구조화 및 이미지 데이터 처리를 위한 확장 가능한 엔드투엔드 머신러닝 데이터 파이프라인 구축 코딩 가이드

이 튜토리얼에서는 Daft를 사용하여 고성능의 파이썬 데이터 엔진으로 엔드투엔드 분석 파이프라인을 구축하는 방법을 탐구합니다. MNIST 데이터셋을 로드한 다음 UDF, 피처 엔지니어링, 집계, 조인 및 지연 실행을 통해 점진적으로 변환하는 방법을 살펴봅니다. 구조화된 데이터 처리, 숫자 계산, 이미지 처리 등을 원활하게 결합하는 방법을 보여줍니다.

2026년 3월 5일 오후 6시 07분

SymTorch: 파이토치 라이브러리, 딥러닝 모델을 인간이 이해할 수 있는 방정식으로 번역하는 기술 소개

심볼릭 회귀를 통해 딥러닝 모델을 해석 가능한 수학 방정식으로 변환하는 라이브러리 'SymTorch'가 소개되었다. 훈련된 모델이 어떤 것을 배웠는지 알아보는 것이 중요한데, 이를 실현하기 위한 기술이다.

2026년 3월 3일 오후 6시 39분

앱 스토어 순위 증대를 위한 LLM-생성 판단 추가

사용자가 찾는 내용을 돕기 위해 대규모 상업 검색 시스템은 관련성에 최적화되며, 이를 위해 행동적 관련성과 텍스트 관련성을 활용하는데 전문가가 제공하는 텍스트 관련성 라벨이 부족한 문제를 해결하기 위해 LLM 구성을 체계적으로 평가하여 특화된, 섬세하게 조정된 모델을 사용한다.

2026년 2월 27일 오전 12시 00분Apple

우리가 주목하는 방식, 그것이 정말 중요한 이유: 독특한 변형을 통한 UI 구성 요소의 즉시화

프론트엔드 개발자들은 UI 구성 요소를 매개변수화하여 재사용성을 높이지만, 이는 인스턴스화를 어렵게 만든다. 이를 해결하기 위해 구별 가능한 변형을 도입하여 디자인 공간 샘플링과 심볼적 추론을 결합하고 있다.

2026년 2월 27일 오전 12시 00분Apple

LLMs를 통해 수학 추론 기능 향상시키는 'Constructive Circuit Amplification' 연구

LLMs의 내부 작업을 조사한 이전 연구에서는 특정 작업을 수행하는 희소한 하위 네트워크 또는 회로가 발견되었습니다. 이러한 연구 결과를 토대로 기존 회로를 강화함으로써 모델 성능을 향상시키는 것이 가능하다는 가능성을 제시했습니다. 이를 바탕으로 Constructive Circuit Amplification이라는 새로운 방법을 제안하고 있습니다.

2026년 2월 25일 오전 12시 00분Apple

HTML에서 텍스트 추출을 재고하다: LLM 사전 훈련을 위한

이 연구는 단일 추출기가 모든 웹페이지에 적용되는 기존 오픈소스 데이터셋이 인터넷 데이터의 최적 커버리지와 활용을 제공하는지 조사한다. 다양한 추출기가 표준 언어 이해 작업에서 유사한 모델 성능을 보일 수 있지만, 고정된 필터링 파이프라인을 거쳐 남은 페이지들은 크게 다를 수 있다.

2026년 2월 24일 오전 12시 00분Apple

PyTorch 컴파일러의 불투명 상자를 열다: 머신러닝 연구원을 위한 depyf

PyTorch 2.x에서는 딥러닝 프로그램 가속화를 위한 컴파일러가 도입되었지만, 머신러닝 연구원들에게는 PyTorch 컴파일러에 완전히 적응하기 어려울 수 있습니다. 이를 해결하기 위해 PyTorch 컴파일러의 내부 작업을 명확하게 하는 도구인 depyf가 소개되었습니다.

2026년 2월 24일 오전 12시 00분Apple

AWS에서 Hugging Face smolagents를 활용한 멀티 모델 프레임워크로 Agentic AI 구축하기

Hugging Face smolagents를 활용해 몇 줄의 코드로 에이전트를 구축하는 방법을 소개하고, AWS 관리형 서비스와 통합하여 멀티 모델 전개 옵션, 벡터 강화 지식 검색, 임상 의사 결정 지원 능력을 보여주는 의료 AI 에이전트를 배포하는 방법을 설명한다.

2026년 2월 23일 오전 10시 47분AWS Blog

키-값 캐시에서의 축출 학습

대규모 언어 모델의 증가하는 크기로 효율적인 추론이 어려워지고 있으며, 이는 주로 자기회귀 키-값 캐시의 메모리 요구 때문이다. 기존의 축출 또는 압축 방법은 비용을 줄이지만, 토큰의 미래 유효성에 대한 간접적인 대리인으로만 기능하는 휴리스틱에 의존한다. 우리는 KV 캐시 축출을 강화 학습 문제로 재구성하여 미래 디코딩을 위한 토큰의 예측된 유용성에 따라 토큰을 순위 지정하는 것을 학습한다. 이를 위해 우리는 KV 정책(KVP)이라는 프레임워크를 도입한다.

2026년 2월 23일 오전 12시 00분Apple

검색 시스템의 중요한 기능인 검색어 자동완성(QAC)을 개선하기 위해 검색 증강 생성과 다중 목적 정렬을 통해 QAC를 종단 간 리스트 생성으로 재정의하는 통합 프레임워크를 제안합니다. 기존 방법론의 한계를 극복하고 안전성을 높이는 방법을 소개합니다.

2026년 2월 18일 오전 12시 00분Apple

연합 변분부등식을 위한 빠른 수렴율

논문에서는 최근 주목을 받고 있는 확률적 변분부등식을 해결하기 위한 연합 최적화를 연구했다. 기존의 수렴율과 연합 볼록 최적화에 대한 최신 경계 사이에는 큰 간격이 남아있었는데, 이 한계를 개선하기 위해 개선된 수렴율을 제시하고 있다.

2026년 2월 13일 오전 12시 00분Apple

추론 모델에서 Trace Length는 간단한 불확실성 신호입니다

이 연구에서는 대규모 추론 모델에서 추론 Trace Length가 간단하고 유용한 신뢰 추정자임을 보여줍니다. 다양한 모델, 데이터셋 및 프롬프트에 걸쳐 철저한 실험을 통해 Trace Length가 언어적 신뢰와 같은 영점 신뢰 추정자와 비교 가능하게 수행됨을 보여줍니다.

2026년 2월 12일 오전 12시 00분Apple

매트료시카 최적화 문장 임베딩 모델 구축하기: 64차원 절단으로 초고속 검색을 위해

이 튜토리얼에서는 Matryoshka Representation Learning을 사용하여 Sentence-Transformers 임베딩 모델을 세밀하게 조정하여 벡터의 초기 차원이 가장 유용한 의미 신호를 담도록 합니다. MatryoshkaLoss를 사용하여 트리플 데이터로 학습하고, 임베딩을 64, 128 및 256 차원으로 절단한 후 검색 품질을 검증합니다.

2026년 2월 11일 오후 11시 10분

병렬 트랙 트랜스포머: 감소된 동기화로 빠른 GPU 추론 가능케 함

대규모 트랜스포머 기반 대형 언어 모델의 효율적인 추론을 위해 병렬 트랙 트랜스포머를 소개한다. 기존 방식의 텐서 병렬화는 GPU 간 동기화로 통신 병목 현상을 초래하는 반면, 새로운 아키텍처 패러다임인 PT 트랜스포머는 계산을 재구성하여 교차 장치 종속성을 최소화하며 최대 16배의 성능 향상을 이룬다.

2026년 2월 10일 오전 12시 00분Apple

Polyfactory를 사용하여 Dataclasses, Pydantic, Attrs 및 중첩 모델을 활용한 프로덕션급 목 데이터 파이프라인 설계 방법

이 튜토리얼에서는 Polyfactory를 사용하여 Python 타입 힌트에서 풍부하고 현실적인 목 데이터를 생성하는 방법을 상세히 살펴봅니다. 환경 설정부터 시작하여 데이터 클래스, Pydantic 모델, attrs 기반 클래스에 대한 팩토리를 점진적으로 구축하면서 사용자 정의, 오버라이드, 계산 필드 및 생성을 설명합니다.

2026년 2월 8일 오전 5시 12분

구글 AI가 PaperBanana를 소개합니다: 게재 준비된 방법론 다이어그램과 통계 플롯을 자동화하는 에이전틱 프레임워크

구글과 북경대학이 공동으로 연구한 팀이 'PaperBanana'라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

2026년 2월 7일 오후 1시 45분

대형 언어 모델에서 최상의 결과를 얻기 위해 AI 에이전트 검색을 지원하는 방법

EnCompass는 AI 에이전트 프로그램을 백트래킹하고 여러 번 시도하여 대형 언어 모델이 생성한 최상의 출력 집합을 찾아냄. 이는 코더들이 AI 에이전트와 더 효율적으로 작업할 수 있도록 도와줄 수 있음.

2026년 2월 5일 오후 4시 30분MIT News

극코드를 위한 강화 학습 기반의 범용 시퀀스 디자인

6G 애플리케이션을 위해 극코드 디자인을 발전시키기 위해, 강화 학습 기반의 범용 시퀀스 디자인 프레임워크를 개발했다. 이 방법은 다양한 채널 조건과 디코딩 전략에 대응할 수 있으며, 코드 길이가 2048까지 확장 가능하므로 표준화에 적합하다. 5G에서 지원하는 모든 (N,K) 구성에 대해, 우리의 방법은 5G에서 채택된 NR 시퀀스에 대비하여 경쟁력 있는 성능을 보이며, N=2048에서 beta-expansion 기준에 비해 최대 0.2 dB의 이득을 얻는다. 더불어 핵심 요소를 강조한다.

2026년 2월 3일 오전 12시 00분Apple

코드 생성을 위한 마스크된 확산 모델 이해와 개선

Diffusion large language models (dLLMs)는 코드 생성에 특히 유용한 전역 계획 및 반복적 수정 기능을 갖추고 있으며, 현재의 훈련 및 추론 메커니즘은 아직 탐구되지 않았다. 이 연구에서는 dLLMs의 복호화 행동을 파헤치고 코딩에 대한 잠재력을 발휘하기 위해 그들의 노이즈 제거 프로세스와 강화 학습 방법을 체계적으로 조사했다.

2026년 1월 21일 오전 12시 00분Apple

RPC 및 이벤트 주도 아키텍처에서 다시 시도가 실패 카스케이드를 유발하는 방법에 대한 코딩 가이드

본 튜토리얼에서는 동기식 RPC 기반 시스템과 비동기식 이벤트 주도 아키텍처를 비교하여 실제 분산 시스템이 부하와 장애 상황에서 어떻게 행동하는지 이해합니다. 다운스트림 서비스를 가변 지연, 과부하 조건 및 일시적 오류로 시뮬레이션한 후 버스티 트래픽 패턴을 사용하여 두 아키텍처를 구동합니다. 메트릭을 관찰함으로써 […]

2026년 1월 19일 오전 6시 52분

2026년 3월 5일 오후 6시 07분

SymTorch: 파이토치 라이브러리, 딥러닝 모델을 인간이 이해할 수 있는 방정식으로 번역하는 기술 소개

심볼릭 회귀를 통해 딥러닝 모델을 해석 가능한 수학 방정식으로 변환하는 라이브러리 ‘SymTorch’가 소개되었다. 훈련된 모델이 어떤 것을 배웠는지 알아보는 것이 중요한데, 이를 실현하기 위한 기술이다.

2026년 3월 3일 오후 6시 39분

앱 스토어 순위 증대를 위한 LLM-생성 판단 추가

2026년 2월 27일 오전 12시 00분Apple

우리가 주목하는 방식, 그것이 정말 중요한 이유: 독특한 변형을 통한 UI 구성 요소의 즉시화

2026년 2월 27일 오전 12시 00분Apple

LLMs를 통해 수학 추론 기능 향상시키는 ‘Constructive Circuit Amplification’ 연구

2026년 2월 25일 오전 12시 00분Apple

HTML에서 텍스트 추출을 재고하다: LLM 사전 훈련을 위한

2026년 2월 24일 오전 12시 00분Apple

PyTorch 컴파일러의 불투명 상자를 열다: 머신러닝 연구원을 위한 depyf

2026년 2월 24일 오전 12시 00분Apple

AWS에서 Hugging Face smolagents를 활용한 멀티 모델 프레임워크로 Agentic AI 구축하기

2026년 2월 23일 오전 10시 47분AWS Blog

키-값 캐시에서의 축출 학습

2026년 2월 23일 오전 12시 00분Apple

검색어 자동완성을 위한 랭킹 및 생성 통합: 검색 증강 생성 및 다중 목적 정렬

2026년 2월 18일 오전 12시 00분Apple

연합 변분부등식을 위한 빠른 수렴율

2026년 2월 13일 오전 12시 00분Apple

추론 모델에서 Trace Length는 간단한 불확실성 신호입니다

2026년 2월 12일 오전 12시 00분Apple

매트료시카 최적화 문장 임베딩 모델 구축하기: 64차원 절단으로 초고속 검색을 위해

2026년 2월 11일 오후 11시 10분

병렬 트랙 트랜스포머: 감소된 동기화로 빠른 GPU 추론 가능케 함

2026년 2월 10일 오전 12시 00분Apple

Polyfactory를 사용하여 Dataclasses, Pydantic, Attrs 및 중첩 모델을 활용한 프로덕션급 목 데이터 파이프라인 설계 방법

2026년 2월 8일 오전 5시 12분

구글 AI가 PaperBanana를 소개합니다: 게재 준비된 방법론 다이어그램과 통계 플롯을 자동화하는 에이전틱 프레임워크

구글과 북경대학이 공동으로 연구한 팀이 ‘PaperBanana’라는 새로운 프레임워크를 소개했다. 이 프레임워크는 멀티 에이전트 시스템을 활용하여 고품질의 학술 다이어그램을 자동화함으로써 연구자들이 복잡한 발견을 시각적으로 전달하는 과정을 개선했다.

2026년 2월 7일 오후 1시 45분

대형 언어 모델에서 최상의 결과를 얻기 위해 AI 에이전트 검색을 지원하는 방법

2026년 2월 5일 오후 4시 30분MIT News

극코드를 위한 강화 학습 기반의 범용 시퀀스 디자인

2026년 2월 3일 오전 12시 00분Apple

코드 생성을 위한 마스크된 확산 모델 이해와 개선

2026년 1월 21일 오전 12시 00분Apple

RPC 및 이벤트 주도 아키텍처에서 다시 시도가 실패 카스케이드를 유발하는 방법에 대한 코딩 가이드

2026년 1월 19일 오전 6시 52분

Google AI, 55개 언어 지원하는 새로운 번역 모델 ‘TranslateGemma’ 출시

Google AI가 Gemma 3 기반의 55개 언어를 지원하는 오픈 기계 번역 모델인 TranslateGemma를 출시했다. 4B, 12B, 27B 파라미터 크기로 출시되었으며, 모바일부터 노트북, 단일 H100 GPU나 TPU 인스턴스까지 다양한 디바이스에서 동작 가능하다.

2026년 1월 16일 오후 2시 39분

대형 언어 모델을 위한 비선형 RNN의 병렬 학습을 해제하는 ParaRNN

RNN은 순차적 특성으로 인해 병렬 계산을 제한하지만, ParaRNN은 이를 극복하는 프레임워크로, 선형 제약을 극복하고 복잡한 비선형 시퀀스 의존성 모델링을 가능케 함.

2026년 1월 16일 오전 12시 00분Apple

MoEs는 생각보다 강력합니다: RoE와 함께 하는 초병렬 추론 스케일링

대형 언어 모델의 생성 품질은 추론 시퀀스 수준 스케일링 방법을 활용하여 개선되는데, 이에 보조적인 프레임워크로 토큰 수준에서 예측 품질을 향상시키는 초병렬 스케일링을 소개합니다. RoE는 MoE 모델에 구현된 개념으로, 단일 MoE를 MoE의 동적 앙상블로 변환하는 훈련 없는 추론 알고리즘입니다.

2026년 1월 12일 오전 12시 00분Apple

계층적 메모리를 활용한 사전훈련: 희귀 지식과 일반 지식 분리

현대 언어 모델의 놀라운 성능 향상은 주로 파라미터의 확장에 의존하고 있습니다. 이에 대한 대응으로 메모리 보강 구조와 기존 하드웨어 패러다임과 일치하는 사전훈련 전략을 소개합니다. 세부 지식을 인코딩하는 대규모 계층적 파라미터 메모리 은행에 접근하는 소규모 언어 모델을 도입합니다.

2026년 1월 9일 오전 12시 00분Apple

Apache Beam를 사용한 일괄 및 스트림 처리를 보여주는 통합 파이프라인 구축 코딩 구현

이 튜토리얼에서는 DirectRunner를 사용하여 배치 및 스트림 모드에서 원활하게 작동하는 통합 Apache Beam 파이프라인을 구축하는 방법을 보여줍니다. 이벤트 시간을 인식하는 가상 데이터를 생성하고 트리거 및 허용된 지연 시간을 적용하여 Apache Beam이 정시 및 지연된 이벤트를 일관되게 처리하는 방법을 보여줍니다.

2026년 1월 8일 오전 6시 08분

Softmax를 처음부터 구현하기: 숫자 안정성 함정 피하기

Softmax는 신경망이 생성한 원시 점수를 확률 분포로 변환하여 각 출력을 특정 클래스의 가능성으로 해석할 수 있게 만드는 활성화 함수이다.

2026년 1월 7일 오후 1시 31분

구글, A2UI (에이전트-사용자 인터페이스) 소개: 에이전트 주도 인터페이스를 위한 오픈 소스 프로토콜

구글이 A2UI를 오픈 소스로 공개했다. 이는 에이전트가 풍부한 네이티브 인터페이스를 선언적 JSON 형식으로 설명하고, 클라이언트 애플리케이션이 자체 구성 요소로 렌더링할 수 있는 라이브러리이다. 원격 에이전트가 신뢰 경계를 넘어 안전하고 상호 작용적인 인터페이스를 제공하는 방법에 대한 명확한 문제를 해결한다.

2025년 12월 22일 오후 7시 01분

다중 모달 프롬프트를 이용한 통합 개방 세계 세분화

COSINE은 단일 모달리티 프롬프트에 제한된 기존 방법의 한계를 극복하기 위해 개방 세계 이미지 세분화의 빠른 발전을 경험하고, 복잡한 객체 인식 프롬프트에 필요한 유연성과 정확도를 제공하는 통합 개방 세계 세분화 모델이다.

2025년 12월 16일 오전 12시 00분Apple

OpenAI가 ‘circuit-sparsity’를 발표: Activation Bridges를 통해 Weight Sparse 모델과 밀집 베이스라인을 연결하는 오픈 도구 세트

OpenAI팀이 Hugging Face에서 openai/circuit-sparsity 모델과 GitHub에서 openai/circuit_sparsity 툴킷을 공개했다. ‘Weight-sparse transformers have interpretable circuits’ 논문의 모델과 회로를 패키징했는데, 이는 Python 코드로 훈련된 GPT-2 스타일 디코더 전용 트랜스포머다. 희소성은 훈련 후에 추가되지 않았다.

2025년 12월 14일 오후 12시 01분

테스트 시점에 사전 학습 데이터 재사용은 계산 곱셈기

대형 언어 모델은 방대한 사전 학습 말뭉치로부터 배우며, 점점 다양한 작업을 해결하는 능력을 갖추게 된다. 그러나 연구자들은 이러한 데이터셋을 개선하는 데 노력을 기울이지만, 사전 학습 장치가 데이터에서 아이디어와 지식을 효율적으로 추출하는지에 대한 연구는 거의 없다. 본 연구에서는 테스트 시간 계산을 통해 사전 학습 과정에서 얼마나 많은 데이터셋 가치가 남아 있는지, 그리고 이것이 규모에 따라 어떻게 변하는지를 양적으로 측정하는 방법을 제시한다. 우리는 사전 학습 및 검색을 통해 표준적인 방법으로부터 검색한 후에…

2025년 12월 12일 오전 12시 00분Apple

유연한 런타임 희소성을 위한 MoE-PHDS: 하나의 MoE 체크포인트

MoE-PHDS는 고정된 희소성 수준에서 작동하는 Sparse Mixtures of Experts(MoEs)를 훈련시키는 대신 여러 효율성 목표를 충족시키기 위해 여러 모델을 훈련하고 유지하는 것을 간소화하고 유연성을 높이는 방법을 제시한다. 사전 훈련된 MoEs가 런타임 희소성 변화에 민감하지 않다는 것을 보여줌.

2025년 12월 11일 오전 12시 00분Apple

대규모 Sinkhorn 결합을 사용한 Flow 모델 적합에 대해

Flow 모델은 데이터를 한 모드(예: 소음)에서 다른 모드(예: 이미지)로 점진적으로 변환한다. 이 모델들은 시간에 따라 변하는 속도장에 의해 매개변수화되며, 소스와 타겟 포인트를 연결하는 세그먼트를 맞추기 위해 훈련된다. 소스와 타겟 포인트 간의 매칭이 주어지면, Flow 모델 훈련은 지도 회귀 문제로 단순화된다. 그러나 매칭이 없는 경우(예: 소음에서 데이터 생성 시), 훈련이 더 어려워진다.

2025년 12월 11일 오전 12시 00분Apple

다변량 인과 발견 시 비가우시안성 없이 다중 뷰: 식별가능성과 알고리즘

비가우시안성과 같은 강력한 가정에 의존하는 인과 발견은 어려운 문제이다. 본 연구에서는 다중 관점의 데이터를 활용하여 약한 가정으로도 인과 발견을 이루는 방법을 제안한다. 비가우시안 잡음의 잘 알려진 프레임워크를 확장하고, 다중 뷰 구조를 활용하여 다변량 선형 구조 방정식 모델을 제안한다.

2025년 12월 10일 오전 12시 00분Apple

범주형 생성 모델을 위한 지속적으로 증가하는 이산 확산 모델

CADD는 이산 상태 공간을 연속적 잠재 공간에 결합하여 점진적으로 손상된 상태를 제공함으로써 정보를 유지하는 프레임워크이다.

2025년 12월 10일 오전 12시 00분Apple

ChipChat: MLX에서의 저지연 카스케이드 대화형 에이전트

ChipChat은 새로운 저지연 카스케이드 시스템으로 전통적인 병목 현상을 극복하고 스트리밍 최적화를 통해 성능을 향상시킵니다.

2025년 12월 10일 오전 12시 00분Apple

인터뷰: CUDA에서 타일 기반 프로그래밍으로 – NVIDIA의 Stephen Jones가 AI 미래 구축에 대해 이야기

NVIDIA의 공학자 Stephen Jones와의 인터뷔. AI 모델이 복잡해지고 하드웨어가 발전함에 따라, 두 요소를 연결하는 소프트웨어 계층도 적응해야 함. Jones는 CUDA의 원조 아키텍트 중 한 명으로, 유체 역학부터 항공우주 공학까지 배경을 가지고 있음.

2025년 12월 9일 오전 1시 54분

Cisco, 디코더 전용 트랜스포머 아키텍처 기반의 첫 번째 오픈 가중치 기반 모델인 Cisco Time Series Model 출시

Cisco와 Splunk은 옵저버빌리티 및 보안 메트릭을 위해 디자인된 단변량 제로 샷 시계열 기반 모델인 Cisco Time Series Model을 소개했다. 이 모델은 Apache 2.0 라이선스 하에 Hugging Face에 오픈 웨이트 체크포인트로 출시되었으며 과업별 특정 파인튜닝 없이 예측 워크로드를 대상으로 한다.

2025년 12월 8일 오전 5시 39분

커널 주성분 분석 (PCA): 예시와 함께 설명

PCA와 같은 차원 축소 기술은 데이터셋이 선형 분리 가능한 경우 효과적이지만, 비선형 패턴이 나타나면 제대로 동작하지 않는다. 이런 경우, 커널 PCA는 데이터를 고차원 특성 공간으로 매핑하여 비선형 패턴을 해결한다.

2025년 12월 6일 오후 2시 29분

단일 볼록 포텐셜로부터 샘플링 및 매핑: 수렴적 모멘트 측정을 이용한 생성

이 연구는 생성 모델링에서 두 단계로 모델 적합을 분리하는 것이 일반적이지만, 본 연구에서는 샘플링과 매핑을 연결하는 대안적인 방법을 탐구합니다. 모멘트 측정에 영감을 받아 잠재적으로 볼록한 u를 사용하여 샘플링과 매핑을 효과적으로 결합하였습니다.

2025년 12월 1일 오전 12시 00분Apple

메타 AI 연구원들이 소개하는 매트릭스: 레이 네이티브, 분산 프레임워크를 통한 다중 에이전트 합성 데이터 생성

메타 AI 연구원들이 소개한 매트릭스는 현대 AI 모델을 위해 합성 데이터를 신선하고 다양하게 유지하는 방법을 제시하는데, 단일 조율 파이프라인을 병목 현상으로 만들지 않고, 분산된 대기열을 통해 메시지로 직렬화된 제어와 데이터 흐름을 구현한 분산 프레임워크이다.

2025년 11월 30일 오후 6시 49분

Salesforce AI 연구팀이 소개한 xRouter: 비용 인식 LLM Orchestration을 위한 강화 학습 라우터

Salesforce AI 연구팀이 소개한 xRouter는 강화 학습 기반 라우터를 활용하여 각 요청에 어떤 서버가 응답해야 하는지 결정하며 외부 모델을 호출할지 결정하는 기능을 제공한다.

2025년 11월 26일 오전 3시 25분

Microsoft AI, Fara-7B 발표: 컴퓨터 사용을 위한 효율적인 에이전틱 모델

마이크로소프트 연구팀이 7조 개의 파라미터를 가진 Fara-7B를 발표했다. 이 모델은 컴퓨터 사용을 위해 특별히 설계된 작은 언어 모델로, 클라우드로 데이터를 보내지 않고도 AI 에이전트가 웹 작업을 처리할 수 있게 해준다.

2025년 11월 25일 오전 7시 57분

NVIDIA AI, Nemotron-Elastic-12B 발표: 추가 훈련 비용 없이 6B/9B/12B 변형 제공하는 단일 AI 모델

NVIDIA는 하나의 탄력 있는 모델로 여러 크기의 모델을 생성할 수 있게 하여 AI 개발팀이 여러 대규모 언어 모델을 훈련하고 저장할 필요성을 없앴다. NVIDIA AI팀은 Nemotron-Elastic-12B를 발표했는데, 이는 12B 파라미터 추론 모델로, 추가 훈련 비용 없이 6B, 9B, 12B 변형을 제공한다.

2025년 11월 24일 오후 3시 54분

CAR-Flow: 조건에 민감한 재매개화가 소스와 타겟을 일치시켜 흐름 일치를 더 잘 함

CAR-Flow는 조건부 생성 모델링에서 소스와 타겟을 더 잘 일치시키기 위해 가벼운 학습된 시프트인 조건에 민감한 재매개화를 제안한다. 이는 흐름 모델이 조건을 무시하는 초기 표준 가우시안 노이즈를 조건부 데이터 분포로 전달하기 위해 학습되며, 모델이 질량 이동과 조건 주입을 동시에 학습해야 하는 것을 완화시킨다.

2025년 11월 12일 오전 12시 00분Apple

Prior Labs, TabPFN-2.5 발표: 탭피에프엔의 규모와 속도를 높이는 최신 버전

Prior Labs가 TabPFN-2.5를 발표했다. 이는 탭피에프엔의 규모와 속도를 높여준다. 금융, 의료, 에너지 및 산업팀은 행과 열의 테이블로 작업하며, 이 모델은 50,000개 샘플과 2,000개 피처로 학습 범위를 확장한다.

2025년 11월 8일 오전 5시 44분

실시간 데이터베이스, 동적 상태 관리, 반응형 UI로 고급 멀티페이지 Reflex 웹 애플리케이션 만드는 방법

이 튜토리얼에서는 Colab 내에서 완벽하게 실행되는 고급 Reflex 웹 애플리케이션을 파이썬으로 구축합니다. Reflex를 사용하면 JavaScript 없이 반응형 파이썬 코드만으로 풀스택 개발이 가능합니다. 두 개의 페이지, 실시간 데이터베이스 상호작용, 필터링, 정렬, 분석, 사용자 맞춤 설정을 갖춘 노트 관리 대시보드를 만듭니다.

2025년 11월 8일 오전 4시 32분

Moonshot AI, 인간 개입 없이 200-300개의 순차 도구 호출을 실행할 수 있는 인상적인 사고 모델 Kimi K2 Thinking 출시

Moonshot AI사가 Kimi K2 Thinking을 공개했다. 이 모델은 Kimi K2 Mixture of Experts 아키텍처의 전체 추론 스트림을 노출하는 오픈 소스 사고 에이전트 모델로, 깊은 추론이 필요한 작업을 대상으로 한다.

2025년 11월 6일 오후 9시 19분

메타 리서치 하이드라를 활용해 확장 가능하고 재현 가능한 머신러닝 실험 파이프라인을 구축하는 방법은 무엇인가요?

이 튜토리얼에서는 Meta Research가 개발하고 오픈 소스로 공개한 고급 구성 관리 프레임워크 인 하이드라를 탐색합니다. Python 데이터 클래스를 사용하여 구조화된 구성을 정의하여 실험 매개변수를 깔끔하고 모듈식으로 관리하고 재현 가능하게 합니다. 튜토리얼을 진행하면서 구성을 구성하고 런타임 오버라이드를 적용하고 시뮬레이션합니다.

2025년 11월 4일 오후 7시 00분

주석 달린 데이터가 없을 때 지도 AI 모델을 구축하는 방법

실제 기계 학습에서 가장 큰 어려움은 지도 모델이 레이블이 달린 데이터를 필요로 한다는 것인데, 많은 실전 시나리오에서 시작하는 데이터는 대부분 레이블이 없습니다. 수천 개의 샘플을 수동으로 주석을 다는 것은 느리고 비용이 많이 들며 지루하고 종종 실용적이지 않습니다. 이때 액티브 러닝이 게임 체인저가 됩니다.

2025년 11월 3일 오후 6시 58분

SEMORec: 스칼라화된 효율적인 다중 목적 추천 프레임워크

다중 이해관계자 환경에서의 추천 시스템은 공급업자와 소비자 요구를 동시에 최적화해야 합니다. SEMORec는 다중 목적을 효율적으로 조합하여 각 이해관계자의 기대를 충족시키는 추천을 제공합니다. 가중치를 사용한 스칼라화 기능을 통해 이러한 환경에서 추천을 제공하는 것은 실제 문제가 됩니다. 최근 연구는 RL을 사용하여 응용 프로그램별 요구에 따라 이러한 가중치를 적응적으로 조정하는 알고리즘을 개발했습니다.

2025년 10월 30일 오전 12시 00분Apple

부분 전문가 데모를 통한 추론을 위한 강화 학습

부분 전문가 데모를 통한 강화 학습은 복잡한 시퀀스 생성 작업을 해결하는 유망한 프레임워크로 제안된다. 주어진 밀도 높은 라벨에 의존하는 감독된 미세 조정(SFT)은 시퀀스 길이가 늘어날수록 점점 비용이 증가하는 반면, 강화 학습은 희소한 보상과 조합적으로 큰 출력 공간으로 인해 어려움을 겪는다. 우리는 이를 Adaptive Backtracking(AdaBack)이라는 샘플별 커리큘럼 학습 알고리즘을 소개함으로써 해결한다. 이 알고리즘은 훈련 중에 목표 출력의 부분 접두사만을 공개함으로써 이를 다룬다.

2025년 10월 29일 오전 12시 00분Apple

자원 제한된 모바일 기기에서 대규모 언어 모델의 메모리 효율적인 역전파

대규모 언어 모델을 역전파로 미세 조정할 때 메모리를 많이 사용하는 문제를 해결하기 위해 모바일 기기에 메모리 효율적인 구현을 제안함. Zeroth-order optimization 대신 더 나은 메모리 사용과 계산량의 균형을 제공함.

2025년 10월 27일 오전 12시 00분Apple

비디오 LLM 벤치마크 분석: 지식, 공간 지각 또는 진정한 시간적 이해?

논문이 NeurIPS 2025의 Evaluating the Evolving LLM Lifecycle Workshop에서 받아들여졌다. 기존 비디오 이해 벤치마크는 모델의 시간적 추론 능력을 명확하게 분리하는 대신, 지식 기반 및 순수 이미지 기반 질문을 혼동시키는 경향이 있음을 파악했다. 더 높은 점수가 동영상의 동적 콘텐츠에 대한 더 강한 이해를 진정으로 나타내는지 알아보기 어렵게 만드는 두 가지 주요 제한 사항을 식별했다.

2025년 10월 27일 오전 12시 00분Apple

움직임으로부터 방: 포즈되지 않은 실내 3D 물체 감지를 위치추정 및 매핑으로

“Rooms from Motion (RfM)”은 실내 3D 물체 감지를 위치추정과 매핑의 결과물로 삼는 객체 중심 프레임워크를 재방문한 것이다. 기존의 3D 물체 감지 방법은 전역적으로 운영되며 메트릭 카메라 포즈의 사전 존재를 내재적으로 가정한다. RfM은 포즈되지 않은 이미지 모음에 작용하며, 구조-동작으로부터 파생된 3D 상자를 기반으로 한 객체 중심 매처로 기존의 2D 키포인트 기반 매처를 대체함으로써 메트릭 카메라 포즈, 객체 트랙, 및…

2025년 10월 24일 오전 12시 00분Apple

SWE-Gym를 활용한 소프트웨어 엔지니어링 에이전트와 검증자의 훈련

SWE-Gym은 실제 소프트웨어 엔지니어링(SWE) 에이전트를 훈련하기 위한 환경으로, 2,438개의 실제 Python 작업 인스턴스를 포함하고 있습니다. SWE-Gym을 활용하여 언어 모델 기반 SWE 에이전트를 훈련시켜 인기 있는 SWE-Bench Verified 및 Lite 테스트 세트에서 최대 19%의 절대 성과 향상을 달성했습니다.

2025년 10월 16일 오전 12시 00분Apple

Ivy 프레임워크 객관적인 머신러닝 빌드, 변환 및 모든 주요 백엔드에서 벤치마크

Ivy는 다양한 프레임워크에서 머신러닝 개발을 통합하는 능력을 탐구하는 튜토리얼이다. NumPy, PyTorch, TensorFlow, JAX에서 매끄럽게 실행되는 프레임워크에 중립적인 신경망을 작성하고 코드 변환, 통합 API, Ivy 컨테이너 및 그래프 추적과 같은 고급 기능을 살펴본다.

2025년 10월 13일 오후 10시 37분

JEPA 재고: 동결된 선생님과 함께 하는 계산 효율적 비디오 SSL

V-JEPA는 동결된 선생님과 함께 마스킹된 영역을 예측하여 범용적 비디오 표현을 학습하는데, 학생과 선생님의 구조를 복잡하게 하는 EMA를 사용하지 않고도 마스킹된 잠재 공간에서 일반화 가능한 영상 표현을 학습하는 방법에 대해 재고했다.

2025년 10월 8일 오전 12시 00분Apple

이유론 기반 이상 감지 프레임워크: 도메인 간 이상 감지에 대한 실시간, 확장 가능하고 자동화된 접근

대규모 분산 시스템에서 이상을 감지하는 것은 여러 어려움이 있습니다. 데이터 양의 증가와 시계열 데이터셋의 다양성으로 인한 도전이 있습니다. 이상을 탐지하기 위해 알고리즘과 시스템 설계를 신중히 고려해야 합니다. 이상 감지 시스템은 한 가지 용도에 대해 드물게 배포되며 여러 도메인에서 종종 여러 지표를 모니터링해야 합니다.

2025년 10월 8일 오전 12시 00분Apple

Zhipu AI, GLM-4.6 출시: 현실 세계 코딩, 장기 맥락 처리, 추론, 탐색 및 에이전틱 AI 향상

Zhipu AI가 GLM-4.6을 출시했다. 이 모델은 에이전틱 워크플로, 장기 맥락 추론, 실용적 코딩 작업에 초점을 맞추고 있으며, 입력 창을 20만 토큰으로 확장하고 12만 8천 토큰의 최대 출력을 제공한다. 이번 업데이트는 실용적 작업에서 효율적인 토큰 사용을 목표로 하며 로컬 배포를 위한 오픈 가중치도 함께 제공된다.

2025년 9월 30일 오후 7시 17분

oLLM 만나보기: 8 GB 소비자 GPU로 100K-컨텍스트 LLM 추론을 SSD 오프로드를 통해 제공하는 가벼운 Python 라이브러리—양자화 불필요

oLLM은 Huggingface Transformers와 PyTorch 기반의 가벼운 Python 라이브러리로, NVIDIA GPU에서 대규모 컨텍스트 Transformers를 빠른 지역 SSD로 가중치와 KV-캐시를 공격적으로 오프로드하여 실행합니다. 이 프로젝트는 오프라인, 단일 GPU 워크로드를 대상으로 하며 명시적으로 양자화를 피하며 FP16/BF16 가중치를 사용합니다.

2025년 9월 29일 오후 1시 43분

그래프 표현 학습의 생성 및 대조

그래프의 자기지도 학습은 노드 및 그래프 표현(임베딩)을 생성하여 레이블이 제한적이거나 없는 경우에 노드 분류, 노드 클러스터링 및 링크 예측과 같은 하위 작업에 사용될 수 있다. 이 논문에서는 대조적 또는 생성적 패러다임을 따르는 기존의 그래프 자기지도 학습 방법을 통합하는 새로운 아키텍처를 제안한다.

2025년 9월 29일 오전 12시 00분Apple

Qwen3Guard 소개: 글로벌 실시간 AI 안전을 위해 구축된 Qwen3 기반의 다국어 안전 가드레일 모델

알리바바의 Qwen 팀은 실시간 LLM에 안전성을 유지할 수 있는지 의문에 대답하며, Qwen3Guard를 출시했다. Qwen3Guard는 프롬프트 및 스트리밍 응답을 실시간으로 조절하는 다국어 가드레일 모델로, Qwen3Guard-Gen과 Qwen3Guard-Stream 두 가지 변형이 있다.

2025년 9월 27일 오전 1시 04분

머신러닝, 해석가능성, 그리고 Gemini AI 도움을 통해 엔드투엔드 데이터 과학 워크플로우 구축하는 방법?

전통적인 머신러닝과 Gemini의 파워를 결합한 고급 데이터 과학 워크플로우를 통해 당뇨병 데이터셋을 준비하고 모델링하며, 평가, 피처 중요도, 부분 의존성에 대해 탐구한다. 중간에 Gemini를 AI 데이터 과학자로 도입한다.

2025년 9월 25일 오전 3시 04분

자가 교육 음성 모델의 다국어 간격 축소를 위한 오디오-비주얼 데이터 활용

자가 교육 학습은 음성 표현 학습에서 상당한 발전을 이루었습니다. 그러나 다국어 환경에서는 단일 언어에 비해 성능이 떨어지는 경향이 있습니다. 이 연구에서는 이러한 성능 간격을 줄이기 위해 이중 언어 음성 자가 교육 모델에 제한된 비주얼 기반을 도입하는 새로운 접근 방식을 탐구합니다.

2025년 9월 25일 오전 12시 00분Apple

Hugging Face Optimum, ONNX Runtime 및 양자화를 사용한 엔드 투 엔드 트랜스포머 모델 최적화의 코딩 구현

이 튜토리얼에서는 Hugging Face Optimum을 사용하여 트랜스포머 모델을 최적화하고 정확도를 유지하면서 빠르게 만드는 방법을 안내합니다. DistilBERT를 SST-2 데이터셋에 설정한 다음 일반 PyTorch 및 torch.compile, ONNX Runtime 및 양자화된 ONNX를 비교합니다.

2025년 9월 23일 오후 7시 28분

TADA: 훈련 불필요한 증가된 동역학을 활용한 개선된 확산 샘플링

이 연구에서는 이미지넷512에서 비교 FID에 대해 현재 최신 기술 솔버보다 최대 186% 빠른 새로운 샘플링 방법을 소개합니다. 이 새로운 샘플링 방법은 훈련 불필요하며 상평면 상미분 방정식(ODE) 솔버를 사용합니다. 높은 차원의 초기 잡음을 사용함으로써 빠른 샘플링을 가능하게 합니다.

2025년 9월 22일 오전 12시 00분Apple

이산형 뉴럴 플로우 샘플러와 로컬 등변 변환기

DNFS는 이산 샘플링을 위한 훈련 가능하고 효율적인 프레임워크로, 연속 시간 마르코프 체인의 비율 행렬을 학습하여 결과적인 역학이 콜모고로프 방정식을 만족하도록 합니다. 이 목표는 추정 불가능한 파티션 함수를 포함하므로, 이에 대한 분산을 줄이기 위해 제어 변수를 사용합니다.

2025년 9월 22일 오전 12시 00분Apple

에너지를 따라가면, 길을 찾다: 에너지 기반 모델로부터의 리만 거리측정

고차원 공간에 있는 두 데이터 포인트 사이의 가장 짧은 경로는 무엇인가? 유클리드 기하학에서는 답이 간단하지만, 데이터가 곡률 다양체에 있는 경우에는 리만 거리측정이 필요하다. 이 연구에서는 사전 훈련된 에너지 기반 모델로부터 리만 거리측정을 직접 유도하는 방법을 제안한다. 이러한 메트릭은 공간적으로 정의된다.

2025년 9월 22일 오전 12시 00분Apple

xAI가 Grok-4-Fast를 출시: 2백만 토큰 컨텍스트와 툴 사용 강화 학습(Reinforcement Learning)을 통한 엔드 투 엔드로 훈련된 통합 추론 및 비추론 모델

xAI가 Grok-4-Fast를 소개했는데, 이는 “추론”과 “비추론” 행동을 시스템 프롬프트를 통해 제어 가능한 단일 가중치 세트로 병합한 비용 최적화된 Grok-4의 후속 모델이다. 이 모델은 2백만 토큰 컨텍스트 창과 네이티브 툴 사용 강화 학습을 통해 높은 처리량의 검색, 코딩 및 Q&A를 대상으로 한다.

2025년 9월 20일 오전 5시 17분

AI 에이전트 구축은 5% 인공지능과 100% 소프트웨어 엔지니어링

실제 운영용 에이전트는 모델 선택이 아닌 데이터 배관, 제어 및 관측성에 달려있다. 기업 문서를 처리하고 표준화하며 관리를 시행하고 관계적 특성과 임베딩을 색인화하여 인증된 API 뒤에서 검색 및 생성을 제공하는 “문서 대화” 파이프라인에 대한 설명.

2025년 9월 18일 오후 8시 40분

효율적인 LLM 훈련과 예산 최대화를 위한 AI 스케일링 법칙 구축 방법

MIT-IBM 왓슨 AI 연구소 연구진들이 동일한 패밀리의 작은 모델을 기반으로 대형 언어 모델이 어떻게 성능을 발휘할지 추정하는 범용 가이드를 개발했다.

2025년 9월 16일 오전 11시 00분MIT News

UT Austin과 ServiceNow 연구팀, AU-Harness 발표: 오디오 LLMs의 종합평가를 위한 오픈소스 툴킷

음성 AI는 멀티모달 AI에서 중요한 분야 중 하나로 부상하고 있으며, 기계가 인간과 상호작용하는 방식을 재구성하고 있다. 그러나 모델은 빠르게 발전했지만 그 평가 도구는 발전하지 못했다. UT Austin과 ServiceNow 연구팀은 AU-Harness를 발표함.

2025년 9월 14일 오전 3시 11분

mmBERT 만나보기: 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용하는 인코더 전용 언어 모델, 이전 모델보다 2-4배 빠름

새로운 다국어 인코더가 필요한 이유와 XLM-RoBERTa가 지배한 다국어 NLP 분야에서 새로운 mmBERT 모델의 소개. 인코더만으로 구성된 mmBERT 모델은 이전 모델보다 2-4배 빠르고 1800개 이상의 언어로 사전 훈련된 3T 토큰을 사용한다.

2025년 9월 11일 오전 2시 45분

DeepSpeed를 활용한 확장 가능한 트랜스포머 구현: 그래디언트 체크포인팅과 병렬성을 이용한 고급 훈련

이 고급 DeepSpeed 튜토리얼에서 대형 언어 모델을 효율적으로 훈련하기 위한 최신 최적화 기술의 실용적인 안내를 제공합니다. ZeRO 최적화, 혼합 정밀도 훈련, 그래디언트 누적, 고급 DeepSpeed 구성을 결합하여 GPU 메모리 이용률을 극대화하고 트랜스포머 모델의 확장을 가능하게 하는 방법을 보여줍니다.

2025년 9월 6일 오후 7시 57분

Microsoft AI, rStar2-Agent 소개: 14B 수학 추론 모델, 에이전틱 강화학습으로 학습하여 선도 수준 성능 달성

대형 언어 모델은 수학적 추론에서 진전을 이루었지만, 긴 연쇄 사고 과정을 통해 ‘더 오래 생각하는’ 것에는 근본적인 한계가 있다. 마이크로소프트의 rStar2-Agent는 에이전틱 강화학습을 통해 훈련된 14B 수학 추론 모델로, 선도 수준의 성능을 달성했다.

2025년 8월 30일 오전 2시 41분

구글 AI의 새로운 회귀 언어 모델(RLM) 프레임워크, LLM이 원시 텍스트 데이터에서 산업 시스템 성능 예측 가능하게 함

구글의 새로운 회귀 언어 모델(RLM) 접근 방식은 복잡한 피쳐 엔지니어링이나 엄격한 테이블 형식에 의존하지 않고 대용량 언어 모델(LLMs)이 원시 텍스트 데이터에서 산업 시스템 성능을 예측할 수 있게 합니다.

2025년 8월 27일 오전 3시 04분

MLSecOps(머신러닝을 위한 안전한 CI/CD)란?: 최고의 MLSecOps 도구(2025)

머신러닝이 산업을 변혁하고 금융 서비스, 의료, 자율 시스템 및 전자 상거래와 같은 다양한 분야에서 혁신을 주도하고 있지만, 조직이 ML 모델을 대규모로 운영화할 때 전통적인 소프트웨어 전달 방식인 CI/CD가 머신러닝 워크플로에 적용될 때 중요한 간극을 드러내고 있다.

2025년 8월 26일 오전 5시 02분

당신의 LLM은 이야말로 그것이 고쳐져야 하는 것보다 5배 더 느리다. 그 이유는? 비관주의 – 그리고 스탠포드 연구진이 방법을 보여주었다

AI의 빠른 세계에서 대형 언어 모델(LLMs)은 챗봇부터 코드 어시스턴트까지 모든 것을 구동한다. 그러나 당신의 LLM 추론은 응답 생성 과정이 최대 5배 더 느릴 수 있다. 이유는 출력 길이의 불확실성을 다루는 너무 조심스러운 방식 때문이다.

2025년 8월 26일 오전 3시 08분

GluonTS에서 유연한 다중 모델 워크플로우 구축을 위한 코딩 가이드

GluonTS를 활용하여 복잡한 합성 데이터셋을 생성하고 다중 모델을 병렬로 적용하는 방법에 대해 다루는 튜토리얼. 다양한 추정기를 동일한 파이프라인에서 사용하고 누락된 종속성을 우아하게 처리하여 유용한 결과물을 생성하는 방법에 초점을 맞춘다. 평가 및 시각화 단계를 포함하여 결과를 분석한다.

2025년 8월 24일 오후 4시 35분

Zhipu AI, 컴퓨터 사용 에이전트를 위한 엔드투엔드 강화학습 확장 AI 프레임워크 ComputerRL 공개

Zhipu AI가 ComputerRL을 소개했다. 본 프레임워크는 에이전트에게 복잡한 디지털 작업 환경을 탐색하고 조작할 능력을 부여하는 것을 목표로 한다. 이 혁신은 AI 에이전트 개발에서 핵심적인 도전 과제를 해결하는데, 즉 컴퓨터 에이전트와 인간이 디자인한 GUI 간의 연결 부재를 해소한다.

2025년 8월 22일 오전 4시 14분

암시적 신경 표현과 함께 비음수 행렬 인수분해 다시 생각하기

이 논문은 IEEE 음향 및 음향 신호 처리 응용 워크샵 (WASPAA) 2025에서 수락되었습니다. 비음수 행렬 인수분해(NMF)는 정기적으로 샘플링된 데이터를 분석하는 강력한 기술이지만, 불규칙하게 샘플링된 TF 표현에도 확장하기 어려웠습니다.

2025년 8월 18일 오전 12시 00분Apple

Dagster를 활용한 머신러닝 통합 엔드 투 엔드 파티션 데이터 파이프라인 구축 및 유효성 검사를 위한 코딩 가이드

이 튜토리얼에서는 Dagster를 사용하여 고급 데이터 파이프라인을 구현한다. 맞춤형 CSV 기반 IOManager를 설정하여 자산을 보존하고, 분할된 일일 데이터 생성을 정의하며, 합성 판매 데이터를 클리닝, 피처 엔지니어링 및 모델 트레이닝을 통해 처리한다. 중간에 데이터 품질 자산 확인을 추가하여 널 값, 범위 및 범주 값 등을 유효성 검사한다.

2025년 8월 17일 오전 1시 35분

Salesforce AI가 Moirai 2.0를 발표: Salesforce의 최신 타임 시리즈 기반 모델은 디코더 전용 트랜스포머 아키텍처로 구축되었습니다

Salesforce AI Research가 Moirai 2.0을 공개했다. 이는 타임 시리즈 기반 모델의 최신 진보로, 디코더 전용 트랜스포머 아키텍처 위에 구축되어 성능과 효율성에서 새로운 기준을 세우며 GIFT-Eval 벤치마크에서 1위를 차지했다.

2025년 8월 15일 오후 4시 27분

Dynamic Fine-Tuning (DFT): 지도된 미세 조정(SFT)의 일반화 간격을 줄이는 방법

지도된 미세 조정(SFT)은 LLMs를 새로운 작업에 적응시키는 표준 기술이지만, 종종 강화 학습(RL)에 비해 일반화에서 성능이 저하됩니다. DFT는 이 간극을 줄이는 새로운 방법을 제안합니다.

2025년 8월 15일 오전 3시 17분

신경 기계 번역을 위한 최적 말뭉치 인식 훈련

말뭉치 인식 훈련(CAT)은 매우 효과적이며, CAT 모델은 데이터로부터 직접 말뭉치의 품질, 도메인 및 뉴안스를 학습하며 추론 동작을 쉽게 전환할 수 있다. 본 논문에서는 최적 말뭉치 인식 훈련 방법을 제안한다.

2025년 8월 15일 오전 12시 00분Apple

SHAP-IQ 시각화 탐색하는 튜토리얼

이 튜토리얼에서는 머신러닝 모델이 예측에 도달하는 방법에 대한 통찰을 제공하는 SHAP-IQ 시각화 범위를 탐색합니다. 이러한 시각화는 복잡한 모델 동작을 해석 가능한 구성 요소로 분해하여 각 특정 예측에 대한 기능의 개별 및 상호 작용적인 기여를 확인하는 데 도움을 줍니다.

2025년 8월 4일 오전 12시 45분

Roboflow 감독을 활용한 엔드 투 엔드 객체 추적 및 분석 시스템 구축

Roboflow 감독 라이브러리를 활용하여 객체 감지 파이프라인을 구축하는 고급 튜토리얼. 실시간 객체 추적 설정, 감지 부드럽게 처리, 비디오 스트림에서 특정 지역을 모니터링하기 위해 다각형 영역 정의 등을 다룸. 프레임을 처리하면서 경계 상자, 객체 ID 등을 주석으로 달아줌.

2025년 8월 3일 오전 5시 22분

SHAP-IQ 패키지를 활용하여 머신러닝 모델에서 Shapley 상호작용 지수(SII)를 사용해 특성 상호작용 발견과 시각화하는 방법

SHAP-IQ 패키지를 사용하여 Shapley Interaction Indices (SII)를 통해 머신러닝 모델의 특성 상호작용을 발견하고 시각화하는 방법을 탐구하는 튜토리얼. Shapley values는 AI 모델의 개별 특성 기여를 설명하는 데 효과적이지만 특성 상호작용을 포착하지 못하는데, 이를 보완하는 방법을 다룸.

2025년 8월 2일 오후 4시 33분

Trackio 만나보기: 머신 러닝 워크플로우를 간소화하고 향상시키는 무료 지역 우선 오픈 소스 실험 추적기 파이썬 라이브러리

Trackio는 머신 러닝 워크플로우에서 중요한 실험 추적을 간편하고 통찰력 있게 만들어주는 파이썬 라이브러리다. 다양한 실험 추적 솔루션들과는 달리 복잡한 설정이 필요 없으며 라이선스 비용도 없다. 사용자 데이터를 소유권이 있는 프로토콜에 가둬두지 않는다.

2025년 8월 2일 오전 3시 47분

SmallThinker 만나보기: 로컬 배포용으로 네이티브로 훈련된 효율적인 대형 언어 모델 LLMs 가족

대규모 언어 모델이 우세한 생성형 AI 환경에서, SmallThinker는 클라우드 데이터 센터용이 아닌 로컬 장치에 효율적으로 배포할 수 있는 대형 언어 모델 가족이다. 클라우드 규모 모델을 압축하는 대신, SmallThinker는 일반 사용자들이 노트북, 스마트폰 또는 임베디드 시스템에 고급 AI를 개인적이고 효율적으로 배포할 수 있게 한다.

2025년 8월 1일 오전 3시 45분

Zhipu AI, GLM-4.5 시리즈 공개: 하이브리드 추론으로 오픈소스 에이전틱 AI 재정의

Zhipu AI가 공개한 GLM-4.5 시리즈는 통합된 에이전틱 능력과 오픈 액세스에 높은 기준을 제시하여 추론과의 간극을 줄이고 있다. GLM-4.5 및 GLM-4.5-Air은 인공지능 기반 모델의 경관을 빠르게 변화시키고 있다.

2025년 7월 28일 오후 1시 17분

정보 기하학과 모델 압축에서의 반복 최적화: 연산자 인수분해

딥러닝 모델의 매개변수 수가 증가함에 따라 자원 제한된 장치에 배포하기 위한 효과적인 압축 기술이 필요하다. 이 논문은 정보 기하학을 적용하여 모델 압축 영역에서 기존 방법을 분석하고, 주로 연산자 인수분해에 초점을 맞춘다. 이 관점을 채택함으로써 핵심 과제를 강조하는데, 최적의 저연산 하위다양체(또는 부분집합)를 정의하고 그 위에 투영하는 것이다. 많은 성공적인 모델 압축 접근법이 이해될 수 있다고 주장한다.

2025년 7월 25일 오전 12시 00분Apple

연구자들이 화학 속성 예측을 돕는 새로운 머신러닝 애플리케이션

ChemXploreML은 고급 화학 예측을 보다 쉽고 빠르게 할 수 있게 해주며, 깊은 프로그래밍 기술을 요구하지 않는다.

2025년 7월 24일 오후 1시 00분MIT News

아마존 연구원들이 밝힌 Mitra: 합성 사전을 활용한 타블러 기계 학습 발전

아마존 연구원들이 Mitra를 발표했다. Mitra는 타블러 데이터용으로 특별히 설계된 첨단 기반 모델로, 각 데이터셋마다 특별한 모델을 맞춤 제작하는 전통적 방법과 달리, 인-컨텍스트 학습(ICL)과 합성 데이터 사전학습을 활용하여 타블러 기계 학습 벤치마크에서 최첨단 성능을 달성한다. Mitra는 AutoGluon 1.4에 통합되어 강력한 일반화를 제공하며 혁신적인 기능을 제공한다.

2025년 7월 23일 오후 6시 59분

Boolformer: 심볼릭 회귀를 위한 논리 함수 및 트랜스포머

Boolformer는 불리언 함수들의 심볼릭 회귀를 수행하는 Transformer 기반 모델로, 훈련 중이 아닌 복잡한 함수에 대한 간결한 공식을 예측할 수 있음을 보여줌. 불완전하거나 잡음이 있는 관측에서도 좋은 근사 표현을 찾을 수 있음을 입증하며, 실제 이진 분류 데이터셋에서 Boolformer를 평가하여 해석 가능한 대안으로의 잠재력을 보여줌.

2025년 7월 21일 오전 12시 00분Apple

EG-CFG: 실시간 실행 피드백으로 코드 생성 향상

LLMs는 코드를 생성하는 데 있어서 중요한 발전을 이루었지만, 주로 정적 코드 예제에서 패턴을 인식하는 데 의존하고 실행 중 코드의 동작 방식을 이해하는 데는 그렇지 않습니다. 이로 인해 종종 올바르게 보이지만 실행 시 실패하는 프로그램이 생성됩니다. 최근 방법은 반복적인 개선과 자체 디버깅을 소개하지만 일반적으로 […]

2025년 7월 18일 오후 7시 37분

AegisLLM: 추론 시간에 적응형 다중 에이전트 시스템을 통한 LLM 보안 확장

LLM은 빠르게 진화하는 공격의 주요 대상이며, 현재의 보안 기술은 정적인 방어 메커니즘에 의존하므로 취약하다. AegisLLM은 적응형 다중 에이전트 시스템을 활용하여 LLM 보안을 확장하고자 한다.

2025년 7월 18일 오후 6시 58분

사전 학습 데이터가 대상 작업과 일치할 때 언어 모델이 개선됩니다

데이터 선택 방법은 대상을 가지고 있으며, 이를 명시적으로 최적화할 때 어떤 일이 벌어지는지를 탐구하기 위해 벤치마크 대상 순위(BETR) 방법을 제안하고 있다. 이 방법은 벤치마크 학습 예제와 유사성에 기반한 사전 학습 문서를 선택하는 간단한 방법으로, 모델의 성능을 향상시킬 수 있다.

2025년 7월 18일 오전 12시 00분Apple

블록 희소 벡터를 통한 개인 및 효율적인 집계

이 연구는 두 서버 시스템에서 높은 차원 벡터의 안전한 집계 문제를 재방문하며, 개인 연합 학습에서 그래디언트와 같은 벡터를 집계하는 데 사용되는 Prio와 같은 시스템을 다룬다. 기존 방법은 차원과 통신량을 필요로 하지만, 우리는 차원에 비례하지 않는 효율적인 처리가 가능한 PREAMBLE를 제안한다.

2025년 7월 16일 오전 12시 00분Apple

MetaStone-S1가 인공지능 추론을 위한 선도적인 반사 생성 모델로 만드는 이유는 무엇인가요?

MetaStone-S1은 새로운 반사 생성 형태를 통해 OpenAI o3-mini의 성능을 달성하는 반사 생성 모델로, 기존의 LLMs와는 다른 Test-Time Scaling (TTS) 방식을 사용하여 추론 성능을 향상시킵니다.

2025년 7월 15일 오전 3시 18분

1 2 다음 »

최신뉴스 전체보기