
생성 모델이 흔해지면서 생성 프로세스에 대한 세밀한 제어가 필요하다. 이 연구에서는 모델의 제어 가능성에 대한 이론적 프레임워크를 제공하며, 대화 설정에서 모델의 제어 가능한 집합을 추정하기 위한 새로운 알고리즘을 제안한다. 추정 오차에 대한 형식적 보증을 제공한다.
#

생성 모델이 흔해지면서 생성 프로세스에 대한 세밀한 제어가 필요하다. 이 연구에서는 모델의 제어 가능성에 대한 이론적 프레임워크를 제공하며, 대화 설정에서 모델의 제어 가능한 집합을 추정하기 위한 새로운 알고리즘을 제안한다. 추정 오차에 대한 형식적 보증을 제공한다.
#

시간에 따른 속도장으로 매개변수화된 플로우 모델은 ODE를 통해 노이즈에서 데이터를 생성할 수 있다. 이 모델들은 종종 플로우 매칭을 사용하여 훈련되는데, 이는 무작위 노이즈와 타겟 지점 쌍을 샘플링하고, 평균적으로 속도장이 x1−x0에 맞게 정렬되도록 보장하는 것이다.

두 가지 수작업 신호를 결합하는 경량화된 퓨전 모델을 활용하여 더 작은 모델로 더 높은 정확도를 달성하는 것을 보여줌. 저주파수 웨이블릿-노이즈 제거 특징과 공간-위상 얕은 학습 맵을 결합하는 LFWS, 그리고 지역 이진 패턴과 WDF를 병합하는 LFWL을 소개. 이 추가 모듈은 292개의 파라미터만 추가되어 총 21.9백만 파라미터로 유지됨.

대형 언어 모델은 종종 신뢰성을 저해하는 지지 않는 콘텐츠를 생성하는데, 이를 환각이라고 한다. 환각 구간을 식별하는 것은 다단계 의사 결정 과정이 필요한데, 명시적 추론이 이 복잡한 작업을 돕는지에 대한 질문을 냈다. 사전 훈련된 모델을 Chain-of-Thought (CoT) 추론과 함께 평가한 결과, CoT 추론이 최소한…

EMBridge는 EMG 신호를 통해 제스처 예측을 개선하는데 사용되며, 고품질 데이터와 저전력 생체 신호를 결합하여 제스처 일반화를 가능하게 합니다.

대형 언어 모델(Large Language Models, LLMs)의 확대 배포로 인해 발생할 수 있는 해로운 콘텐츠 생성에 대한 우려가 있음. 연구는 안전하지 않은 정보 생성을 방지하기 위한 필터에 초점을 맞추며 계산적 도전 과제를 밝힘. 입력 프롬프트 필터링과 출력 필터링의 어려움을 보여줌.

프론트엔드 개발자들은 UI 구성 요소를 매개변수화하여 재사용성을 높이지만, 이는 인스턴스화를 어렵게 만든다. 이를 해결하기 위해 구별 가능한 변형을 도입하여 디자인 공간 샘플링과 심볼적 추론을 결합하고 있다.

사용자가 찾는 내용을 돕기 위해 대규모 상업 검색 시스템은 관련성에 최적화되며, 이를 위해 행동적 관련성과 텍스트 관련성을 활용하는데 전문가가 제공하는 텍스트 관련성 라벨이 부족한 문제를 해결하기 위해 LLM 구성을 체계적으로 평가하여 특화된, 섬세하게 조정된 모델을 사용한다.

A.R.I.S.는 자동 분류 시스템으로, 낮은 비용의 이동식 분류기로 파쇄된 E-폐기물의 금속, 플라스틱, 회로 기판을 실시간으로 분류하여 자원 회수 효율을 높입니다. YOLOx 모델을 사용하여 저렴한 비용으로 빠른 추론 속도와 높은 정확도를 달성합니다.

대형 언어 모델(Large Language Models, LLMs)은 음성 입력에 대한 텍스트 능력을 확장하기 위해 적응될 수 있지만, 이러한 음성 적응형 LLMs는 일관적으로 텍스트 기반 대조군 및 심지어 연쇄 파이프라인에서 언어 이해 작업에서 성능이 떨어집니다. 이 글에서는 이러한 갭을 ‘텍스트-음성 이해 간격’이라고 정의하고, 최근 이 갭을 줄이기 위한 접근 방식들에 대해 다루고 있습니다.

LLMs의 내부 작업을 조사한 이전 연구에서는 특정 작업을 수행하는 희소한 하위 네트워크 또는 회로가 발견되었습니다. 이러한 연구 결과를 토대로 기존 회로를 강화함으로써 모델 성능을 향상시키는 것이 가능하다는 가능성을 제시했습니다. 이를 바탕으로 Constructive Circuit Amplification이라는 새로운 방법을 제안하고 있습니다.

이 연구는 단일 추출기가 모든 웹페이지에 적용되는 기존 오픈소스 데이터셋이 인터넷 데이터의 최적 커버리지와 활용을 제공하는지 조사한다. 다양한 추출기가 표준 언어 이해 작업에서 유사한 모델 성능을 보일 수 있지만, 고정된 필터링 파이프라인을 거쳐 남은 페이지들은 크게 다를 수 있다.

AMUSE는 대화 중심 환경에서 활용되는 음향-시각적 다중 화자 이해에 중점을 둔 벤치마크 및 정렬 프레임워크이다. 최근의 다중 모달 대형 언어 모델은 강력한 지각 능력을 보이지만, 화자 추적, 역할 유지 및 시간 경과에 걸쳐 사건을 논리적으로 연결하는 다중 화자 상황에서 어려움을 겪는다. AMUSE는 음향 및 시각적 스트림에 대해 공동으로 추론해야 하는 다중 모달 오디오-비디오 이해에 중점을 둔 벤치마크로, 대화형 비디오 어시스턴트 및 회의 분석과 같은 응용 프로그램에서 활용된다.

CoT prompting은 대형 언어 모델로부터 추론과 유사한 응답을 유도하기 위한 표준 기법이다. 그러나 CoT 추론의 성공을 이끄는 주요 요인은 여전히 불분명하다. 본 연구에서는 경쟁 수준의 수학 문제에서 유래한 CoT 트레이스를 분석하여 CoT의 어떤 부분이 최종 답변에 기여하는지에 대해 더 잘 이해하고자 한다.

PyTorch 2.x에서는 딥러닝 프로그램 가속화를 위한 컴파일러가 도입되었지만, 머신러닝 연구원들에게는 PyTorch 컴파일러에 완전히 적응하기 어려울 수 있습니다. 이를 해결하기 위해 PyTorch 컴파일러의 내부 작업을 명확하게 하는 도구인 depyf가 소개되었습니다.

대규모 언어 모델의 증가하는 크기로 효율적인 추론이 어려워지고 있으며, 이는 주로 자기회귀 키-값 캐시의 메모리 요구 때문이다. 기존의 축출 또는 압축 방법은 비용을 줄이지만, 토큰의 미래 유효성에 대한 간접적인 대리인으로만 기능하는 휴리스틱에 의존한다. 우리는 KV 캐시 축출을 강화 학습 문제로 재구성하여 미래 디코딩을 위한 토큰의 예측된 유용성에 따라 토큰을 순위 지정하는 것을 학습한다. 이를 위해 우리는 KV 정책(KVP)이라는 프레임워크를 도입한다.

추리와 계획은 지능적인 AI 시스템의 기반으로, 상호작용, 적응, 독립적 운영을 가능케한다. 애플은 AI 시스템의 추리 능력을 이해하고 발전시키는데 중점을 두고 있으며, 지난해 이에 대한 워크샵을 개최했다.

검색 시스템의 중요한 기능인 검색어 자동완성(QAC)을 개선하기 위해 검색 증강 생성과 다중 목적 정렬을 통해 QAC를 종단 간 리스트 생성으로 재정의하는 통합 프레임워크를 제안합니다. 기존 방법론의 한계를 극복하고 안전성을 높이는 방법을 소개합니다.

Ferret-UI Lite는 소형 장치용 GUI 에이전트로, 모바일, 웹, 데스크톱 등 다양한 플랫폼에서 작동한다. 작은 모델을 개발하기 위해 최적화된 기술을 활용하여 실제와 합성 데이터를 활용하고 추론 시간 성능을 강화하는 등의 기법을 사용해 3B Ferret-UI Lite 에이전트를 구축했다.

머신러닝 모델이 특정 입력에 대해 정확성을 어떻게 입증할 수 있을까? 이 논문은 Self-Proving 모델을 훈련시켜 자체 출력의 정확성을 확인 알고리즘에 증명하는 이론적인 해결책을 제안한다. Self-Proving 모델은 주어진 분포에서 샘플링된 입력에 대해 높은 확률로 올바른 출력을 생성하고 그 정확성을 확인 알고리즘에 성공적으로 입증한다.

대형 언어 모델(Large language models, LLMs)은 검색, 어시스턴스, 에이전틱 워크플로우의 핵심 경로에 있어 의미 캐싱이 추론 비용과 대기 시간을 줄이기 위해 필수적이다. 정적-동적 설계를 사용하며 오프라인에서 채굴된 검증된 응답의 정적 캐시와 온라인으로 채워지는 동적 캐시로 구성된다. 일반적으로 두 티어는 단일 임베딩 유사도 임계값으로 조정되는데, 이는 보수적 임계값은 안전한 재사용 기회를 놓치게 하고 공격적인 임계값은 의미적으로 정확하지 않은 것을 제공할 위험을 가지게 한다.

소규모 모델로 진행되는 연구는 어떤 것이 가능할까? 대부분의 연구자들이 대형 언어 모델(Large Language Models, LLMs)을 통해 프로그램 합성을 연구하지만, 이는 분포 내외의 구분, 파인튜닝 효과, 토크나이제이션 효과를 이해하고, 연구를 수행하기 위해 컴퓨팅 및 저장에 높은 요구를 일으킨다. Cadmus라는 시스템을 소개하는데, 이는 정수 가상 머신(VM), 다양한 작업의 진정한 프로그램으로 구성된 데이터셋, 그리고 약 200달러의 컴퓨팅 자원으로 훈련된 자가 회귀 트랜스포머 모델을 포함한다.

논문에서는 최근 주목을 받고 있는 확률적 변분부등식을 해결하기 위한 연합 최적화를 연구했다. 기존의 수렴율과 연합 볼록 최적화에 대한 최신 경계 사이에는 큰 간격이 남아있었는데, 이 한계를 개선하기 위해 개선된 수렴율을 제시하고 있다.

대규모 모델의 훈련 안정성과 최종 성능에 하이퍼파라미터 튜닝이 중요한데, 최적의 전역 하이퍼파라미터를 다양한 모델 크기에 전이할 수 있는 방법을 제안하는 연구가 있다. 이 연구는 완전한 매개변수화를 제안하여 너비와 깊이에서의 스케일링을 통합하고 있음.

사용자가 컴퓨터 사용 에이전트와 상호작용하는 방법과 디자인 요인에 대해 조사한 결과, 사용자 프롬프트, 설명 가능성, 사용자 제어 등이 사용자 경험에 영향을 미친다는 선행 연구 결과를 바탕으로 컴퓨터 사용 에이전트의 사용자 경험 디자인 공간을 매핑하는 연구를 실시했다.

이 연구에서는 대규모 추론 모델에서 추론 Trace Length가 간단하고 유용한 신뢰 추정자임을 보여줍니다. 다양한 모델, 데이터셋 및 프롬프트에 걸쳐 철저한 실험을 통해 Trace Length가 언어적 신뢰와 같은 영점 신뢰 추정자와 비교 가능하게 수행됨을 보여줍니다.

대규모 트랜스포머 기반 대형 언어 모델의 효율적인 추론을 위해 병렬 트랙 트랜스포머를 소개한다. 기존 방식의 텐서 병렬화는 GPU 간 동기화로 통신 병목 현상을 초래하는 반면, 새로운 아키텍처 패러다임인 PT 트랜스포머는 계산을 재구성하여 교차 장치 종속성을 최소화하며 최대 16배의 성능 향상을 이룬다.

물체와 그 부분들의 구성, 물체 간 위치 관계는 풍부한 정보원으로 작용한다. 이를 고려하여 공간 인식적 선행 작업이 자가지도학습에서 활발히 탐구되었다. 기존 연구들은 주로 고정된 그리드 내에서 패치의 절대 위치 인덱스를 예측하는 것을 목표로 하는데, PART라는 자가지도학습 방법을 소개한다.

VSSFlow는 비디오-음성(V2S) 및 시각 텍스트 음성(VisualTTS) 작업을 포괄하는 비디오 조건 음성 및 음성 생성을 효율적으로 통합하는 방법을 제시한다. V2S와 VisualTTS를 단일 프레임워크 내에서 통합하는 것은 여전히 열린 문제이다.

6G 애플리케이션을 위해 극코드 디자인을 발전시키기 위해, 강화 학습 기반의 범용 시퀀스 디자인 프레임워크를 개발했다. 이 방법은 다양한 채널 조건과 디코딩 전략에 대응할 수 있으며, 코드 길이가 2048까지 확장 가능하므로 표준화에 적합하다. 5G에서 지원하는 모든 (N,K) 구성에 대해, 우리의 방법은 5G에서 채택된 NR 시퀀스에 대비하여 경쟁력 있는 성능을 보이며, N=2048에서 beta-expansion 기준에 비해 최대 0.2 dB의 이득을 얻는다. 더불어 핵심 요소를 강조한다.

자기 지도 학습은 레이블이 달린 샘플의 명시적 감독 없이 모델이 데이터의 기저 구조를 이해하는 기계 학습 패러다임이다. 자기 지도 학습에서 얻은 표현은 클러스터링, 선형 분류 등 다양한 하위 작업에 유용하게 쓰인다. 대부분의 자기 지도 학습 방법은 주어진 인스턴스와 유사한 관측치 쌍을 생성할 수 있는 능력에 의존하지만, 이러한 쌍을 생성하는 것은 많은 유형의 데이터에 대해 어려울 수 있다. 또한, 이러한 방법들은 고려 사항이 부족하다.

대형 언어 모델의 불확실성을 전달하는 일반적 방법은 응답에 백분율 숫자나 불확실성을 나타내는 단어를 추가하는 것이다. 그러나 이것이 우리가 할 수 있는 전부일까? 사용자에게 완전히 투명한 LLM은 내부 믿음 분포에 반사하고 가능한 모든 옵션과 그 가능성을 요약하여 출력해야 한다. LLM이 이 능력을 가지고 있는지 테스트하기 위해 SelfReflect 측정 항목을 개발한다.

VLSU는 비전과 언어를 따로 다루는 안전 평가 방법의 한계를 극복하기 위해 만들어졌습니다. 이를 통해 다중 모달 콘텐츠의 안전을 세밀하게 평가하고 위험성을 분류하며 안전한 콘텐츠와 유해한 콘텐츠를 명확히 구분할 수 있습니다.

음성 LLMs에서 정확한 토큰 매칭이 지나치게 제한적일 때, Acoustic Similarity Groups (ASGs) 수준에서 제안을 확인하는 Principled Coarse-Graining (PCG)의 소개

대형 언어 모델은 강화 학습(RL)에서 뛰어나지만, 이 잠재력을 완전히 발휘하려면 중간 훈련 단계가 필요하다. 효과적인 중간 훈련 단계는 유용한 행동들의 압축된 집합을 식별하고 온라인 RL을 통해 이들 중 빠르게 선택할 수 있어야 한다. 이 논문은 중간 훈련이 후속 훈련을 어떻게 형성하는지에 대한 최초의 이론적 결과를 제시한다. 이는 가지치기로 인한 가치 근사 오차와 이후 계획 중 발생하는 RL 오차를 모두 최소화하는 행동 부분 공간을 특성화한다. 우리의 분석은 중간 훈련의 효과성의 두 가지 주요 결정 요인을 밝혀냈다.

Diffusion large language models (dLLMs)는 코드 생성에 특히 유용한 전역 계획 및 반복적 수정 기능을 갖추고 있으며, 현재의 훈련 및 추론 메커니즘은 아직 탐구되지 않았다. 이 연구에서는 dLLMs의 복호화 행동을 파헤치고 코딩에 대한 잠재력을 발휘하기 위해 그들의 노이즈 제거 프로세스와 강화 학습 방법을 체계적으로 조사했다.

RNN은 순차적 특성으로 인해 병렬 계산을 제한하지만, ParaRNN은 이를 극복하는 프레임워크로, 선형 제약을 극복하고 복잡한 비선형 시퀀스 의존성 모델링을 가능케 함.

대규모 모델은 다양한 품질의 문서를 포함하는 대규모 웹 크롤링 데이터셋에서 사전학습되는데, 데이터 필터링이 필수적이다. 분류기 기반 품질 필터링(CQF)은 사전학습 데이터와 소규모 고품질 세트를 구분하는 이진 분류기를 훈련시키는 인기 있는 방법이다. 이 연구는 CQF에 대한 깊은 분석을 제공하며, CQF가 하류 작업 성능을 향상시키지만 반드시 고품질 언어 모델링을 향상시키지는 않는다는 것을 보여준다.

실제 응용 프로그램에서의 멀티모달 대형 언어 모델(MLLMs)은 외부 지식 원본에 액세스해야 하며 정보 탐색 및 지식 집약적 사용자 쿼리를 처리하기 위해 동적이고 끊임없이 변화하는 실세계 정보에 반응해야 합니다. 기존 방법들은 제한적인 파이프라인, 과도한 검색 호출 및 부적절한 검색 쿼리로 효율성과 최적화된 결과를 얻는 데 어려움을 겪습니다. 이러한 제한 사항을 해결하기 위해 우리는…

검색 보강 대형 언어 모델은 외부 검색을 통합하여 지식 친화적 작업에서 뛰어난 성과를 보이지만 종종 초검색 현상이 발생하여 응답 품질을 향상시키지 않는 경우에도 검색 도구를 불필요하게 활용하며, 이로써 연산 효율성이 저하되고 관련 없는 문맥이 포함되어 환각을 유발합니다.

기계 학습 모델의 불확실성을 양적화하기 위한 형식 예측은 다변량 공간에서 점수를 확장하는 것이 어렵다. 이 연구는 최적 운송을 활용하여 다변량 형식 예측을 수행한다.

대형 언어 모델의 생성 품질은 추론 시퀀스 수준 스케일링 방법을 활용하여 개선되는데, 이에 보조적인 프레임워크로 토큰 수준에서 예측 품질을 향상시키는 초병렬 스케일링을 소개합니다. RoE는 MoE 모델에 구현된 개념으로, 단일 MoE를 MoE의 동적 앙상블로 변환하는 훈련 없는 추론 알고리즘입니다.

Manzano는 시각적 콘텐츠를 이해하고 생성할 수 있는 통합 다중 모달 대형 언어 모델(LLM)을 제안한다. 이미지 토크나이저와 훈련 레시피를 결합하여 성능 트레이드오프를 크게 줄이는 간단하고 확장 가능한 통합 프레임워크이다. 단일 공유 비전 인코더가 두 가벼운 어댑터로 연결되어 이미지에서 텍스트 이해 및 텍스트에서 이미지 생성을 위한 지속적인 임베딩과 이산형 토큰을 제공한다.

스마트 웨어러블 기기를 통해 심박수, 심박변이성, 혈중 산소 포화도 등을 연속 추적할 수 있는데, 이를 통해 PPG 파형에는 최근 딥러닝 연구에서 보듯이 더 많은 생리학적 정보가 포함되어 있다. 그러나 DL 모델은 종종 생리학적 의미가 불명확한 피처에 의존하기 때문에 예측력, 임상 해석 가능성 및 센서 설계 사이에 긴장이 생긴다. 이 갭을 PPGen이라는 바이오피지컬 모델을 통해 해결하고 PPG 신호를 해석 가능한 생리학적 및 광학적 정보에 관련시킨다.

음성 기본 모델은 다양한 작업에서 놀라운 성능을 보이고 있지만, 여전히 작업과 모델 유형에 따라 분리된 평가를 받고 있다. 이 논문은 “어떤 모델에 어떤 평가가 적합한가?”라는 질문에 대한 통합적인 분류 체계를 제안한다. 분류 체계는 측정되는 평가 측면, 작업을 수행하기 위해 필요한 모델 기능, 그리고 수행해야 하는 작업 또는 프로토콜 요구 사항을 정의하는 세 가지 직교하는 축을 정의한다.

최근의 테스트 시간 정렬 방법인 Best-of-N 샘플링은 보상 모델(RM)을 사용하여 언어 모델(LM)을 선호하는 동작으로 유도하는 간단하고 효과적인 방법을 제공한다. 그러나 이러한 방법은 정렬 난이도의 차이를 고려하지 않고 프롬프트 전반에 균일하게 적용할 때 계산 비용이 많이 발생할 수 있다. 이 연구에서는 Best-of-N 정렬에 대한 프롬프트 적응형 전략을 제안하며 추론 시간 계산을 더 효율적으로 할당한다.

현대 언어 모델의 놀라운 성능 향상은 주로 파라미터의 확장에 의존하고 있습니다. 이에 대한 대응으로 메모리 보강 구조와 기존 하드웨어 패러다임과 일치하는 사전훈련 전략을 소개합니다. 세부 지식을 인코딩하는 대규모 계층적 파라미터 메모리 은행에 접근하는 소규모 언어 모델을 도입합니다.

인터페이스 에이전트는 사용자 명령에 기반해 작업을 자동화하는데, 에이전트를 개발하는 중요한 측면은 사용자 경험이다. 본 연구에서는 AI 엔지니어 이외의 다양한 사람들이 에이전트 경험을 프로토타입화할 수 있는 스캐폴드를 제공하는 것의 필요성을 탐구한다. 12명의 참가자와 요구사항 수집 연구를 통해 에이전트 프로토타이핑 시스템이 제공해야 할 기능을 탐색했다.

대부분의 LLM은 대규모 데이터로 훈련되었지만 잘 디자인된 UI를 신뢰할 수 없다. 디자이너 피드백은 UI 생성의 성능을 향상시키는 데 필수적이다. 본 논문에서는 디자이너가 UI 생성 모델에 피드백을 제공하는 여러 접근 방법을 조사하며, 의견 남기기, 스케치 및 직접 조작과 같은 익숙한 상호작용을 사용한다.

NarrativeTrack는 비디오에서 이야기 전개를 평가하는 첫 번째 벤치마크로, 시간적으로 펼쳐지는 이야기를 이해하는 능력을 평가한다. 이는 동적 비주얼 및 시간적 맥락에서 일관된 엔티티 표현을 유지하며 누가 언제 어디서 무엇을 하는지를 기반으로 한 엔티티 중심 추론을 통해 MLLMs의 이야기 이해 능력을 평가한다.

BED-LLM은 대형 언어 모델이 사용자나 외부 소스로부터 정보를 지능적이고 적응적으로 수집하는 능력을 향상시키기 위한 일반적인 방법론을 제안한다. 이는 LLM이 효과적인 다중 대화형 에이전트로 작용하고 외부 환경과 상호작용할 수 있게 한다. BED-LLM은 정보 획득의 기대값을 최대화하는 질문이나 쿼리를 반복적으로 선택함으로써 작동한다.

새로운 엔티티의 지식 그래프 완성에 대한 도전을 극복하기 위해 Agentic Reasoning for Emerging Entities (AgREE)를 소개한다. 기존 방법들이 지식 모델의 파라미터, 미리 만들어진 쿼리 또는 단일 단계 검색에 의존하는 반면, AgREE는 신생 엔티티에 대한 종합적이고 최신 정보를 캡처하는 노력을 한다.

완벽한 보정에 대한 의사 결정 이론적 특성은 완벽하게 보정된 예측기를 후처리함으로써 결과를 개선할 수 없음을 말한다. CDL은 후처리를 통해 얻을 수 있는 최대한의 개선을 측정하는 근사 보정 측도로 소개되었지만, 오프라인 설정에서는 심지어 약간의 근사도로도 추정하기 어렵다. 이를 우회하기 위한 방법을 제안한다.

두 당사자가 확률 분포를 가지고 있고, 공통으로 알고 있는 함수를 통해 추정을 목표로 하는 분산 추정 문제를 연구한다. 이 문제는 스케치, 데이터베이스 및 학습과 같은 다양한 분야에서 발생한다. 목표는 필요한 통신이 어떻게 변화하는지 이해하는 것이다.

텍스트로 이미지를 편집하는 것은 시각적 콘텐츠를 수정하는 자연스럽고 표현력 있는 방법이 되었지만, 이러한 모델의 성능을 평가하는 것은 여전히 어렵다. 기존의 평가 방법은 주로 CLIP와 같은 이미지-텍스트 유사성 지표에 의존하며 정확도가 부족하다. 이 연구에서는 텍스트로 안내된 이미지 편집 모델을 보다 근거 있는 방식으로 평가하기 위한 새로운 벤치마크를 소개한다.

극한 저조도 조건에서의 고품질 사진 촬영은 디지턈 카메라에 있어 어렵지만 중요하다. 전통적인 카메라 이미지 신호 처리기 알고리즘 대신 효율적인 심층 신경망이 노이즈가 많은 Raw 이미지를 더 지능적으로 향상시키고 있다. 그러나 기존의 회귀 기반 모델은 종종 픽셀 오류를 최소화하고 저조도 사진이나 깊은 그림자를 과도하게 부드럽게 만든다. 최근 연구에서는 이 한계를 극복하기 위해 확산 모델을 처음부터 훈련시키려고 노력해왔지만, 이러한 모델은 여전히 선명한 이미지 세부사항을 복원하는 데 어려움을 겪고 있다.

음성 질문-응답(SQA)은 유용하고 대화형 인공지능 시스템의 핵심 능력이다. 음성 언어 모델(SpeechLMs)의 사전훈련 데이터 처리 및 선별에 대한 통제된 실험을 통해 성능을 향상시키는 방법을 탐구한다.

확산 모델은 고품질 이미지 생성을 달성하지만 느린 반복 샘플링에 제한을 받는다. 점수 증류 기법은 한 단계 또는 몇 단계의 생성을 가능하게 함으로써 이를 완화한다. 우리는 Bayes의 법칙과 조건부 기대값에 기반한 간단한 유도를 제공하여 가우시안 확산과 흐름 일치를 통합한다.

COSINE은 단일 모달리티 프롬프트에 제한된 기존 방법의 한계를 극복하기 위해 개방 세계 이미지 세분화의 빠른 발전을 경험하고, 복잡한 객체 인식 프롬프트에 필요한 유연성과 정확도를 제공하는 통합 개방 세계 세분화 모델이다.

Synthetic Bootstrapped Pretraining (SBP)은 문서 간 관계 모델을 학습하고 이를 활용하여 새로운 많은 말뭉치를 합성하는 언어 모델 사전훈련 절차이다. 기존 사전훈련은 단일 문서 내 토큰 간 인과 관계를 학습시키지만, SBP는 문서 간 상호 관계를 효율적으로 모델링하도록 설계되어 더 나은 성능을 도모할 수 있다.

UniGen-1.5는 이미지 이해, 생성 및 편집을 향상시키기 위한 통합된 다중 모달 대형 언어 모델(MLLM)이다. UniGen을 기반으로 모델 아키텍처와 교육 파이프라인을 종합적으로 개선하여 이미지 생성 및 편집 능력을 강화하였다. 특히, 이미지 생성과 편집을 모두 개선하는 통합 강화 학습(RL) 전략을 제안하였다.

SHARP는 단일 이미지로부터 사실적인 시야 합성을 제공하는 방법을 소개한다. SHARP는 단일 사진을 통해 표시된 장면의 3D 가우시안 표현의 매개변수를 회귀한다. 이는 표준 GPU에서 1초 미만으로 단일 전방향 신경망 통과를 통해 이루어진다. SHARP에 의해 생성된 3D 가우시안 표현은 실시간으로 렌더링될 수 있으며 가까운 시야에 대한 고해상도의 사실적인 이미지를 제공한다.

대형 언어 모델(LLMs)은 다양한 다국어 벤치마크에서 상당한 진전을 보여주었으며, 비영어 언어로 텍스트를 생성하고 평가하는 데 점점 더 사용되고 있다. 그러나 이러한 모델은 유창한 결과물을 만들어내더라도, 이러한 언어의 언어적 복잡성을 어느 정도까지 이해하는지는 여전히 불분명하다. 이를 조사하기 위해 우리는 IMPACT를 소개한다. 이는 굴절적 형태론에 집중한 합성으로 생성된 평가 프레임워크로, 다섯 가지 형태론적으로 풍부한 언어들에서 LLM 성능을 평가하도록 설계된 것이다.

음성 생성을 가속화하기 위해 빠른 초안 모델이 제안한 토큰을 큰 대상 모델이 확인함으로써 추론 디코딩을 가속화한다. 음성 LLMs의 경우 정확한 토큰 일치는 지나치게 제한적이므로, 우리는 Acoustic Similarity Groups(ASGs) 수준에서 제안을 검증하는 Principled Coarse-Graining (PCG)를 소개한다.

대형 언어 모델은 방대한 사전 학습 말뭉치로부터 배우며, 점점 다양한 작업을 해결하는 능력을 갖추게 된다. 그러나 연구자들은 이러한 데이터셋을 개선하는 데 노력을 기울이지만, 사전 학습 장치가 데이터에서 아이디어와 지식을 효율적으로 추출하는지에 대한 연구는 거의 없다. 본 연구에서는 테스트 시간 계산을 통해 사전 학습 과정에서 얼마나 많은 데이터셋 가치가 남아 있는지, 그리고 이것이 규모에 따라 어떻게 변하는지를 양적으로 측정하는 방법을 제시한다. 우리는 사전 학습 및 검색을 통해 표준적인 방법으로부터 검색한 후에…

MoE-PHDS는 고정된 희소성 수준에서 작동하는 Sparse Mixtures of Experts(MoEs)를 훈련시키는 대신 여러 효율성 목표를 충족시키기 위해 여러 모델을 훈련하고 유지하는 것을 간소화하고 유연성을 높이는 방법을 제시한다. 사전 훈련된 MoEs가 런타임 희소성 변화에 민감하지 않다는 것을 보여줌.

다국어 및 이중 언어 모델은 NLP 시스템을 다양한 언어와 사용자에 걸쳐 확장하는 유망한 길을 제시한다. 그러나 이들의 성능은 종종 언어에 따라 크게 다르며, 이전 연구에서 몇몇 언어의 성능을 저하시키는 반면(예: 영어), 다른 언어(일반적으로 더 많은 데이터 제약이 있는 언어들)를 향상시키는 것으로 나타났다. 본 연구에서는 두 언어 모델을 비교하여 이러한 일관성의 원인을 조사했는데, 이를 통해 데이터 품질의 불평등이 성능의 주요 원인임을 밝혀냈다.

Mirror Speculative Decoding은 속도-정확도 트레이드오프를 해결하면서 LLM 추론을 가속화하는 추론 알고리즘입니다. 이전 방법들과 달리 Mirror-SD는 지연 시간-수락률 트레이드오프를 극복하여 더 빠른 추론을 가능케 합니다.

GRACE는 대규모 언어 모델을 활용하여 전문가의 궤적으로부터 해석 가능한 코드 기반 보상 함수를 역공학하는 방법을 제시한다. 이를 통해 검증 가능한 실행 가능한 코드 형태의 보상 함수를 얻을 수 있으며 BabyAI와 AndroidWorld에서 효율적으로 학습하는 것을 실험적으로 검증했다.

Flow 모델은 데이터를 한 모드(예: 소음)에서 다른 모드(예: 이미지)로 점진적으로 변환한다. 이 모델들은 시간에 따라 변하는 속도장에 의해 매개변수화되며, 소스와 타겟 포인트를 연결하는 세그먼트를 맞추기 위해 훈련된다. 소스와 타겟 포인트 간의 매칭이 주어지면, Flow 모델 훈련은 지도 회귀 문제로 단순화된다. 그러나 매칭이 없는 경우(예: 소음에서 데이터 생성 시), 훈련이 더 어려워진다.

이 연구에서는 텍스트에서 이미지를 생성하기 위해 Diffusion Transformers(DiTs)를 실험적으로 연구하며 아키텍처 선택, 텍스트 조건화 전략 및 훈련 프로토콜에 초점을 맞춥니다. 다양한 DiT 기반 아키텍처를 평가하고, 일반 DiT 변형과 비교하여 성능 및 파라미터 효율성을 검증합니다. 결과는 표준 DiT가 특화된 모델과 비교해 성능이 비슷하면서도 특히 크게 확장될 때 우수한 파라미터 효율성을 보인다는 것을 보여줍니다.

COMPASS는 실제 여행 계획 시나리오에서 에이전트를 평가하는 벤치마크로, 여행 계획을 제한된 선호도 최적화 문제로 캐스팅하여 에이전트가 강한 제약 조건을 만족하면서 동시에 사용자 선호도를 최적화해야 합니다. 이를 지원하기 위해 현실적인 여행 데이터베이스를 구축하였습니다.

로컬 특징이 중요한 정보를 제공하는 벤치마크에서 현대 비전 모델은 놀라운 성과를 거두었습니다. 그러나 로컬 특징이 중요한 정보를 제공하지 않는 더 많은 글로벌 추론을 필요로 하는 작업에 대한 관심이 증가하고 있습니다. 이 논문에서는 그래프, 문자열, 미로 및 이미지 그리드를 포함하는 확장된 글로벌 시각 데이터셋을 소개합니다. 대형 비전 모델이 이러한 작업들을 학습하는 데 어려움을 겪는 것을 보여줍니다.

비가우시안성과 같은 강력한 가정에 의존하는 인과 발견은 어려운 문제이다. 본 연구에서는 다중 관점의 데이터를 활용하여 약한 가정으로도 인과 발견을 이루는 방법을 제안한다. 비가우시안 잡음의 잘 알려진 프레임워크를 확장하고, 다중 뷰 구조를 활용하여 다변량 선형 구조 방정식 모델을 제안한다.

CADD는 이산 상태 공간을 연속적 잠재 공간에 결합하여 점진적으로 손상된 상태를 제공함으로써 정보를 유지하는 프레임워크이다.

ChipChat은 새로운 저지연 카스케이드 시스템으로 전통적인 병목 현상을 극복하고 스트리밍 최적화를 통해 성능을 향상시킵니다.

스마트폰과 웨어러블 기기에서 수집된 데이터는 우울증과 불안과 같은 정신 건강 상태에 영향을 미치는 광범위한 생리적, 행동 및 감정 영역을 연속적으로 감지하는 정보를 제공할 수 있다. 이와 같은 디지털 표현형핑의 광범위한 적용은 연구 및 임상 관리에서 우울증과 불안을 평가하는 방식을 변화시킬 수 있지만, 이 접근 방식의 유용성을 입증하는 잘 설계된 종단적 연구가 부족했다.

본 논문은 강화학습을 자율 에이전트와 통합하여 소프트웨어 테스트 케이스 작성 프로세스의 지속적인 개선을 가능하게 하는 프레임워크를 소개한다. 기존 시스템은 대규모 언어 모델을 사용하여 정적 지식 베이스에서 테스트 케이스를 생성하는 것으로 한정되어 있지만, 제안된 강화학습 통합된 에이전틱 RAG 프레임워크는 이 한계를 극복한다.

대형 언어 모델(LLMs)은 NLP 작업 수행 능력을 크게 향상시켰지만, 더 깊은 의미론적 이해, 맥락 일관성, 미묘한 추론은 여전히 어렵다. 이 논문은 의미론적 구문 분석, 지식 통합, 맥락 강화 학습과 같은 고급 NLU 기술로 LLMs를 발전시키는 최신 방법론을 논의한다. 구조화된 지식 그래프, 검색 보강 생성(RAG), 모델을 인간 수준 이해에 맞추는 파인튜닝 전략의 활용을 분석하며, 더 나아가…

다중 모달 대형 언어 모델(MLLMs)은 실제 현장에서 점진적으로 적용되고 있으며, 출력물은 올바를 뿐만 아니라 사전 정의된 데이터 스키마에도 준수해아 합니다. 이 연구에서는 주의 깊게 설계된 SO-Bench 벤치마크를 사용하여 MLLMs의 시각적 구조적 출력 능력에 대한 포괄적인 연구를 진행합니다.

이 연구는 대규모 언어 모델(LLM)의 피처를 인간이 이해할 수 있는 설명으로 번역하는 자동 해석 기술에 대해 다룬다. 자연어 피처 설명은 종종 모호하고 일관성이 없으며 수동 재레이블링이 필요한데, 이에 대응하여 LLM 피처의 구조화된 언어 설명인 시맨틱 레귤러 익스프레션을 소개한다. 이를 통해 정확하고 표현력 있는 피처 설명이 가능해진다.

사용자 선호도를 추론하기 위해 LLMs를 사용하는데, 이는 종종 일반적이고 일반화된 선호도를 생성하여 개인의 선호도를 포착하지 못한다. 이 논문은 PREDICT를 소개하는데, 이는 추론된 선호도의 정밀도와 적응성을 향상시키기 위해 설계된 방법이다. PREDICT는 세 가지 핵심 요소를 포함한다: (1) 추론된 선호도의 반복적인 개선, (2) 선호도의 분해…

연속적인 심혈관 모니터링은 정밀의료에서 중요한 역할을 할 수 있으나 일부 기본 심장 생리지표는 침습적인 측정을 요구하는데, 광플레치스모그래피(PPG)를 이용한 하이브리드 접근 방식을 제안하여 비침습적으로 핵심 심장 생리지표를 예측하는 것을 해결하고 있다.

이 연구는 생성 모델링에서 두 단계로 모델 적합을 분리하는 것이 일반적이지만, 본 연구에서는 샘플링과 매핑을 연결하는 대안적인 방법을 탐구합니다. 모멘트 측정에 영감을 받아 잠재적으로 볼록한 u를 사용하여 샘플링과 매핑을 효과적으로 결합하였습니다.

로봇공학, 자율 주행, 공간 컴퓨팅의 발전으로 3차원 데이터가 CVML 알고리즘에 통합되면서 3D CVML 모델의 디버깅은 전통적인 성능평가 방법을 넘어서는 깊은 이해를 요구한다. 그러나 적절한 시각화 도구의 부재는 3D 데이터와 공간적 특징을 효과적으로 탐색하는 데 중요한 장애물로 작용한다.

애플 연구자들이 AI 및 머신러닝 분야를 선도하는 연구를 통해 진보시키고, 연구 공동체를 지원하기 위해 NeurIPS 2025에 참여하고 후원하는 소식.

애플이 캘리포니아 샌디에고에서 개최되는 연례 학회인 NeurIPS에서 새로운 연구 발표. 다양한 분야의 학술 및 산업 연구 커뮤니티를 연결하는 이 학회에 자랑스럽게 후원하며 참여할 예정.

센서 데이터 스트림은 활동 및 문맥에 대한 유용한 정보를 제공하지만 보완적인 정보를 통합하는 것은 어려울 수 있습니다. 이 연구에서는 대형 언어 모델(LLMs)이 오디오 및 동작 시계열 데이터로부터 활동 분류를 위한 늦은 퓨전에 사용될 수 있음을 보여줍니다. Ego4D 데이터셋에서 다양한 활동 인식을 위한 데이터 하위 집합을 공본하였으며, 평가된 LLMs는 12가지 클래스의 제로샷 및 원샷…

이 논문은 NeurIPS 2025에서 열린 ‘Foundation Models for the Brain and Body’ 워크샵에서 발표되었다. 자기 지도 학습(Self-supervised learning, SSL)을 통해 EEG 신호의 상대적 구성을 학습하는 방법에 대해 다루고 있다.

연구논문이 NeurIPS 2025의 Learning from Time Series for Health 워크샵에서 받아졌습니다. 음성과 센서의 시계열 데이터는 주파수 영역과 시간 영역에서 정보를 인코딩하며, 음성 기반 모델이 음성 영역을 넘어서 다양한 시계열 작업에서 웨어러블 센서 데이터로 상위 성능을 달성한다는 것을 보여줍니다.

VLSU는 AI 안전을 위해 비전과 언어를 함께 이해하는 능력을 제한적으로 매핑하는 프레임워크이다. 이는 다중 모달 기반 모델의 안전 평가에서의 부족함을 보완하고, 유해한 콘텐츠를 식별하는데 도움을 준다.

Apple 실리콘을 사용하는 Mac은 최신 모델과 기술을 실험하고자 하는 AI 개발자와 연구자들 사이에서 점점 인기를 얻고 있다. MLX를 통해 사용자들은 Mac에서 효율적으로 LLMs를 탐색하고 실행할 수 있다. MLX는 모든 Apple 실리콘 시스템과 함께 작동하며, 최신 macOS 베타 릴리스에서는 새로운 M5 칩의 신경 가속기를 활용할 수 있다.

CAR-Flow는 조건부 생성 모델링에서 소스와 타겟을 더 잘 일치시키기 위해 가벼운 학습된 시프트인 조건에 민감한 재매개화를 제안한다. 이는 흐름 모델이 조건을 무시하는 초기 표준 가우시안 노이즈를 조건부 데이터 분포로 전달하기 위해 학습되며, 모델이 질량 이동과 조건 주입을 동시에 학습해야 하는 것을 완화시킨다.

이 논문은 NeurIPS 2025에서 열린 신경 모델에서 표현을 통합하는 워크샵(UniReps)에서 받아들여졌다. 대형 언어 모델(LLMs)에서의 활성화 스티어링 방법은 대량의 적응 데이터가 필요하지 않고 생성된 언어를 향상시키기 위한 효과적인 방법으로 등장했다. 우리는 활성화 스티어링 방법에 의해 발견된 피처가 해석 가능한지 묻는다. 우리는 “전문가 찾기” 방법을 사용하여 특정 개념(예: “고양이”)에 대한 책임 있는 뉴런을 식별하고 이를 검사하는 ExpertLens를 보여준다.

PolyNorm은 텍스트 음성 변환 시스템에서 텍스트 정규화의 효율성을 높이기 위한 방법으로, 수동으로 작성된 규칙에 의존하지 않고 넓은 언어적 적용성을 가능하게 하는 대규모 언어 모델(LLM)을 활용하는 prompt 기반 접근법을 제안한다.

미래인 NeurIPS 2025 AI for Science 워크샵에서 발표된 논문. 변형 가능한 물체 간 상호작용 시뮬레이션은 재료 과학, 기계 설계, 로봇학 분야에 중요하다. 그래프 신경망(GNN)을 활용한 학습 기반 방법은 복잡한 물리 시스템을 해결하는 데 효과적하지만, 가변형 본체 상호작용을 모델링할 때 확장성 문제를 겪는다.

RepTok은 이미지를 단일 연속 잠재 토큰으로 표현하는 생성 모델링 프레임워크로, 자기 지도 비전 트랜스포머로부터 얻은 토큰을 기반으로 한다. 사전 훈련된 SSL 인코더를 기초로 하여 의미론적 토큰 임베딩만을 미세 조정하고 일반적인 흐름 일치 목적을 사용하여 함께 훈련된 생성 디코더와 짝을 이룬다. 이 적응은 토큰을 저수준, 재구성 관련 세부 정보로 보강하여 충실한 이미지 재구성을 가능하게 한다.

LinEAS는 생성 모델의 효율적인 제어 메커니즘을 제공하며, 모델 활성화에 직접 개입하여 출력 품질을 유지하는 것을 목표로 한다. 최근 연구에서는 모델 활성화에 독점적으로 개입함으로써 활성화 간의 분포 차이를 보정하는 것이 가능하다는 것을 보여줌.

대형 언어 모델의 거대한 동작 공간에서 허용 가능한 동작에 경계를 설정하는 AI 정책은 어려운데, Policy Maps는 물리적 지도 작성 방식에서 영감을 받은 AI 정책 설계 접근 방식으로, 효과적인 내비게이션을 돕는다. Policy Projector를 통해 AI 실무자는 LLM 정책 지도를 설계하고 모델의 지형을 조사할 수 있다.

Embedding Atlas는 대규모 데이터셋 및 모델을 시각화하는 데 널리 사용되는 임베딩 프로젝션이지만, 사용자들은 종종 임베딩 시각화 도구를 사용할 때 “저항”을 겪는다. 이 논문에서는 대규모 임베딩과 상호 작용하는 데 쉽게 접근할 수 있도록 설계된 확장 가능한 대화형 시각화 도구인 Embedding Atlas를 제시한다.