
애플은 2026년 6월 3일부터 7일까지 덴버에서 열리는 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에 참가하여 새로운 연구를 발표합니다.

애플은 2026년 6월 3일부터 7일까지 덴버에서 열리는 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에 참가하여 새로운 연구를 발표합니다.

VSAS-Bench는 비주얼 스트리밍 어시스턴트 모델의 실시간 성능을 평가하기 위한 새로운 프레임워크입니다. 기존 모델 평가 방식의 한계를 극복하고, 응답의 적시성과 일관성을 측정하는 데 중점을 두고 있습니다.

이미지 캡셔닝은 컴퓨터 비전의 기본적인 작업 중 하나로, 최근 MLLM 시대에 많은 주목을 받고 있습니다. 새로운 연구는 강화 학습을 통해 더 정확하고 상세한 캡션을 생성하려고 합니다.

Velox는 4D 객체의 기하학과 외관을 효과적으로 포착하는 잠재 표현을 학습하는 프레임워크를 소개합니다. 이 시스템은 최소한의 입력으로 동적 포인트 클라우드를 활용하여 효율적인 데이터 압축을 지원합니다.

현재의 비평가 없는 RLHF 방법은 다목적 보상을 산술 평균으로 집계하여 제약 무시의 위험에 노출됩니다. RVPO는 보상 간 분산을 처벌하여 일관성을 극대화하는 위험 민감한 프레임워크를 제안합니다.

애플은 프라이버시를 인권으로 여기며, AI 기술이 일상에 통합됨에 따라 프라이버시 보호 연구의 중요성이 커지고 있다고 강조했다. 이를 위해 애플은 프라이버시 보호 기계 학습 및 AI 워크숍을 개최했다.

HeadsUp은 대규모 다중 카메라 설정에서 고품질 3D 가우시안 머리를 재구성하는 효율적인 피드포워드 방법을 제안합니다. 이 방법은 입력 뷰를 압축하여 잠재 표현으로 변환합니다.

이미지 기반의 공동 임베딩 예측 아키텍처(I-JEPA)는 마스킹된 특징 예측을 통해 시각적 자기 지도 학습의 유망한 접근 방식을 제공합니다. 본 연구에서는 텍스트 캡션을 활용하여 예측 불확실성을 줄이는 텍스트 조건부 JEPA(TC-JEPA)를 제안합니다.

학습된 코덱이 전통적인 하드코딩 방식과 차별화되는 점은 인간의 시각 시스템에 최적화될 수 있는 능력입니다. 그러나 아직 실용적이고 지각적인 이미지 코덱은 제안되지 않았습니다. 본 연구는 이 격차를 해소하고자 합니다.

정규화 흐름(Normalizing Flows, NFs)은 최근 이미지 모델링 작업에서 유망한 성과를 보여주며 주목받고 있다. 이번 연구에서는 반복적 TARFlow(iTARFlow)를 도입해 NFs의 생성 모델을 한층 발전시켰다.

공간 지능은 단순한 기하학적 인식을 넘어 사물의 용도를 이해하는 것으로 발전하고 있습니다. 이를 평가하기 위한 새로운 기준인 공간-기능 지능 벤치마크(SFI-Bench)가 소개되었습니다.

Mixture-of-Experts(MoE) 모델은 희소 전문가 활성화를 가능하게 하지만, 이를 실제 성능으로 전환하기 위해서는 전문가 캐싱 메커니즘이 필요하다. SpecMD는 다양한 하드웨어 구성에서 캐싱 정책을 벤치마킹하는 표준화된 프레임워크이다.

변환기 언어 모델의 높은 처리량을 위해 키-값(KV) 캐싱이 필요하지만, 이는 메모리 사용량을 증가시켜 비용에 영향을 미친다. 이 연구는 메모리 요구 사항을 줄이는 방법을 제안한다.

PORTool은 LLM 기반 도구 사용 에이전트가 복잡한 작업을 해결할 수 있도록 도와주는 중요도 인식 정책 최적화 알고리즘입니다. 이 알고리즘은 도구 사용 능력을 강화하며, 단계별 보상을 통해 성공과 실패의 중간 단계를 명확히 합니다.

이 논문은 ACL 2026에서 열린 제5회 자연어 생성, 평가 및 메트릭 워크숍에서 채택되었습니다. 도구 호출 에이전트의 평가 방식과 실시간 피드백의 필요성을 다룹니다.

AI 기반 수화 해석의 발전은 고품질 주석 데이터 부족에 의해 제한되고 있다. 새로운 데이터셋인 ASL STEM Wiki와 FLEURS-ASL은 전문 통역사와 수백 시간의 데이터를 포함하고 있지만, 주석이 부분적으로만 이루어져 있어 활용도가 낮다.

STARFlow-V는 정상화 흐름(normalizing flows)을 기반으로 한 비디오 생성기로, 엔드 투 엔드 학습과 강력한 인과 예측 기능을 제공합니다. 이 모델은 비디오 생성의 복잡성을 해결하기 위해 개발되었습니다.

애플이 2026년 5월 4일부터 8일까지 스페인 바르셀로나에서 열리는 국제 음향, 음성 및 신호 처리 회의(ICASSP)에서 새로운 연구를 발표합니다. 이번 회의는 신호 처리 및 응용 분야에 중점을 둔 과학 및 산업 연구 커뮤니티가 모이는 자리입니다.

생성 모델이 사용자 대신 결정을 내릴 때, 입력된 인물의 인구 통계적 속성에 따라 편향된 결과가 발생할 수 있습니다. 이 연구는 이러한 편향을 조절할 수 있는 방법을 제시합니다.

최근 대형 언어 모델의 발전으로 중간 사고 과정을 거쳐 답변을 생성하는 능력이 도입되었습니다. 그러나 LLM의 성능과 쿼리 복잡성 간의 관계는 여전히 불분명합니다.

StereoFoley는 비디오에서 의미적으로 정렬되고 시간적으로 동기화된 스테레오 사운드를 생성하는 프레임워크입니다. 이 모델은 48 kHz의 고음질 오디오를 제공합니다.

LaDiR(잠재적 확산 추론기)는 기존의 대형 언어 모델(LLM)의 추론 능력을 강화하기 위한 새로운 프레임워크입니다. 이 연구에서는 구조화된 잠재적 추론 공간을 구축하여 LLM의 표현력을 통합합니다.

조건부 확산 모델이 조합 일반화를 수행할 수 있는 능력을 갖추고 있지만, 그 메커니즘은 여전히 불분명하다. 연구팀은 훈련 중에 본 것보다 더 많은 객체를 생성할 수 있는 길이 일반화에 대해 조사했다.

운동을 이해하고 예측하는 것은 시각적 지능의 핵심 요소입니다. 본 연구에서는 장기 운동 임베딩을 통해 효율적으로 운동을 생성하는 방법을 제시합니다.

애플 연구진이 비선형 순환 신경망(RNN)의 대규모 훈련을 가능하게 하는 새로운 기술을 개발했다. 이 기술은 RNN의 훈련 효율성을 크게 향상시켜, 자원이 제한된 환경에서도 대규모 모델 설계가 가능해진다.

애플은 AI 및 기계 학습 분야의 발전을 위해 ICLR 2026에 참여하며, 연구 결과를 발표하고 후원하고 있습니다. 이번 회의는 브라질 리우데자네이루에서 열립니다.

대형 언어 모델(LLM)이 인간 언어의 맥락을 이해하는 능력을 보여주고 있지만, 이들의 맥락 이해 능력에 대한 연구는 부족하다. 새로운 연구에서는 LLM의 맥락 이해를 평가하기 위한 기준을 제시한다.

최근 연구에 따르면, 모델의 내부를 분석하면 모델 생성물에서 드러나지 않는 많은 정보를 발견할 수 있습니다. 이는 의도치 않거나 악의적인 정보 유출의 위험을 초래할 수 있습니다.

애플이 2026년 4월 23일부터 27일까지 브라질 리우데자네이루에서 열리는 국제 학습 표현 회의(ICLR)에서 새로운 연구를 발표합니다. 이번 회의는 딥러닝에 중점을 둔 과학 및 산업 연구 커뮤니티가 모이는 자리입니다.

MixAtlas는 다중 모달 사전 훈련을 위한 데이터 혼합 최적화의 새로운 프레임워크로, 효율적인 샘플링과 일반화 성능 향상을 목표로 합니다.

본 연구에서는 사용자의 데이터가 k단계에서 무작위로 선택되는 샘플링 방식의 개인 정보 증폭 특성을 다룹니다. 이 방식은 최근 차별적 개인 정보 최적화와 고차원 개인 집계에서 유용성을 입증했습니다.

대규모 언어 모델의 사실 기억력 향상을 위한 연구가 ICLR 2026 워크숍에서 발표됐다. 연구진은 정보 이론적 관점에서 사실 기억을 정형화하고, 훈련 데이터 분포가 사실 정확도에 미치는 영향을 분석했다.

애플이 스페인 바르셀로나에서 열리는 2026년 ACM CHI 컨퍼런스에 참가하여 새로운 연구를 발표합니다. 이 컨퍼런스는 인간-컴퓨터 상호작용에 중점을 둔 연구자들이 모이는 자리입니다.

소형 언어 모델(SLM)의 한계와 외부 정보 접근을 통한 문제 해결 방안을 다룬 연구가 ICLR에서 발표됐다. 이 연구는 SLM의 지식 한계를 극복하기 위한 방법을 탐구한다.

이 논문은 고정 차원 임베딩 공간에서 가변 폭의 오디오 또는 텍스트의 음성 내용을 표현하는 음향 이웃 임베딩을 해석하기 위한 이론적 프레임워크를 제공합니다.

다중 에이전트 AI 시스템에서 발생하는 수천 건의 상호작용을 실시간으로 모니터링하고 정책 위반을 즉각적으로 집행할 수 있는 거버넌스 인식 에이전트 텔레메트리(GAAT) 아키텍처가 제안됐다.

프론트엔드 개발자들은 UI 프로토타입을 제작하여 대안을 평가하는데, 이는 반복적인 수정 작업으로 시간이 많이 소요됩니다. SQUIRE는 이러한 과정을 개선하기 위한 새로운 접근 방식을 제시합니다.

대형 언어 모델(LLM)은 다양한 개인의 선호에 맞추는 데 한계를 보이고 있으며, 이는 표준 후속 훈련 방법이 단일 목표에 최적화되기 때문입니다. 새로운 연구에서는 그룹 상대 정책 최적화(GRPO)를 통해 이러한 문제를 해결하고자 합니다.

ProText는 다양한 스타일의 긴 영어 텍스트에서 성별 표현 및 잘못된 성별 표현을 측정하기 위한 데이터셋입니다. 이 데이터셋은 주제 명사, 주제 범주, 대명사 범주 등 세 가지 차원으로 구성되어 있습니다.

합성 데이터는 실제 데이터가 부족할 때 일반화를 개선할 수 있지만, 과도한 의존은 성능 저하를 초래할 수 있습니다. 본 연구에서는 합성 데이터와 실제 데이터 간의 균형을 정량화하는 학습 이론적 프레임워크를 제시합니다.

정책 경량 알고리즘은 언어 모델 추론의 최근 발전을 이끌어왔으며, 탐색을 통해 스스로 학습하는 능력이 특징이다. 그러나 많은 알고리즘이 훈련 과정에서 엔트로피를 줄여 탐색의 다양성을 제한하는 경향이 있다.

LGTM(덜 가우시안, 더 텍스처)라는 새로운 프레임워크가 고해상도 합성을 가능하게 하며, 기하학적 복잡성과 렌더링 해상도를 분리하여 4K 뷰 합성을 지원합니다.

대형 언어 모델(LLM)을 사용하여 완전한 사용자 인터페이스 코드를 생성하는 것은 도전적입니다. 사용자 인터페이스는 복잡하며 여러 관련 파일로 구성되어 있습니다.

상태 공간 모델(SSM)은 시퀀스 모델링에서 트랜스포머의 대안으로 주목받고 있습니다. 그러나 SSM은 ‘진정한 장기 생성 문제’를 정확히 해결할 수 없다는 이론적 결과가 제시되었습니다. 이 한계를 극복하기 위해 외부 도구에 대한 상호작용 접근이 필요하다는 연구 결과가 나왔습니다.

대형 언어 모델의 하위 작업 성능 예측이 불확실하다는 기존 관점을 도전하는 연구가 발표됐다. 이 연구는 훈련 예산에 따른 벤치마크 성능의 스케일링을 모델링하는 직접적인 프레임워크를 제안한다.

3D 가우시안 스플래팅(3DGS) 방법은 종종 픽셀 수준 손실의 조합에 의존해 흐릿한 렌더링 결과를 초래합니다. 이를 해결하기 위해 다양한 왜곡 손실을 탐색하는 지각 최적화 전략을 체계적으로 연구했습니다.

독점적 자기 주의(XSA)는 변형기(Transformer)의 시퀀스 모델링 성능을 향상시키는 간단한 수정 방법입니다. 이 방법은 주의(attention)를 토큰의 값 벡터와 직교하는 정보만 포착하도록 제한합니다.

이 논문은 ICLR 2026에서 열린 ‘잠재적 및 암시적 사고’ 워크숍에서 발표되었습니다. 오토회귀 언어 모델은 다음 토큰 예측을 통해 텍스트를 생성하지만, 이 과정에서 여러 가능한 연속성을 탐색하는 데 제한이 있습니다.

대규모 언어 모델(LLM)은 출력에 대한 신뢰도를 제대로 평가하지 못하는 경우가 많습니다. 연구에 따르면, 특정 샘플링 기반의 의미적 보정을 사용할 경우, LLM은 개방형 질문-응답 작업에서 신뢰도를 의미 있게 평가할 수 있는 것으로 나타났습니다.

SafetyPairs는 안전하지 않은 이미지를 식별하기 위한 연구로, ICLR 2026 워크숍에서 발표되었습니다. 이 연구는 이미지의 미세한 변화가 안전성에 미치는 영향을 분석합니다.

포스트 트레이닝 다중 모달 대형 언어 모델을 활용한 상호작용 에이전트 구축이 다양한 분야에서 가능성을 보여주고 있다. 그러나 고품질의 작업 데이터셋 부족이 문제로 지적된다.

이 논문은 2026년 ICLR에서 열린 기초 모델을 위한 데이터 문제 해결 워크숍에서 발표되었습니다. 언어 모델은 다양한 지식과 언어, 추론 작업에서 뛰어난 성능을 보입니다.

Prose2Policy는 자연어 접근 제어 정책을 실행 가능한 Rego 코드로 변환하는 LLM 기반 도구입니다. 이 도구는 정책 탐지, 구성 요소 추출, 스키마 검증 등 다양한 기능을 제공합니다.

강화 학습은 대형 언어 모델의 추론 능력을 향상시키는 데 강력한 패러다임으로 자리잡고 있다. 그러나 희소 보상에 의존할 경우 샘플 효율성이 떨어지는 문제가 있다. 이를 해결하기 위해 골디락스라는 새로운 데이터 샘플링 전략을 제안한다.

AMES는 텍스트, 이미지, 비디오를 통합하여 기업 검색 엔진에서 효과적으로 활용할 수 있는 다중 모달 검색 아키텍처입니다. 이 시스템은 기존 구조를 변경하지 않고도 다양한 데이터 형식을 지원합니다.

TrajTok은 비디오 모델의 토큰화를 개선하여 비디오 효율성과 확장성을 높이는 새로운 접근 방식을 제안합니다. 이 모듈은 비디오 모델과 통합되어 동적으로 토큰의 세분화를 조정합니다.

밀집 이미지 캡셔닝은 비전-언어 사전 학습 및 텍스트-이미지 생성에서 중요한 역할을 하지만, 전문가 수준의 주석 작업은 비용이 많이 듭니다. RubiCap은 이러한 문제를 해결하기 위한 새로운 접근법을 제시합니다.

RLVR 기법을 활용한 대형 언어 모델의 수학 및 논리 문제 해결 능력 향상을 위해, 기존 영어 중심 데이터셋의 한계를 극복한 다국어 수학 문제 데이터셋 mAceReason-Math가 공개됐다.

다국어 추론 체육관은 14개 언어로 절차적으로 검증 가능한 추론 문제를 생성하는 환경으로, 10개 언어에서 원어민 검증을 거친 94개 과제 템플릿을 제공한다. 난이도 조절과 무한 문제 생성이 가능하다.

LiTo는 객체의 3D 형상과 시점에 따른 외관을 동시에 모델링하는 새로운 3D 잠재 표현 방식을 제안한다. 기존 연구들이 형상 재구성이나 시점 독립적 확산 외관 예측에 집중한 반면, LiTo는 시점 의존적 효과를 효과적으로 포착한다.

생성 모델이 흔해지면서 생성 프로세스에 대한 세밀한 제어가 필요하다. 이 연구에서는 모델의 제어 가능성에 대한 이론적 프레임워크를 제공하며, 대화 설정에서 모델의 제어 가능한 집합을 추정하기 위한 새로운 알고리즘을 제안한다. 추정 오차에 대한 형식적 보증을 제공한다.
#

시간에 따른 속도장으로 매개변수화된 플로우 모델은 ODE를 통해 노이즈에서 데이터를 생성할 수 있다. 이 모델들은 종종 플로우 매칭을 사용하여 훈련되는데, 이는 무작위 노이즈와 타겟 지점 쌍을 샘플링하고, 평균적으로 속도장이 x1−x0에 맞게 정렬되도록 보장하는 것이다.

두 가지 수작업 신호를 결합하는 경량화된 퓨전 모델을 활용하여 더 작은 모델로 더 높은 정확도를 달성하는 것을 보여줌. 저주파수 웨이블릿-노이즈 제거 특징과 공간-위상 얕은 학습 맵을 결합하는 LFWS, 그리고 지역 이진 패턴과 WDF를 병합하는 LFWL을 소개. 이 추가 모듈은 292개의 파라미터만 추가되어 총 21.9백만 파라미터로 유지됨.

대형 언어 모델은 종종 신뢰성을 저해하는 지지 않는 콘텐츠를 생성하는데, 이를 환각이라고 한다. 환각 구간을 식별하는 것은 다단계 의사 결정 과정이 필요한데, 명시적 추론이 이 복잡한 작업을 돕는지에 대한 질문을 냈다. 사전 훈련된 모델을 Chain-of-Thought (CoT) 추론과 함께 평가한 결과, CoT 추론이 최소한…

EMBridge는 EMG 신호를 통해 제스처 예측을 개선하는데 사용되며, 고품질 데이터와 저전력 생체 신호를 결합하여 제스처 일반화를 가능하게 합니다.

대형 언어 모델(Large Language Models, LLMs)의 확대 배포로 인해 발생할 수 있는 해로운 콘텐츠 생성에 대한 우려가 있음. 연구는 안전하지 않은 정보 생성을 방지하기 위한 필터에 초점을 맞추며 계산적 도전 과제를 밝힘. 입력 프롬프트 필터링과 출력 필터링의 어려움을 보여줌.

프론트엔드 개발자들은 UI 구성 요소를 매개변수화하여 재사용성을 높이지만, 이는 인스턴스화를 어렵게 만든다. 이를 해결하기 위해 구별 가능한 변형을 도입하여 디자인 공간 샘플링과 심볼적 추론을 결합하고 있다.

사용자가 찾는 내용을 돕기 위해 대규모 상업 검색 시스템은 관련성에 최적화되며, 이를 위해 행동적 관련성과 텍스트 관련성을 활용하는데 전문가가 제공하는 텍스트 관련성 라벨이 부족한 문제를 해결하기 위해 LLM 구성을 체계적으로 평가하여 특화된, 섬세하게 조정된 모델을 사용한다.

A.R.I.S.는 자동 분류 시스템으로, 낮은 비용의 이동식 분류기로 파쇄된 E-폐기물의 금속, 플라스틱, 회로 기판을 실시간으로 분류하여 자원 회수 효율을 높입니다. YOLOx 모델을 사용하여 저렴한 비용으로 빠른 추론 속도와 높은 정확도를 달성합니다.

대형 언어 모델(Large Language Models, LLMs)은 음성 입력에 대한 텍스트 능력을 확장하기 위해 적응될 수 있지만, 이러한 음성 적응형 LLMs는 일관적으로 텍스트 기반 대조군 및 심지어 연쇄 파이프라인에서 언어 이해 작업에서 성능이 떨어집니다. 이 글에서는 이러한 갭을 ‘텍스트-음성 이해 간격’이라고 정의하고, 최근 이 갭을 줄이기 위한 접근 방식들에 대해 다루고 있습니다.

LLMs의 내부 작업을 조사한 이전 연구에서는 특정 작업을 수행하는 희소한 하위 네트워크 또는 회로가 발견되었습니다. 이러한 연구 결과를 토대로 기존 회로를 강화함으로써 모델 성능을 향상시키는 것이 가능하다는 가능성을 제시했습니다. 이를 바탕으로 Constructive Circuit Amplification이라는 새로운 방법을 제안하고 있습니다.

이 연구는 단일 추출기가 모든 웹페이지에 적용되는 기존 오픈소스 데이터셋이 인터넷 데이터의 최적 커버리지와 활용을 제공하는지 조사한다. 다양한 추출기가 표준 언어 이해 작업에서 유사한 모델 성능을 보일 수 있지만, 고정된 필터링 파이프라인을 거쳐 남은 페이지들은 크게 다를 수 있다.

AMUSE는 대화 중심 환경에서 활용되는 음향-시각적 다중 화자 이해에 중점을 둔 벤치마크 및 정렬 프레임워크이다. 최근의 다중 모달 대형 언어 모델은 강력한 지각 능력을 보이지만, 화자 추적, 역할 유지 및 시간 경과에 걸쳐 사건을 논리적으로 연결하는 다중 화자 상황에서 어려움을 겪는다. AMUSE는 음향 및 시각적 스트림에 대해 공동으로 추론해야 하는 다중 모달 오디오-비디오 이해에 중점을 둔 벤치마크로, 대화형 비디오 어시스턴트 및 회의 분석과 같은 응용 프로그램에서 활용된다.

CoT prompting은 대형 언어 모델로부터 추론과 유사한 응답을 유도하기 위한 표준 기법이다. 그러나 CoT 추론의 성공을 이끄는 주요 요인은 여전히 불분명하다. 본 연구에서는 경쟁 수준의 수학 문제에서 유래한 CoT 트레이스를 분석하여 CoT의 어떤 부분이 최종 답변에 기여하는지에 대해 더 잘 이해하고자 한다.

PyTorch 2.x에서는 딥러닝 프로그램 가속화를 위한 컴파일러가 도입되었지만, 머신러닝 연구원들에게는 PyTorch 컴파일러에 완전히 적응하기 어려울 수 있습니다. 이를 해결하기 위해 PyTorch 컴파일러의 내부 작업을 명확하게 하는 도구인 depyf가 소개되었습니다.

대규모 언어 모델의 증가하는 크기로 효율적인 추론이 어려워지고 있으며, 이는 주로 자기회귀 키-값 캐시의 메모리 요구 때문이다. 기존의 축출 또는 압축 방법은 비용을 줄이지만, 토큰의 미래 유효성에 대한 간접적인 대리인으로만 기능하는 휴리스틱에 의존한다. 우리는 KV 캐시 축출을 강화 학습 문제로 재구성하여 미래 디코딩을 위한 토큰의 예측된 유용성에 따라 토큰을 순위 지정하는 것을 학습한다. 이를 위해 우리는 KV 정책(KVP)이라는 프레임워크를 도입한다.

추리와 계획은 지능적인 AI 시스템의 기반으로, 상호작용, 적응, 독립적 운영을 가능케한다. 애플은 AI 시스템의 추리 능력을 이해하고 발전시키는데 중점을 두고 있으며, 지난해 이에 대한 워크샵을 개최했다.

검색 시스템의 중요한 기능인 검색어 자동완성(QAC)을 개선하기 위해 검색 증강 생성과 다중 목적 정렬을 통해 QAC를 종단 간 리스트 생성으로 재정의하는 통합 프레임워크를 제안합니다. 기존 방법론의 한계를 극복하고 안전성을 높이는 방법을 소개합니다.

Ferret-UI Lite는 소형 장치용 GUI 에이전트로, 모바일, 웹, 데스크톱 등 다양한 플랫폼에서 작동한다. 작은 모델을 개발하기 위해 최적화된 기술을 활용하여 실제와 합성 데이터를 활용하고 추론 시간 성능을 강화하는 등의 기법을 사용해 3B Ferret-UI Lite 에이전트를 구축했다.

머신러닝 모델이 특정 입력에 대해 정확성을 어떻게 입증할 수 있을까? 이 논문은 Self-Proving 모델을 훈련시켜 자체 출력의 정확성을 확인 알고리즘에 증명하는 이론적인 해결책을 제안한다. Self-Proving 모델은 주어진 분포에서 샘플링된 입력에 대해 높은 확률로 올바른 출력을 생성하고 그 정확성을 확인 알고리즘에 성공적으로 입증한다.

대형 언어 모델(Large language models, LLMs)은 검색, 어시스턴스, 에이전틱 워크플로우의 핵심 경로에 있어 의미 캐싱이 추론 비용과 대기 시간을 줄이기 위해 필수적이다. 정적-동적 설계를 사용하며 오프라인에서 채굴된 검증된 응답의 정적 캐시와 온라인으로 채워지는 동적 캐시로 구성된다. 일반적으로 두 티어는 단일 임베딩 유사도 임계값으로 조정되는데, 이는 보수적 임계값은 안전한 재사용 기회를 놓치게 하고 공격적인 임계값은 의미적으로 정확하지 않은 것을 제공할 위험을 가지게 한다.

소규모 모델로 진행되는 연구는 어떤 것이 가능할까? 대부분의 연구자들이 대형 언어 모델(Large Language Models, LLMs)을 통해 프로그램 합성을 연구하지만, 이는 분포 내외의 구분, 파인튜닝 효과, 토크나이제이션 효과를 이해하고, 연구를 수행하기 위해 컴퓨팅 및 저장에 높은 요구를 일으킨다. Cadmus라는 시스템을 소개하는데, 이는 정수 가상 머신(VM), 다양한 작업의 진정한 프로그램으로 구성된 데이터셋, 그리고 약 200달러의 컴퓨팅 자원으로 훈련된 자가 회귀 트랜스포머 모델을 포함한다.

논문에서는 최근 주목을 받고 있는 확률적 변분부등식을 해결하기 위한 연합 최적화를 연구했다. 기존의 수렴율과 연합 볼록 최적화에 대한 최신 경계 사이에는 큰 간격이 남아있었는데, 이 한계를 개선하기 위해 개선된 수렴율을 제시하고 있다.

대규모 모델의 훈련 안정성과 최종 성능에 하이퍼파라미터 튜닝이 중요한데, 최적의 전역 하이퍼파라미터를 다양한 모델 크기에 전이할 수 있는 방법을 제안하는 연구가 있다. 이 연구는 완전한 매개변수화를 제안하여 너비와 깊이에서의 스케일링을 통합하고 있음.

사용자가 컴퓨터 사용 에이전트와 상호작용하는 방법과 디자인 요인에 대해 조사한 결과, 사용자 프롬프트, 설명 가능성, 사용자 제어 등이 사용자 경험에 영향을 미친다는 선행 연구 결과를 바탕으로 컴퓨터 사용 에이전트의 사용자 경험 디자인 공간을 매핑하는 연구를 실시했다.

이 연구에서는 대규모 추론 모델에서 추론 Trace Length가 간단하고 유용한 신뢰 추정자임을 보여줍니다. 다양한 모델, 데이터셋 및 프롬프트에 걸쳐 철저한 실험을 통해 Trace Length가 언어적 신뢰와 같은 영점 신뢰 추정자와 비교 가능하게 수행됨을 보여줍니다.

대규모 트랜스포머 기반 대형 언어 모델의 효율적인 추론을 위해 병렬 트랙 트랜스포머를 소개한다. 기존 방식의 텐서 병렬화는 GPU 간 동기화로 통신 병목 현상을 초래하는 반면, 새로운 아키텍처 패러다임인 PT 트랜스포머는 계산을 재구성하여 교차 장치 종속성을 최소화하며 최대 16배의 성능 향상을 이룬다.

물체와 그 부분들의 구성, 물체 간 위치 관계는 풍부한 정보원으로 작용한다. 이를 고려하여 공간 인식적 선행 작업이 자가지도학습에서 활발히 탐구되었다. 기존 연구들은 주로 고정된 그리드 내에서 패치의 절대 위치 인덱스를 예측하는 것을 목표로 하는데, PART라는 자가지도학습 방법을 소개한다.

VSSFlow는 비디오-음성(V2S) 및 시각 텍스트 음성(VisualTTS) 작업을 포괄하는 비디오 조건 음성 및 음성 생성을 효율적으로 통합하는 방법을 제시한다. V2S와 VisualTTS를 단일 프레임워크 내에서 통합하는 것은 여전히 열린 문제이다.

6G 애플리케이션을 위해 극코드 디자인을 발전시키기 위해, 강화 학습 기반의 범용 시퀀스 디자인 프레임워크를 개발했다. 이 방법은 다양한 채널 조건과 디코딩 전략에 대응할 수 있으며, 코드 길이가 2048까지 확장 가능하므로 표준화에 적합하다. 5G에서 지원하는 모든 (N,K) 구성에 대해, 우리의 방법은 5G에서 채택된 NR 시퀀스에 대비하여 경쟁력 있는 성능을 보이며, N=2048에서 beta-expansion 기준에 비해 최대 0.2 dB의 이득을 얻는다. 더불어 핵심 요소를 강조한다.

자기 지도 학습은 레이블이 달린 샘플의 명시적 감독 없이 모델이 데이터의 기저 구조를 이해하는 기계 학습 패러다임이다. 자기 지도 학습에서 얻은 표현은 클러스터링, 선형 분류 등 다양한 하위 작업에 유용하게 쓰인다. 대부분의 자기 지도 학습 방법은 주어진 인스턴스와 유사한 관측치 쌍을 생성할 수 있는 능력에 의존하지만, 이러한 쌍을 생성하는 것은 많은 유형의 데이터에 대해 어려울 수 있다. 또한, 이러한 방법들은 고려 사항이 부족하다.

대형 언어 모델의 불확실성을 전달하는 일반적 방법은 응답에 백분율 숫자나 불확실성을 나타내는 단어를 추가하는 것이다. 그러나 이것이 우리가 할 수 있는 전부일까? 사용자에게 완전히 투명한 LLM은 내부 믿음 분포에 반사하고 가능한 모든 옵션과 그 가능성을 요약하여 출력해야 한다. LLM이 이 능력을 가지고 있는지 테스트하기 위해 SelfReflect 측정 항목을 개발한다.

VLSU는 비전과 언어를 따로 다루는 안전 평가 방법의 한계를 극복하기 위해 만들어졌습니다. 이를 통해 다중 모달 콘텐츠의 안전을 세밀하게 평가하고 위험성을 분류하며 안전한 콘텐츠와 유해한 콘텐츠를 명확히 구분할 수 있습니다.

음성 LLMs에서 정확한 토큰 매칭이 지나치게 제한적일 때, Acoustic Similarity Groups (ASGs) 수준에서 제안을 확인하는 Principled Coarse-Graining (PCG)의 소개

대형 언어 모델은 강화 학습(RL)에서 뛰어나지만, 이 잠재력을 완전히 발휘하려면 중간 훈련 단계가 필요하다. 효과적인 중간 훈련 단계는 유용한 행동들의 압축된 집합을 식별하고 온라인 RL을 통해 이들 중 빠르게 선택할 수 있어야 한다. 이 논문은 중간 훈련이 후속 훈련을 어떻게 형성하는지에 대한 최초의 이론적 결과를 제시한다. 이는 가지치기로 인한 가치 근사 오차와 이후 계획 중 발생하는 RL 오차를 모두 최소화하는 행동 부분 공간을 특성화한다. 우리의 분석은 중간 훈련의 효과성의 두 가지 주요 결정 요인을 밝혀냈다.

Diffusion large language models (dLLMs)는 코드 생성에 특히 유용한 전역 계획 및 반복적 수정 기능을 갖추고 있으며, 현재의 훈련 및 추론 메커니즘은 아직 탐구되지 않았다. 이 연구에서는 dLLMs의 복호화 행동을 파헤치고 코딩에 대한 잠재력을 발휘하기 위해 그들의 노이즈 제거 프로세스와 강화 학습 방법을 체계적으로 조사했다.

RNN은 순차적 특성으로 인해 병렬 계산을 제한하지만, ParaRNN은 이를 극복하는 프레임워크로, 선형 제약을 극복하고 복잡한 비선형 시퀀스 의존성 모델링을 가능케 함.

대규모 모델은 다양한 품질의 문서를 포함하는 대규모 웹 크롤링 데이터셋에서 사전학습되는데, 데이터 필터링이 필수적이다. 분류기 기반 품질 필터링(CQF)은 사전학습 데이터와 소규모 고품질 세트를 구분하는 이진 분류기를 훈련시키는 인기 있는 방법이다. 이 연구는 CQF에 대한 깊은 분석을 제공하며, CQF가 하류 작업 성능을 향상시키지만 반드시 고품질 언어 모델링을 향상시키지는 않는다는 것을 보여준다.

실제 응용 프로그램에서의 멀티모달 대형 언어 모델(MLLMs)은 외부 지식 원본에 액세스해야 하며 정보 탐색 및 지식 집약적 사용자 쿼리를 처리하기 위해 동적이고 끊임없이 변화하는 실세계 정보에 반응해야 합니다. 기존 방법들은 제한적인 파이프라인, 과도한 검색 호출 및 부적절한 검색 쿼리로 효율성과 최적화된 결과를 얻는 데 어려움을 겪습니다. 이러한 제한 사항을 해결하기 위해 우리는…

기계 학습 모델의 불확실성을 양적화하기 위한 형식 예측은 다변량 공간에서 점수를 확장하는 것이 어렵다. 이 연구는 최적 운송을 활용하여 다변량 형식 예측을 수행한다.