Apple, 미주투데이의 작성자 - 4 중 4 번째 페이지

애플, 2026년 CVPR 컨퍼런스에서 새로운 연구 발표

애플은 2026년 6월 3일부터 7일까지 덴버에서 열리는 IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR)에 참가하여 새로운 연구를 발표합니다.

2026년 5월 28일 오전 12시 00분Apple

VSAS-Bench: 실시간 비주얼 스트리밍 어시스턴트 모델 평가

VSAS-Bench는 비주얼 스트리밍 어시스턴트 모델의 실시간 성능을 평가하기 위한 새로운 프레임워크입니다. 기존 모델 평가 방식의 한계를 극복하고, 응답의 적시성과 일관성을 측정하는 데 중점을 두고 있습니다.

2026년 5월 22일 오전 12시 00분Apple

BalCapRL: RL 기반 MLLM 이미지 캡셔닝을 위한 균형 잡힌 프레임워크

이미지 캡셔닝은 컴퓨터 비전의 기본적인 작업 중 하나로, 최근 MLLM 시대에 많은 주목을 받고 있습니다. 새로운 연구는 강화 학습을 통해 더 정확하고 상세한 캡션을 생성하려고 합니다.

2026년 5월 11일 오전 12시 00분Apple

애플, 프라이버시 보호 기계 학습 및 AI 워크숍 2026 개최

애플은 프라이버시를 인권으로 여기며, AI 기술이 일상에 통합됨에 따라 프라이버시 보호 연구의 중요성이 커지고 있다고 강조했다. 이를 위해 애플은 프라이버시 보호 기계 학습 및 AI 워크숍을 개최했다.

2026년 5월 8일 오전 12시 00분Apple

Velox: 4D 객체의 기하학과 외관 표현 학습

Velox는 4D 객체의 기하학과 외관을 효과적으로 포착하는 잠재 표현을 학습하는 프레임워크를 소개합니다. 이 시스템은 최소한의 입력으로 동적 포인트 클라우드를 활용하여 효율적인 데이터 압축을 지원합니다.

2026년 5월 8일 오전 12시 00분Apple

위험 민감한 정렬을 위한 보상 분산 정책 최적화(RVPO)

현재의 비평가 없는 RLHF 방법은 다목적 보상을 산술 평균으로 집계하여 제약 무시의 위험에 노출됩니다. RVPO는 보상 간 분산을 처벌하여 일관성을 극대화하는 위험 민감한 프레임워크를 제안합니다.

2026년 5월 8일 오전 12시 00분Apple

다중 시점 캡처를 통한 고품질 3D 가우시안 머리 재구성 기술

HeadsUp은 대규모 다중 카메라 설정에서 고품질 3D 가우시안 머리를 재구성하는 효율적인 피드포워드 방법을 제안합니다. 이 방법은 입력 뷰를 압축하여 잠재 표현으로 변환합니다.

2026년 5월 8일 오전 12시 00분Apple

실용적인 학습 이미지 압축에서 중요한 요소

학습된 코덱이 전통적인 하드코딩 방식과 차별화되는 점은 인간의 시각 시스템에 최적화될 수 있는 능력입니다. 그러나 아직 실용적이고 지각적인 이미지 코덱은 제안되지 않았습니다. 본 연구는 이 격차를 해소하고자 합니다.

2026년 5월 7일 오전 12시 00분Apple

텍스트 조건부 JEPA로 의미론적으로 풍부한 시각 표현 학습하기

이미지 기반의 공동 임베딩 예측 아키텍처(I-JEPA)는 마스킹된 특징 예측을 통해 시각적 자기 지도 학습의 유망한 접근 방식을 제공합니다. 본 연구에서는 텍스트 캡션을 활용하여 예측 불확실성을 줄이는 텍스트 조건부 JEPA(TC-JEPA)를 제안합니다.

2026년 5월 7일 오전 12시 00분Apple

공간-기능 지능 벤치마크, 멀티모달 LLM을 위한 새로운 기준 제시

공간 지능은 단순한 기하학적 인식을 넘어 사물의 용도를 이해하는 것으로 발전하고 있습니다. 이를 평가하기 위한 새로운 기준인 공간-기능 지능 벤치마크(SFI-Bench)가 소개되었습니다.

2026년 5월 6일 오전 12시 00분Apple

SpecMD: 전문가 사전 로딩에 대한 종합 연구

Mixture-of-Experts(MoE) 모델은 희소 전문가 활성화를 가능하게 하지만, 이를 실제 성능으로 전환하기 위해서는 전문가 캐싱 메커니즘이 필요하다. SpecMD는 다양한 하드웨어 구성에서 캐싱 정책을 벤치마킹하는 표준화된 프레임워크이다.

2026년 5월 6일 오전 12시 00분Apple

반복적 디노이징을 통한 정규화 흐름의 발전

정규화 흐름(Normalizing Flows, NFs)은 최근 이미지 모델링 작업에서 유망한 성과를 보여주며 주목받고 있다. 이번 연구에서는 반복적 TARFlow(iTARFlow)를 도입해 NFs의 생성 모델을 한층 발전시켰다.

2026년 5월 6일 오전 12시 00분Apple

적응형 깊이별 캐시 공유를 위한 확률적 KV 라우팅

변환기 언어 모델의 높은 처리량을 위해 키-값(KV) 캐싱이 필요하지만, 이는 메모리 사용량을 증가시켜 비용에 영향을 미친다. 이 연구는 메모리 요구 사항을 줄이는 방법을 제안한다.

2026년 5월 5일 오전 12시 00분Apple

PORTool: 도구 통합 추론을 위한 중요도 인식 정책 최적화

PORTool은 LLM 기반 도구 사용 에이전트가 복잡한 작업을 해결할 수 있도록 도와주는 중요도 인식 정책 최적화 알고리즘입니다. 이 알고리즘은 도구 사용 능력을 강화하며, 단계별 보상을 통해 성공과 실패의 중간 단계를 명확히 합니다.

2026년 5월 4일 오전 12시 00분Apple

도구 호출 에이전트를 위한 강화된 에이전트: 추론 시간 피드백

이 논문은 ACL 2026에서 열린 제5회 자연어 생성, 평가 및 메트릭 워크숍에서 채택되었습니다. 도구 호출 에이전트의 평가 방식과 실시간 피드백의 필요성을 다룹니다.

2026년 5월 1일 오전 12시 00분Apple

STARFlow-V: 비디오 생성 모델링의 새로운 접근법

STARFlow-V는 정상화 흐름(normalizing flows)을 기반으로 한 비디오 생성기로, 엔드 투 엔드 학습과 강력한 인과 예측 기능을 제공합니다. 이 모델은 비디오 생성의 복잡성을 해결하기 위해 개발되었습니다.

2026년 4월 30일 오전 12시 00분Apple

2026 국제 음향, 음성 및 신호 처리 회의(ICASSP)에서 애플 연구 발표

애플이 2026년 5월 4일부터 8일까지 스페인 바르셀로나에서 열리는 국제 음향, 음성 및 신호 처리 회의(ICASSP)에서 새로운 연구를 발표합니다. 이번 회의는 신호 처리 및 응용 분야에 중점을 둔 과학 및 산업 연구 커뮤니티가 모이는 자리입니다.

2026년 4월 30일 오전 12시 00분Apple

수화 모델을 활용한 수화 주석 자동화

AI 기반 수화 해석의 발전은 고품질 주석 데이터 부족에 의해 제한되고 있다. 새로운 데이터셋인 ASL STEM Wiki와 FLEURS-ASL은 전문 통역사와 수백 시간의 데이터를 포함하고 있지만, 주석이 부분적으로만 이루어져 있어 활용도가 낮다.

2026년 4월 30일 오전 12시 00분Apple

편향 완화를 위한 직접 조정 최적화 기술 소개

생성 모델이 사용자 대신 결정을 내릴 때, 입력된 인물의 인구 통계적 속성에 따라 편향된 결과가 발생할 수 있습니다. 이 연구는 이러한 편향을 조절할 수 있는 방법을 제시합니다.

2026년 4월 29일 오전 12시 00분Apple

최신뉴스 전체보기

대규모 언어 모델을 위한 간헐적 추론: 강화 학습을 통해

이 연구는 대규모 언어 모델의 추론 능력을 향상시키는 긴 사고 체인이 시간 효율성 및 첫 번째 토큰 도달 시간에 미치는 영향을 분석하고, 강화 학습을 활용하여 다중 단계 질문에 대한 간헐적 추론을 유도하는 새로운 학습 패러다임을 제안한다. 모델이 간헐적 추론을 수행할 수 있는 능력을 강화하기 위해 간단하면서도 효과적인 규칙 기반 보상 시스템을 도입한다.

2025년 5월 28일 오전 12시 00분Apple

청진으로부터 심박수 추정을 위한 Foundation Model Hidden Representations

최근 자가 감독 음향 표현 기반 모델(FMs)이 제안되어 음향 기반 생리학적 정보를 제공하는데 사용되어 왔다. 본 연구는 공개된 PCG 데이터셋과 심박수(HR) 추정 모델을 사용하여 여섯 가지 음향 표현 FMs의 층별 조사를 수행하였다.

2025년 5월 28일 오전 12시 00분Apple

CLIP-UP: 간단하고 효율적인 Mixture-of-Experts CLIP 학습 레시피와 희소 업사이클링

CLIP-Upcycling (CLIP-UP)은 밀집형 CLIP 모델을 희소 MoE 아키텍처로 변환하는 효율적인 대체 학습 전략으로, 훈련 복잡성과 비용을 현저히 줄인다. 다양한 설정과 보조 손실을 활용한 방대한 실험을 통해 CLIP-UP은 훈련 복잡성과 비용을 크게 낮추는 것을 입증했다.

2025년 5월 27일 오전 12시 00분Apple

데이터 효율적 다중모달 학습을 위한 제어 가능한 이미지-텍스트 합성 기술

대규모 데이터셋에 대한 의존성을 줄이기 위해 생성 모델을 사용하는 CtrlSynth 기술 소개. 기존 방법과 달리 이미지와 텍스트를 모두 지원하며 합성과정을 세밀하게 제어할 수 있어 데이터 다양성을 높일 수 있음.

2025년 5월 27일 오전 12시 00분Apple

대형 언어 모델의 텐서 병렬성을 효율적으로 하는 SPD: Sync-Point Drop

대규모 언어 모델의 규모가 급격하게 증가함에 따라 여러 컴퓨팅 유닛 간의 효율적인 분산 추론이 점점 중요해지고 있다. 그러나 텐서 병렬성과 같은 인기 있는 분산 추론 기술로 인한 통신 오버헤드는 확장성과 낮은 지연 시간을 달성하는데 중요한 도전 요소이다. 따라서 통신 오버헤드를 줄이기 위해 주의도를 기울여 동기화를 선택적으로 제거하는 싱크포인트 드롭(SPD) 최적화 기술을 소개하고 있다.

2025년 5월 22일 오전 12시 00분Apple

좋은 입체 이미지를 만드는 요소는 무엇인가요?

가상 현실(VR) 헤드셋의 급속한 발전으로 입체 품질 경험(SQoE)의 효과적인 측정이 중요해졌다. 기존의 입체 메트릭은 주로 시각적 불편함이나 이미지 품질과 같은 특정 측면에 초점을 맞추었으며 데이터 한계에 직면해왔다. 이를 해결하기 위해 실제와 합성된 입체 이미지로 구성된 SCOPE(입체 콘텐츠 선호도 평가) 데이터 세트를 제시한다.

2025년 5월 22일 오전 12시 00분Apple

인간형 로봇을 위한 정책 학습

다양한 데이터로 인간형 로봇을 훈련시키는 것은 그들의 견고성과 과제 및 플랫폼 간의 일반화를 향상시킨다. 본 논문은 인간의 자가 중심의 시범을 더 확장 가능한 데이터 원천으로 조사하여 로봇 학습을 위한 훈련 데이터로 활용한다. 우리는 인간형 로봇과 인간 사이의 구현 갭을 데이터 및 모델링의 관점에서 완화한다.

2025년 5월 21일 오전 12시 00분Apple

Cubify Anything: 실내 3D 물체 검출 확장

Cubify Anything은 실내 3D 물체 검출을 위해 새로운 데이터셋과 모델링을 도입하고 있습니다. 기존 데이터셋의 한계를 극복하기 위해 Cubify-Anything 1M (CA-1M) 데이터셋을 소개하고 있으며, 이를 통해 400K개 이상의 3D 물체를 라벨링하고 1K개 이상의 정확한 레이저 스캔 장면과 3.5K개 이상의 핸드헬드 캡처와 연계시켰습니다.

2025년 5월 21일 오전 12시 00분Apple

다대다 언어 모델이 영어 강세인가? 다국어 LLM의 자연함 평가와 개선

현재 대규모 언어 모델(LLMs)은 주로 영어를 주요 언어로 사용하며, 몇 안 되는 다국어 모델조차도 영어 중심적인 편향을 보입니다. 이 연구에서는 다국어 LLM의 자연함을 평가하고 개선하는 방법에 대해 다룹니다. LLMs는 영어가 아닌 언어에서 자연스럽지 않은 결과물을 생성할 수 있으며, 이는 어휘와 문법에서 영어 중심적인 패턴을 반영합니다.

2025년 5월 16일 오전 12시 00분Apple

오프라인 비디오 대형 언어 모델을 프로액티브 스트리밍 어시스턴트로 변환하는 StreamBridge

StreamBridge는 오프라인 비디오 대형 언어 모델을 스트리밍 가능한 모델로 변환하는 효과적인 프레임워크이다. 이는 기존 모델을 온라인 시나리오에 적응시키는데 두 가지 주요 도전 과제를 해결한다: 실시간 다중 대화 이해 능력의 한계와 선행적인 응답 메커니즘의 부재.

2025년 5월 12일 오전 12시 00분Apple

Matrix3D: 대형 사진 측량 모델 올인원

Matrix3D는 동일한 모델을 활용하여 포즈 추정, 깊이 예측, 신규 뷰 합성과 같은 여러 사진 측량 하위 작업을 수행하는 통합 모델이다. Matrix3D는 이미지, 카메라 매개변수, 깊이 맵과 같은 여러 모달리티 간의 변환을 통합하기 위해 다중 모달 확산 트랜스포머(DiT)를 활용한다. Matrix3D의 대규모 다중 모달리티 훈련의 핵심은 마스크 학습 전략의 통합에 있다. 이는 이미지-포즈 및 이미지-깊이 쌍과 같은 부분적으로 완전하지 않은 데이터로도 완전한 모달리티 모델 훈련이 가능하게 한다.

2025년 5월 9일 오전 12시 00분Apple

확산 모델의 사영 구성 메커니즘

이 연구는 확산 모델에서의 구성에 대한 이론적 기초를 연구하며, 특히 분포의 조합을 통한 외삽과 길이 일반화에 초점을 맞추고 있습니다. 이전 연구에서는 선형 점수 조합을 통해 분포를 조합하면 길이 일반화를 달성할 수 있다는 것이 밝혀졌으나, 이러한 조합이 왜 동작하는지에 대한 이론적 이해는 아직 미완성 상태입니다. 이 논문은 이러한 기본적인 공백을 다루기 시작합니다.

2025년 5월 1일 오전 12시 00분Apple

연합 분석을 위한 지역 Pan-개인정보 보호

연합 텔레메트리 응용프로그램을 고려하여, 지역 Pan-개인정보 보호에 대한 연구를 진행하고, 연합 시스템에서 이벤트 발생 횟수를 모니터링할 때 지역 장치에서의 이벤트 발생은 심지어 해당 장치의 침입자에게도 숨겨져야 함을 보여줌.

2025년 5월 1일 오전 12시 00분Apple

분류기 없는 가이드는 예측자-교정자이다

이 연구는 분류기 없는 가이드(CFG)의 이론적 기초를 조사한다. CFG는 텍스트-이미지 확산 모델의 조건부 샘플링의 주요 방법이지만, 다른 확산 측면과 달리 이론적 기반이 불안정하다. 이 논문에서는 CFG가 DDPM 및 DDIM과 다르게 상호작용하며 CFG와 함께 사용된 어떤 샘플러도 gamma-제곱 분포 p(x|c)^γp(x)^{1−γ}를 생성하지 않음을 보여준다. 그리고 CFG의 행동을 명확히 하기 위해 이것이 예측자-교정자 방법의 한 종류이다는 것을 보여준다.

2025년 5월 1일 오전 12시 00분Apple

개선된 샘플 복잡도를 가진 개인용 부드럽지 않은 비볼록 최적화

미분적으로 개인 정보 보호(DP) 최적화 알고리즘을 연구하고 부드럽지도 볼록하지도 않은 확률적 및 경험적 목적 함수에 대해 제안되며, 기존 작업을 개선하는 샘플 복잡도 한계를 가진 방법을 제안합니다.

2025년 5월 1일 오전 12시 00분Apple

분포 속성을 확인하는 방법: 분포를 위한 계산적으로 안전한 주장 시스템

통계 분석이 과학, 산업 및 사회에서 중요해지면서 결과의 정확성을 보장해야 하는 필요성이 커지고 있다. 복제를 통해 근사 정확성을 확인할 수 있지만, 복제 없이도 확인할 수 있는 방법은 없을까? 최근 연구를 기반으로, 결과가 대략적으로 정확한지 확률적으로 확인할 수 있는 증명 시스템을 연구하고 있다.

2025년 4월 24일 오전 12시 00분Apple

앱 스토어 리뷰 요약에 대한 LLM 기반 접근

앱 스토어의 평가와 리뷰는 사용자들이 앱을 탐색할 때 소중한 자원이다. iOS 18.4에서 리뷰 요약이 제공되면서 사용자들은 앱에 대한 다른 사용자들의 의견을 빠르게 파악할 수 있다. 이 기능은 새로운, 다단계 LLM 기반 시스템으로 구동되며 주기적으로 사용자 리뷰를 요약한다.

2025년 4월 24일 오전 12시 00분Apple

애플 머신러닝 연구 ICLR 2025에서 진행

애플 연구자들이 머신러닝과 인공지능을 발전시키며 세계의 기술 이해를 개선하고 그 가능성을 재정의하는 데 기여하고 있습니다. 이번 주에는 싱가포르에서 열리는 ICLR 2025에서 주요 딥러닝 전문가들이 모여 representation에 대한 응용을 논의할 예정입니다.

2025년 4월 21일 오전 12시 00분Apple

FastVLM: Vision Language Models를 위한 효율적인 비전 인코딩

고해상도 이미지의 확장은 Vision Language Models (VLMs)의 성능을 향상시키는 데 중요하며, 이를 위해 FastVLM이 개발되었다. ViTs와 같은 인기 있는 비전 인코더는 고해상도에서 비효율적이지만 FastVLM은 인코딩 레이턴시를 줄이고 시각적 토큰 수를 최적화하여 전반적인 레이턴시를 낮춘다.

2025년 4월 18일 오전 12시 00분Apple

Gromov-Monge 갭을 이용한 분리된 표현 학습

레이블이 없는 데이터로부터 분리된 표현을 학습하는 것은 기계 학습에서의 중요한 과제이다. 이를 해결함으로써 일반화, 해석 가능성 또는 공정성과 같은 다른 문제들을 해결할 수 있다. 이론적으로 해결하기 어렵지만, 실제로는 이전 일치를 통해 분리가 종종 이루어진다. 또한, 최근 연구들은 기하학적 고려사항을 활용하여 이전 일치 접근법을 개선할 수 있음을 보여주었다.

2025년 4월 17일 오전 12시 00분Apple

ACM 인간-컴퓨터 상호작용 학회 (CHI) 2025

애플이 ACM 인간-컴퓨터 상호작용 학회 (CHI) 2025에서 새로운 연구를 발표할 예정이며, 이번 행사는 4월 26일부터 5월 1일까지 일본 요코하마에서 진행됩니다. 애플은 이 학회를 후원하며 상호작용 기술에 초점을 맞춘 과학 및 산업 연구 커뮤니티를 결집시키는데 자랑스러워합니다.

2025년 4월 17일 오전 12시 00분Apple

단계별 확산: 초급 튜토리얼

본 논문은 머신러닝을 위한 확산 모델 및 흐름 일치 수학에 대한 접근 가능한 초급 과정을 제시한다. 확산을 가능한 간단하게 가르치고 있으며, 수학적이고 머신러닝에 대한 선행 지식은 최소화했지만, 올바름에 대해 논의할만한 충분한 기술적 세부 정보를 제공한다. 대부분의 튜토리얼과는 달리, Variational Auto Encoder(VAE)나 Stochastic Differential Equations(SDE) 접근 방식을 취하지 않는다. 사실, 핵심 아이디어에는 SDE, ELBO, Langevin dynamics, 심지어 점수 개념이 필요하지 않다. 독자는 단순히…

2025년 4월 16일 오전 12시 00분Apple

DART: 확장 가능한 텍스트-이미지 생성을 위한 Denoising Autoregressive Transformer

DART는 Markov 프로세스 노이즈 제거를 통해 훈련되는 확산 모델의 한계를 극복하기 위해 제안된 transformer 기반 모델로, 비-Markovian 프레임워크 내에서 자기 회귀와 확산을 통합한다. 이미지 패치를 공간적, 스펙트럼적으로 반복적으로 노이즈 제거하며 텍스트에서 이미지를 생성한다.

2025년 4월 16일 오전 12시 00분Apple

네이티브 다중 모달 모델의 스케일링 법칙

현재의 다중 모달 모델은 사전 훈련된 구성 요소를 통합하는 방식을 사용하는데, 이에 대한 late-fusion 아키텍처의 우월성이 여전히 논란이다. 본 연구에서는 네이티브 다중 모달 모델(NMMs)의 구조적 설계를 재방문하고 모든 modalities에 대해 처음부터 훈련된 모델을 탐구한다.

2025년 4월 16일 오전 12시 00분Apple

2025년 국제학습표현학회 (ICLR)

2025년 4월 24일부터 28일까지 싱가포르에서 개최되는 국제학습표현학회(ICLR)를 애플이 후원할 예정이다. 깊은 학습의 발전에 헌신하는 전문가들이 모인다.

2025년 4월 16일 오전 12시 00분Apple

자기 회귀 모델로부터 적응을 통한 확산 언어 모델 확장

확산 언어 모델(DLMs)은 텍스트 생성 모델링을 위한 유망한 새로운 패러다임으로 등장했으며, 자기 회귀(AR) 모델의 한계를 해결할 수 있는 잠재력이 있다. 그러나 현재의 DLMs는 AR 모델에 비해 작은 규모에서 연구되었으며, 언어 모델 벤치마크에서 공정한 비교가 부족하다. 또한, 대규모로부터 DLMs를 처음부터 훈련시키는 것은 여전히 어렵다. 이에 우리는 오픈 소스 AR 언어 모델의 보급으로부터 이러한 모델들을 적응시켜 텍스트 확산 모델을 구축하는 것을 제안한다.

2025년 4월 16일 오전 12시 00분Apple

자기 회귀 모델로부터 적응을 통한 확산 언어 모델 확장

2025년 4월 16일 오전 12시 00분Apple

CoMotion: 동시 다중 인물 3D 모션

단일 단안 카메라 스트림으로부터 여러 사람의 자세를 감지하고 추적하는 방법 소개. 복잡한 자세와 가려진 장면에서 시간적으로 일관된 예측을 유지. 강력한 프레임별 감지와 학습된 자세 업데이트를 수행하여 프레임 간 사람을 추적. 감지를 시간에 따라 매칭하는 대신, 자세는 새 입력 이미지에서 직접 업데이트되어 가려짐을 통해 온라인 추적 가능.

2025년 4월 15일 오전 12시 00분Apple

EC-DIT: 스케일링 디퓨전 트랜스포머와 적응적 전문가 선택 라우팅

디퓨전 트랜스포머를 스케일업하여 수십억 개의 파라미터로 확장하는 것이 유망하나, 현재 크기 이상으로 스케일링하는 효과는 여전히 탐구 중이며 어렵다. EC-DIT는 이미지 생성의 계산적 이질성을 명시적으로 이용하여 전문가 선택 라우팅을 사용하는 디퓨전 트랜스포머용 새로운 MoE 모델을 개발한다. EC-DIT는 입력 텍스트를 이해하고 해당 이미지 패치를 생성하기 위해 할당된 계산을 적응적으로 최적화하는 방법을 학습한다.

2025년 4월 15일 오전 12시 00분Apple

TIS-DPO: 토큰-레벨 중요도 샘플링을 통한 직접적인 선호도 최적화

대규모 언어 모델의 선호도 조정을 위해 DPO가 널리 사용되고 있지만 토큰 간 중요도 차이를 무시하여 최적화 효율성에 영향을 줄 수 있음. 이에 TIS-DPO를 제안하여 토큰 간 중요도를 고려한 최적 데이터를 제시함.

2025년 4월 15일 오전 12시 00분Apple

FocalLens: Instruction Tuning이 제로샷 조건부 이미지 표현을 가능하게 함

이 논문은 ICLR 2025의 Foundation Models in the Wild 워크샵에서 받아들여졌다. 이미지의 시각적 이해는 본질적으로 맥락에 의존적이며, 이미지에서 주목하는 대상은 주어진 작업에 따라 달라진다. 대부분의 기존 이미지 인코딩 패러다임은 이미지를 고정된 범용 특징 벡터로 표현하는데, 다양한 시각 정보를 우선순위에 따라 다르게 처리하는 잠재적 필요성을 간과한다.

2025년 4월 14일 오전 12시 00분Apple

Apple 인텔리전스를 위한 민감한 프라이버시를 활용한 집계 트렌드 이해

Apple은 민감한 프라이버시를 중요시하며, Differential Privacy와 같은 기술을 활용하여 제품 사용 통계를 분석하고 사용자 프라이버시를 보호합니다. 이러한 필요성은 Apple 인텔리전스에서도 중요하며, 사용자들의 데이터를 보호하면서 사용 트렌드를 이해하는 것이 목표입니다.

2025년 4월 14일 오전 12시 00분Apple

MM-Ego: Egocentric Multimodal LLMs 구축을 향하여

이 연구는 에고센트릭 비디오 이해를 위한 다중 모달 기반 모델을 철저히 탐구한다. 에고센트릭 비디오 이해를 위한 QA 데이터 부족 문제를 해결하기 위해 Ego4D에서 30초부터 1시간까지의 에고센트릭 비디오에 대한 7백만개의 고품질 QA 샘플을 자동으로 생성한다. 이는 가장 큰 에고센트릭 QA 데이터셋 중 하나이다. 또한 629개의 비디오와 7,026개의 질문으로 구성된 어려운 에고센트릭 QA 벤치마크를 제공하여 모델의 인식 능력을 평가한다.

2025년 4월 11일 오전 12시 00분Apple

« 이전 1 2 3 4