
AXLearn은 대규모 심층 학습 모델의 확장 가능하고 고성능의 훈련을 용이하게 하는 제품 심층 학습 시스템이다. 다른 최신 심층 학습 시스템과 비교했을 때, AXLearn은 모듈화와 이질적 하드웨어 인프라 지원에 중점을 둔다. AXLearn의 내부 인터페이스는 엄격한 캡슐화를 따라 소프트웨어 구성 요소 간의 다양한 조합을 용이하게 하여 빠른 모델 개발 및 실험을 가능케 한다.

AXLearn은 대규모 심층 학습 모델의 확장 가능하고 고성능의 훈련을 용이하게 하는 제품 심층 학습 시스템이다. 다른 최신 심층 학습 시스템과 비교했을 때, AXLearn은 모듈화와 이질적 하드웨어 인프라 지원에 중점을 둔다. AXLearn의 내부 인터페이스는 엄격한 캡슐화를 따라 소프트웨어 구성 요소 간의 다양한 조합을 용이하게 하여 빠른 모델 개발 및 실험을 가능케 한다.

밀도 기능 이론(DFT)은 현대 계산 화학과 재료 과학의 기초 역할을 합니다. 그러나 높은 계산 비용으로 인해 사용이 제한됩니다. 기계 학습 상호 원자력(MLIP)은 DFT 정확도를 근접하게 흉내내며 계산 시간을 현저히 단축시키는 잠재력이 있습니다.

딥 생성 모델링의 지속적인 발전에 이끌리는 시뮬레이션 기반 추론(SBI)은 확률적 시뮬레이터의 매개변수를 추론하는 데 사용되고 있습니다. 하지만 최근 연구에서 모델 부정확성이 SBI의 신뢰성을 훼손할 수 있다는 것을 보여주었습니다. 이 연구는 소량의 실제 세계 보정 데이터를 사용하여 모델 부정확성을 극복하는 Robust Posterior Estimation~(RoPE) 프레임워크를 소개합니다.

본 연구에서는 이산 데이터를 모델링하고 생성하기 위한 유망한 프레임 워크인 이산 확산을 제시한다. 대상 콘크리트 점수 매칭(TCSM)은 이산 확산 모델의 교육과 세부 조정을 위한 혁신적이고 다재다능한 목적을 제시한다. TCSM은 넓은 적용 가능성을 갖는 일반적인 프레임 워크를 제공하며, 다양한 기존 이산 확산 접근 방식을 자연스럽게 다룰 수 있다. 또한, 동일한 TCSM 목적은 이산 확산 모델의 사후 교육까지 확장된다.

점점 더 많은 edge 장치에서 대규모 언어 모델이 장기 문맥 설정에 배포되고 있어서, 빠르고 효율적인 장기 문맥 추론이 점점 더 필요해지고 있다. 이 연구에서는 기존 방법들이 효율적인 KV 캐시 최적화 전략을 통해 중요한 속도 향상을 달성하는 데 어려움을 겪고 낮은 수락률을 유발하는 반면, 자가-추론 디코딩을 사용하여 이러한 쟁점을 해결하는 방법을 제시한다.

언어 모델 용량 확장은 성능 향상과 새로운 기능 발견에 신뢰할만한 방법이다. 모델 매개변수 및 예제 당 연산량으로 주로 정의되며, 이 두 가지 요소 간의 상호 작용과 전체 용량에 대한 복합 기여는 아직 완전히 이해되지 않았다. 본 논문에서는…

대형 언어 모델(LLMs)의 급속한 채택은 그들의 공정성을 벤치마킹하는 중요성을 강조합니다. 이에 따라 모델의 불확실성을 고려한 새로운 공정성 측정 기준 UCerF를 제안하였습니다. 이는 모델의 내부 편향을 더 잘 반영하여 모델의 공정성을 세밀하게 평가할 수 있습니다.

다양한 데이터 소스의 혼합물로 대규모 모델이 교육되고, 다양한 데이터 혼합물은 매우 다른 하류 성능을 얻는다. 이에 따라 모델을 다시 교육할 필요 없이 각 데이터 혼합물에 대한 모델을 생성할 수 있는 새로운 아키텍처를 제안한다. 이 아키텍처는 전문가 가중치 은행으로 구성되어 있으며, 입력 히스토그램의 함수로 선형 결합 계수를 학습한다. 이 아키텍처를 교육하기 위해 무작위 히스토그램을 샘플링하고 해당 모델을 생성한 후 데이터 배치를 통해 역전파한다.

타블러 기계 학습에서 벤치마킹의 중요성을 이해하고, 정형 데이터에서 패턴을 학습하는 모델을 구축하는 것에 초점을 맞추고 있습니다. 이는 정확성과 해석 가능성이 필수적인 의료 및 금융 분야에서 사용됩니다.

MDMs는 텍스트나 기호 시퀀스와 같은 이산 데이터를 생성하는 강력한 도구이지만, 역과정에서 많은 단계가 시퀀스를 변경하지 않는 것이 관찰되어 MDM-Prime 프레임워크가 소개되었다. 이 프레임워크는 샘플링 중 일부 토큰을 언마스크하면서 시퀀스 생성 효율을 향상시킨다.

CLIP는 이미지/텍스트 표현을 생성하는 비전 인코더를 훈련하는 데 사용되는 인기 있는 방법이며, 최근에는 다양한 응용 프로그램을 용이하게 하는 다중 언어 모델의 비전 백본으로 널리 채택되었습니다. 그러나 CLIP의 성공은 이미지 수준에서의 웹 크롤링된 노이즈 텍스트 주석을 정렬하는 데 의존하는데, 이러한 기준은 특히 세부 비전 표현이 필요한 하위 작업에 대해 충분하지 않을 수 있습니다.

이 연구는 자아중심 비디오 질문 응답에 다모달 대형 언어 모델이 어떻게 적용되는지 평가하고 있다. 긴 시간 범위의 시간적 추론, 일인칭 시점, 자주 발생하는 카메라 움직임과 같은 과제를 처리해야 한다. QaEgo4Dv2 데이터셋에서 4가지 인기 MLLM을 평가하며 주석 노이즈를 줄이기 위해 QaEgo4Dv2를 소개한다.

텍스트 대비 생성된 비디오의 의미적 정렬을 정확히 평가하는 것은 여전히 도전적이다. 기존의 텍스트 대비 비디오 정렬 메트릭인 CLIPScore는 미세한 정렬 세부사항을 생성하지 못하여 인간의 선호와 일치하지 못한다. 이 한계를 극복하기 위해 우리는 ETVA라는 새로운 텍스트 대비 비디오 정렬 평가 방법을 제안한다. 이 방법은 미세한 질문 생성과 답변을 통해 텍스트 대비 비디오의 정렬을 평가한다.

Cavia는 카메라 제어가 가능한 멀티뷰 비디오 생성을 위한 혁신적인 프레임워크로, 입력 이미지를 다양한 카메라 경로로 일관된 비디오로 변환할 수 있다.

대형 언어 모델의 신속한 확장으로 구조화된 가지치기가 보다 효율적이고 우수한 성능을 제공하는 작은 모델을 학습하는 데 널리 사용되고 있다. 이 논문에서는 모델에 대한 고정된 가지치기 마스크를 결정하는 전통적인 정적 가지치기 접근법을 넘어서 사용자 지시에 설명된 정보를 기반으로 가지치기 마스크를 동적으로 조정하는 방법을 제안한다.

LGBTQ+ 책 작가들은 포괄적 교육에 해를 끼친다며 최고법원의 6-3 판결을 비난했다.

강화학습은 LLM의 추론 능력을 향상시키는 데 큰 잠재력을 보여주지만 주로 수학과 코드에 좁게 초점을 맞추어왔다. 이를 극복하기 위해 GURU라는 프레임워크가 제안되었는데, 이는 6개 도메인에 걸쳐 LLM 추론을 횡단하는 역할을 한다.

인셉션 랩스가 개발한 머큐리는 자동 코드 생성을 위한 확산 기반 언어 모델로, 기존의 자기 회귀 방식보다 빠른 속도로 작동한다. 이는 소프트웨어 개발 분야에서 혁신을 가져올 것으로 기대된다.

구글 딥마인드가 새로운 딥러닝 프레임워크인 알파게놈을 공개했다. 이 모델은 DNA 서열 변이의 조절적 결과를 넓은 생물학적 모달리티에 걸쳐 예측하는 것을 목표로 한다. 알파게놈은 1메가베이스까지의 긴 DNA 서열을 입력으로 받아 베이스 수준의 스플라이싱 이벤트와 같은 고해상도 예측을 출력한다.

최근 대형 추론 모델(LRMs)의 추론 능력에 대한 논쟁은 Apple의 “사고의 환영”과 Anthropic의 “사고의 환영의 환영”이라는 두 논문으로 활발해졌다. Apple의 논문은 LRMs의 추론 능력에 근본적 한계를 주장하는 반면, Anthropic은 이러한 주장이 평가의 결함에서 비롯된 것이라고 주장한다.

멀티모달 대형 언어 모델은 이미지와 텍스트를 처리하여 상호작용적이고 직관적인 AI 시스템을 발전시키는데 기여한다. 이 논문에서는 WINGS 아키텍처를 소개하며, 텍스트만 기반으로 학습된 모델이 정보를 잊는 것을 방지하는 방법을 제시한다.

본 연구는 다중 모달 속도 벡터 필드를 모델링하여 클래식한 정정 흐름 매칭을 향상시키는 변분 정정 흐름 매칭을 탐구합니다. 추론 시간에는 소스 분포에서 대상 분포로 샘플을 ‘이동’시키는 과정으로 속도 벡터 필드를 통해 보통 미분 방정식을 해결합니다. 훈련 시간에는 속도 벡터 필드를 소스와 대상 분포에서 무작위로 추출된 결합된 샘플 사이를 선형 보간하여 학습합니다.

Flow matching 모델은 이미지나 비디오와 같은 도메인뿐만 아니라 3D 포인트 클라우드나 단백질 구조와 같은 불규칙하거나 구조화되지 않은 데이터에 대한 생성 모델링에 강력한 방법으로 등장했습니다. 이 두 단계 패러다임은 서로 다른 데이터 도메인에 대해 손수 제작된 압축기 아키텍처가 사용되기 때문에 모델의 통합을 방해합니다.

정규화 흐름(NFs)은 연속적인 입력에 대한 우도 기반 모델로, 밀도 추정과 생성 모델링 작업에서 유망한 결과를 보여주었으며, 이번 연구에서 NFs가 예상보다 강력함을 입증하고 있다. TarFlow는 NF 모델의 성능을 높일 수 있는 간단하고 확장 가능한 아키텍처로, 이미지 패치 위에 자기회귀 Transformer 블록의 스택으로 이루어진 MAFs의 변형으로 볼 수 있다.

최신 언어 모델은 훈련 데이터를 의미있게 기억하는지에 대한 논란이 있습니다. 메타의 새로운 프레임워크는 모델의 용량을 비트 수준에서 정의하여 이 문제를 다루고 있습니다.

대규모 언어 모델(Large language models, LLMs)은 많은 AI 기반 서비스를 구동하지만 추론 중의 계산 비용이 큰 과제로 남아있었습니다. 본 논문은 WINA라는 훈련 무료 희소 활성화 프레임워크를 소개하며, 계산 효율성과 출력 품질의 균형을 최적화하는 것이 중요한 연구 분야임을 강조합니다.

이 AI 논문은 웹 네비게이션 에이전트를 구축하는 복잡성과 사용자 목표 해석, 웹사이트 구조 이해, 다단계 결정 등의 작업을 필요로 하는 것에 초점을 맞추고 있다.

이 연구는 대규모 언어 모델의 추론 능력을 향상시키는 긴 사고 체인이 시간 효율성 및 첫 번째 토큰 도달 시간에 미치는 영향을 분석하고, 강화 학습을 활용하여 다중 단계 질문에 대한 간헐적 추론을 유도하는 새로운 학습 패러다임을 제안한다. 모델이 간헐적 추론을 수행할 수 있는 능력을 강화하기 위해 간단하면서도 효과적인 규칙 기반 보상 시스템을 도입한다.

복잡한 데이터 기반 작업을 처리하는데 강력한 도구인 신경망은 종종 차량 라우팅이나 작업 일정 등 엄격한 제약 하에서 이산적인 결정을 내리는 데 어려움을 겪습니다. 이러한 문제들을 해결하기 위해 연구된 새로운 AI 프레임워크인 Differentiable MCMC 레이어를 소개한 논문입니다.

Magentic-UI는 복잡한 웹 작업을 처리하고 다단계 계획과 브라우저 사용이 필요한 작업을 사람들과 협력하여 완료하는 오픈 소스 에이전트 프로토타입이다.

Anthropic이 새로운 언어 모델인 클로드 오퍼스 4와 클로드 소넷 4를 출시했다. 이 업데이트는 클로드 모델 패밀리의 기술적 세련성을 대폭 향상시켰는데, 특히 구조화된 추론, 소프트웨어 엔지니어링 및 자율 에이전트 행동과 관련된 영역에서 주목할만한 발전을 이루었다.

대규모 언어 모델의 규모가 급격하게 증가함에 따라 여러 컴퓨팅 유닛 간의 효율적인 분산 추론이 점점 중요해지고 있다. 그러나 텐서 병렬성과 같은 인기 있는 분산 추론 기술로 인한 통신 오버헤드는 확장성과 낮은 지연 시간을 달성하는데 중요한 도전 요소이다. 따라서 통신 오버헤드를 줄이기 위해 주의도를 기울여 동기화를 선택적으로 제거하는 싱크포인트 드롭(SPD) 최적화 기술을 소개하고 있다.

기존 생성 모델은 대규모 고품질 데이터셋에 의존하는데, Meta AI가 발표한 역순 샘플링 기술은 이를 극복하고 데이터 부족 상황에서도 보상 주도적 생성 모델링을 가능하게 합니다.

조지아텍과 스탠포드 대학 연구진이 MLE 작업의 자동화를 탐구하고, AI 에이전트를 활용하여 엔드 투 엔드 워크플로우를 효율적으로 조율하는 데 어려움을 겪는 과제를 처리하는 것을 연구했다.

기계 학습 시스템이 추천 엔진부터 자율 시스템까지 다양한 응용 프로그램에서 중요해지면서, 이러한 시스템들의 환경 지속 가능성에 대한 필요성이 증가하고 있습니다. CATransformers는 AI 모델과 하드웨어를 지속 가능한 엣지 배포를 위해 공동 최적화하는 탄소 인식 기계 학습 프레임워크입니다.

시퀀스 모델은 언어, 시계열, 신호와 같은 시간 구조 데이터를 처리하기 위해 설계되었으며, 내부적으로 시간 관계를 관리하여 일관된 출력을 생성함. 이 AI 논문은 시퀀스 모델의 메모리 활용을 측정하는 효과적인 상태 크기(ESS) 메트릭을 제시하며 성능 최적화에 도움을 줌.

대규모 추론 모델(LRMs)은 수학, 코딩, 과학적 추론에서 놀라운 능력을 보여주지만, 내부 지식에만 의존할 때 복잡한 정보 연구 요구를 해결하는 데 제약이 있습니다. WebThinker는 이러한 한계를 극복하고 다단계 추론 과정을 통해 정확한 과학 보고서를 생성하는데 도움을 줍니다.

최근 LLMs의 발전으로 자연어 이해, 추론 및 생성이 크게 향상되었지만, 이 모델들은 종종 환각을 생성하는데, 이는 신뢰성을 저해함. 높은 위험도메인에서 특히 시급하게 대응이 필요함.

구글 연구진은 AMIE가 다중모달 추론을 사용하여 원격 진료에서 텍스트 이외의 이미지, 검사 결과 등을 고려해 주치의를 능가할 수 있는 능력을 갖추었다.

MIT의 연구진이 신규 유형의 “상태-공간 모델”을 개발했는데, 이는 조화진동자의 원리를 활용했다. 이 모델은 뇌의 신경 역학에서 영감을 받아 개발되었으며, 인공지능 및 머신러닝 분야에 혁신을 가져올 것으로 예상된다.

미분적으로 개인 정보 보호(DP) 최적화 알고리즘을 연구하고 부드럽지도 볼록하지도 않은 확률적 및 경험적 목적 함수에 대해 제안되며, 기존 작업을 개선하는 샘플 복잡도 한계를 가진 방법을 제안합니다.
이 연구는 확산 모델에서의 구성에 대한 이론적 기초를 연구하며, 특히 분포의 조합을 통한 외삽과 길이 일반화에 초점을 맞추고 있습니다. 이전 연구에서는 선형 점수 조합을 통해 분포를 조합하면 길이 일반화를 달성할 수 있다는 것이 밝혀졌으나, 이러한 조합이 왜 동작하는지에 대한 이론적 이해는 아직 미완성 상태입니다. 이 논문은 이러한 기본적인 공백을 다루기 시작합니다.
연합 텔레메트리 응용프로그램을 고려하여, 지역 Pan-개인정보 보호에 대한 연구를 진행하고, 연합 시스템에서 이벤트 발생 횟수를 모니터링할 때 지역 장치에서의 이벤트 발생은 심지어 해당 장치의 침입자에게도 숨겨져야 함을 보여줌.
대형 언어 모델(LLM)은 수학, 논리, 기획, 코딩 등의 추론 작업에서 상당한 주목을 받았다. 그러나 이러한 모델을 실제 상황에 적용할 때 중요한 도전 과제가 발생한다. 현재의 구현은 대부분 필요한 모든 정보가 명확하게 제공된다는 가정 하에 작동하지만, 현실은 종종 불완전하거나 모호한 상황을 제시한다.

연구자들이 AI 모델을 개선하거나 새로운 모델을 만드는데 도움이 되는 통합 프레임워크를 만들었다.
레이블이 없는 데이터로부터 분리된 표현을 학습하는 것은 기계 학습에서의 중요한 과제이다. 이를 해결함으로써 일반화, 해석 가능성 또는 공정성과 같은 다른 문제들을 해결할 수 있다. 이론적으로 해결하기 어렵지만, 실제로는 이전 일치를 통해 분리가 종종 이루어진다. 또한, 최근 연구들은 기하학적 고려사항을 활용하여 이전 일치 접근법을 개선할 수 있음을 보여주었다.
본 논문은 머신러닝을 위한 확산 모델 및 흐름 일치 수학에 대한 접근 가능한 초급 과정을 제시한다. 확산을 가능한 간단하게 가르치고 있으며, 수학적이고 머신러닝에 대한 선행 지식은 최소화했지만, 올바름에 대해 논의할만한 충분한 기술적 세부 정보를 제공한다. 대부분의 튜토리얼과는 달리, Variational Auto Encoder(VAE)나 Stochastic Differential Equations(SDE) 접근 방식을 취하지 않는다. 사실, 핵심 아이디어에는 SDE, ELBO, Langevin dynamics, 심지어 점수 개념이 필요하지 않다. 독자는 단순히…
DART는 Markov 프로세스 노이즈 제거를 통해 훈련되는 확산 모델의 한계를 극복하기 위해 제안된 transformer 기반 모델로, 비-Markovian 프레임워크 내에서 자기 회귀와 확산을 통합한다. 이미지 패치를 공간적, 스펙트럼적으로 반복적으로 노이즈 제거하며 텍스트에서 이미지를 생성한다.
대규모 언어 모델의 선호도 조정을 위해 DPO가 널리 사용되고 있지만 토큰 간 중요도 차이를 무시하여 최적화 효율성에 영향을 줄 수 있음. 이에 TIS-DPO를 제안하여 토큰 간 중요도를 고려한 최적 데이터를 제시함.
이 논문은 ICLR 2025의 Foundation Models in the Wild 워크샵에서 받아들여졌다. 이미지의 시각적 이해는 본질적으로 맥락에 의존적이며, 이미지에서 주목하는 대상은 주어진 작업에 따라 달라진다. 대부분의 기존 이미지 인코딩 패러다임은 이미지를 고정된 범용 특징 벡터로 표현하는데, 다양한 시각 정보를 우선순위에 따라 다르게 처리하는 잠재적 필요성을 간과한다.

연구진은 두 가지 인기 있는 방법을 결합하여 에너지를 적게 사용하고 노트북이나 스마트폰에서 로컬로 실행할 수 있는 이미지 생성기를 만들었다.

MIT에서 EECS와 철학 교수들이 공동으로 진행하는 새로운 강좌에서 학생들은 디지털 시대의 도덕적 딜레마에 대해 다룹니다.

머신러닝 모델을 사용하여 신경과학자들이 청각 처리가 현실 세계 청력에 미치는 영향을 연구할 수 있게 되었습니다.

NeuroTrALE 소프트웨어 도구는 대량의 뇌 이미징 데이터를 빠르고 효율적으로 반 자동으로 처리하는 데 도움을 준다.
NeurIPS는 인공지능 및 머신러닝 분야에서 세계 최대 규모의 학회로, 딥마인드는 다이아몬드 후원사로 참여하여 인공지능 및 머신러닝 커뮤니티에서의 연구 진전 교류를 돕고 있다. 딥마인드 팀은 35개의 외부 협업을 포함한 47편의 논문을 가상 패널과 포스터 세션을 통해 발표할 예정이다.