OpenAI, 대규모 AI 슈퍼컴퓨터 훈련을 위한 새로운 네트워킹 프로토콜 MRC 발표
OpenAI는 AMD, 브로드컴, 인텔, 마이크로소프트, NVIDIA와 협력하여 MRC(다중 경로 신뢰 연결)라는 새로운 오픈 네트워킹 프로토콜을 발표했습니다. MRC는 대규모 AI 훈련 클러스터에서 GPU 네트워킹 성능과 복원력을 개선하는 데 중점을 두고 있습니다. 이 프로토콜은 패킷을 수백 개의 경로에 동시에 분산시켜 네트워크 장애가 발생하더라도 마이크로초 단위로 복구할 수 있는 기능을 제공합니다. 이를 통해 10만 개 이상의 GPU를 사용하는 슈퍼컴퓨터를 단 두 개의 이더넷 스위치 계층만으로 구축할 수 있게 됩니다. 이러한 혁신은 AI 훈련의 효율성을 크게 향상시킬 것으로 기대됩니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자