바이트댄스 연구원들, 6조 토큰으로 학습된 모델 중심의 코드 LLM ‘시드 코더’ 소개

바이트댄스 연구원들은 6조 토큰으로 학습된 모델 중심의 코드 LLM인 ‘시드 코더’를 소개했다. 코드 데이터는 LLM 학습에 중요한 역할을 하며 코딩 작업뿐만 아니라 더 넓은 추론 능력에도 도움을 준다. 많은 오픈소스 모델들은 코드 데이터셋을 선별하고 전문가가 작성한 규칙에 의존하는데, 이러한 방식은 시간이 많이 소요되고 편향적이며 여러 언어에 걸쳐 확장하기 어렵다. 이에 바이트댄스의 연구원들은 자동화된 데이터 파이프라인을 통해 LLM 학습을 재편하고 있으며, 이는 코딩 작업뿐만 아니라 더 넓은 추론 능력에도 도움이 된다. 이러한 혁신적인 방법은 보다 확장 가능하며 효율적인 LLM 모델 개발을 가능하게 한다.
#AIPaperSummary #Applications #ArtificialIntelligence #LanguageModel #Machinelearning #NewReleases #TechNews #일면뉴스
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자