
RLVR 기법을 활용한 대형 언어 모델의 수학 및 논리 문제 해결 능력 향상을 위해, 기존 영어 중심 데이터셋의 한계를 극복한 다국어 수학 문제 데이터셋 mAceReason-Math가 공개됐다.

RLVR 기법을 활용한 대형 언어 모델의 수학 및 논리 문제 해결 능력 향상을 위해, 기존 영어 중심 데이터셋의 한계를 극복한 다국어 수학 문제 데이터셋 mAceReason-Math가 공개됐다.

PyGWalker를 사용하여 정적이고 코드 중심의 차트를 넘어서 진정한 대화형 탐색적 데이터 분석 워크플로우를 구축하는 방법을 소개하는 튜토리얼입니다. 타이타닉 데이터셋을 대규모 대화형 쿼리용으로 준비한 후 분석에 적합한 엔지니어링된 피처를 활용하여 데이터의 기본 구조를 드러내고 상세한 행 수준 탐색과 고수준 집계를 모두 가능하게 합니다.
구글이 캐글과 코랩 사이의 간극을 메우기 위해 새로운 기능인 코랩 데이터 익스플로러를 출시했다. 이를 통해 노트북 내에서 캐글 데이터셋, 모델, 대회를 검색하고 편집기를 벗어나지 않고 캐글허브를 통해 가져올 수 있다.

UC San Diego 연구진이 로봇학 분야에서 민첩한 손 조작을 위한 10억 규모의 Dex1B 데이터셋을 소개했다. 손 조작을 위한 대규모 데이터 수집은 로봇공학에서 여전히 주요 과제이며, 이번 데이터셋은 민첩한 손의 복잡성을 효과적으로 다룰 수 있는 방법을 모색하고 있다.

의료 결정 지원 및 적응형 채팅 기반 보조기능을 통해 의료 분야를 혁신시키려는 LLM의 주요 도전 과제는 사실적이지 않은 의료 정보를 생산하는 경향이 있음. ETH와 Stanford 연구진은 이 문제를 해결하기 위해 5.8백만 쌍의 데이터셋 MIRIAD를 소개하며 외부 의료 지식을 활용해 LLM의 정확도를 향상시키고자 함.