
PyGWalker를 사용하여 정적이고 코드 중심의 차트를 넘어서 진정한 대화형 탐색적 데이터 분석 워크플로우를 구축하는 방법을 소개하는 튜토리얼입니다. 타이타닉 데이터셋을 대규모 대화형 쿼리용으로 준비한 후 분석에 적합한 엔지니어링된 피처를 활용하여 데이터의 기본 구조를 드러내고 상세한 행 수준 탐색과 고수준 집계를 모두 가능하게 합니다.

PyGWalker를 사용하여 정적이고 코드 중심의 차트를 넘어서 진정한 대화형 탐색적 데이터 분석 워크플로우를 구축하는 방법을 소개하는 튜토리얼입니다. 타이타닉 데이터셋을 대규모 대화형 쿼리용으로 준비한 후 분석에 적합한 엔지니어링된 피처를 활용하여 데이터의 기본 구조를 드러내고 상세한 행 수준 탐색과 고수준 집계를 모두 가능하게 합니다.

Softmax는 신경망이 생성한 원시 점수를 확률 분포로 변환하여 각 출력을 특정 클래스의 가능성으로 해석할 수 있게 만드는 활성화 함수이다.

Cisco와 Splunk은 옵저버빌리티 및 보안 메트릭을 위해 디자인된 단변량 제로 샷 시계열 기반 모델인 Cisco Time Series Model을 소개했다. 이 모델은 Apache 2.0 라이선스 하에 Hugging Face에 오픈 웨이트 체크포인트로 출시되었으며 과업별 특정 파인튜닝 없이 예측 워크로드를 대상으로 한다.
Panel을 활용해 고급 다중 페이지 인터랙티브 대시 보드를 만드는 튜토리얼. 각 구성 요소를 통해 합성 데이터 생성, 풍부한 필터 적용, 동적 시계열 트렌드 시각화, 세그먼트 및 지역 비교, 그리고 실시간 KPI 업데이트 시뮬레이션 방법을 탐구한다.
이 튜토리얼에서는 Textual을 사용하여 고급 대화형 대시보드를 구축하며 터미널 우선 UI 프레임워크가 현대적인 웹 대시보드와 같이 표현력이 풍부하고 동적일 수 있는 방법을 탐색합니다. 각 스니펫을 작성하고 실행하면서 인터페이스를 조각조각 조립하고 위젯, 레이아웃, 반응 상태 및 이벤트 흐름을 활성화하여 볼 수 있습니다.
이 튜토리얼에서는 Meta Research가 개발하고 오픈 소스로 공개한 고급 구성 관리 프레임워크 인 하이드라를 탐색합니다. Python 데이터 클래스를 사용하여 구조화된 구성을 정의하여 실험 매개변수를 깔끔하고 모듈식으로 관리하고 재현 가능하게 합니다. 튜토리얼을 진행하면서 구성을 구성하고 런타임 오버라이드를 적용하고 시뮬레이션합니다.

실제 기계 학습에서 가장 큰 어려움은 지도 모델이 레이블이 달린 데이터를 필요로 한다는 것인데, 많은 실전 시나리오에서 시작하는 데이터는 대부분 레이블이 없습니다. 수천 개의 샘플을 수동으로 주석을 다는 것은 느리고 비용이 많이 들며 지루하고 종종 실용적이지 않습니다. 이때 액티브 러닝이 게임 체인저가 됩니다.
이 튜토리얼에서는 Apache Spark의 기술을 Google Colab에서 PySpark를 사용하여 직접 활용하는 방법을 탐구합니다. 로컬 Spark 세션 설정부터 변환, SQL 쿼리, 조인, 창 함수까지 단계적으로 진행하며 사용자 구독 유형을 예측하는 간단한 머신 러닝 모델을 구축하고 평가합니다.
이 튜토리얼에서는 Bokeh를 사용하여 완전히 대화형이고 시각적으로 매력적인 데이터 시각화 대시보드를 만드는 방법을 안내합니다. 원시 데이터를 통찰력있는 플롯으로 변환한 다음 링크된 브러싱, 색상 그라데이션, 드롭다운 및 슬라이더를 통한 실시간 필터 기능과 같은 기능으로 향상시킵니다. 진행하면서 사용자 정의 JavaScript로 대시보드에 생명을 불어넣습니다.
이 튜토리얼에서는 도구 문서를 표준화된 호출 인터페이스로 변환하고 중앙 시스템에 등록한 후 자동화된 파이프라인의 일부로 실행하는 효율적인 프레임워크를 구축하는 방법을 보여줍니다.
이 자습서에서는 Lightly AI 프레임워크를 사용하여 자기 지도 학습의 힘을 탐구합니다. 레이블 없이 의미 있는 이미지 표현을 학습하는 SimCLR 모델을 구축한 다음 UMAP와 t-SNE을 사용하여 임베딩을 생성하고 시각화합니다. 데이터를 지능적으로 정리하기 위한 코어셋 선택 기술로 진입하고 액티브 러닝 워크플로를 시뮬레이션합니다.
이 튜토리얼에서는 Dash, Plotly 및 Bootstrap을 사용하여 고급 대화형 대시보드를 구축하는 방법을 설명합니다. 이 도구들이 레이아웃 및 시각화를 설계하는 데 어떻게 도움을 주고, Dash의 콜백 메커니즘이 컨트롤을 출력에 연결하여 실시간으로 응답 할 수 있도록 하는 방법을 강조합니다.
전통적인 머신러닝과 Gemini의 파워를 결합한 고급 데이터 과학 워크플로우를 통해 당뇨병 데이터셋을 준비하고 모델링하며, 평가, 피처 중요도, 부분 의존성에 대해 탐구한다. 중간에 Gemini를 AI 데이터 과학자로 도입한다.
구글 AI 연구팀이 ‘TimesFM-ICF’라는 시계열 예측을 위한 인-컨텍스트 파인튜닝(ICF)을 소개했다. 이는 명령어에서 직접 제공된 여러 관련 시리즈를 활용하도록 TimesFM에 가르치는 연속된 사전 학습 레시피이다. 결과적으로, 이는 몇 가지 샷 예측기로 변환되어 OOD 벤치마크에서 기본 TimesFM 대비 +6.8% 정확도를 제공한다.
이 튜토리얼에서는 Octave를 oct2py 라이브러리를 통해 연결하여 Python 내에서 MATLAB 스타일 코드를 실행하는 방법을 살펴봅니다. Google Colab에서 환경을 설정하고, NumPy와 Octave 간에 데이터를 교환하며, .m 파일을 작성하고 호출하며, Octave에서 생성된 플롯을 Python 내에서 시각화하고, 툴박스, 구조체 및 .mat 파일과 함께 작업하는 방법을 알아봅니다.
LLM은 파라미터 수가 급증하고 MoE 디자인과 대규모 컨텍스트 길이의 널리 사용으로 급속히 발전했습니다. DeepSeek-R1, LLaMA-4, Qwen-3 같은 모델은 이제 수조 개의 파라미터에 이르며 엄청난 컴퓨팅, 메모리 대역폭, 빠른 칩 간 통신이 요구됩니다. MoE는 효율성을 향상시키지만 전문가 라우팅에서 도전을 야기하며 백만 개 이상의 토큰을 갖는 컨텍스트 창은 […]
Salesforce AI Research가 Moirai 2.0을 공개했다. 이는 타임 시리즈 기반 모델의 최신 진보로, 디코더 전용 트랜스포머 아키텍처 위에 구축되어 성능과 효율성에서 새로운 기준을 세우며 GIFT-Eval 벤치마크에서 1위를 차지했다.