vuiseng9

Follow

Vui Seng Chua vuiseng9

Follow

4 followers · 0 following

in/vuiseng9

Achievements

Achievements

vuiseng9/README.md

Narrow Precision Training

Quantized Training in FP4(8): Concepts and Reference Pytorch Implementation using cuBLASLt and Microxcaling.
Unofficial and Early Benchmark of Nvidia's NVFP4 Training on Blackwell 8xB200.
PoC nvfp4 forward + mxfp8 backward recipe in Transformer Engine, faster than nvfp4-QAT.

Distributed & Parallel

Megatron, Transformed! A Hands-on Megatron-LM Tutorial on Replicating Empirical Trends in Distributed Training and Model Parallelism.
Quick Visual Rundown on MLPerf Training v5.1, new Llama3.1-8B, Flux.1 only.

Model Optimization for Efficient Inference

Post-Training Statistical Calibration for Higher Activation Sparsity, [ENLSP 2024 Spotlight 7, Paper, Oral, Code, Integrated]
Pre-LLM explosion — Unified HuggingFace Trainer for Joint Pruning, Quantization, and Distillation (JPQD), integrating OpenVINO NNCF and runtime. 16× more BERT serving throughput on Xeon Sapphire Rapids. See MLPerf Inference 3.0 submission. Applicable vision, audio models.

Perhaps useful: dlbp, dockerhub, HuggingFace

Pinned Loading

fp4-training fp4-training Public

mxfp8/nvfp4 training - from concept to implementation (cuBLASLt + Microxcaling).

Python
megatron-tutorials megatron-tutorials Public

Hands-on Megatron-LM tutorials on ablating parallelism and scaling trends. DP → ZeRO → TP → SP → CP → PP → VPP → EP

Shell
nemo-perf-nvfp4 nemo-perf-nvfp4 Public

Local NVFP4 Integration and Benchmark

Dockerfile
mlperf-t5.1-rundown mlperf-t5.1-rundown Public

A Quick Rundown of MLPerf Training v5.1 on the New Llama3.1-8B, Flux.1 Models
TransformerEngine TransformerEngine Public

Forked from NVIDIA/TransformerEngine

A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper, Ada and Blackwell GPUs, to provide better performance with lower memory…

Python
faster-qat faster-qat Public

Revisiting QAT: QAT vs. native NVFP4/MXFP8 fine-tuning.

Dockerfile