flashattention

Star

Here are 8 public repositories matching this topic...

MaxLSB / flash-attn2

Star

FlashAttention for sliding window attention in Triton (fwd + bwd pass)

python deep-learning pytorch triton sliding-window flash-attention-2 flashattention

Updated Jun 25, 2025
Python

lyj20071013 / Triton-FlashAttention

Star

This repository contains multiple implementations of Flash Attention optimized with Triton kernels, showcasing progressive performance improvements through hardware-aware optimizations. The implementations range from basic block-wise processing to advanced techniques like FP8 quantization and prefetching

triton attention flashattention

Updated Sep 17, 2025
Python

egaoharu-kensei / flash-attention-triton

Star

Cross-platform FlashAttention-2 Triton implementation for Turing+ with custom configuration mode

Updated Dec 16, 2025
Python

Wulfic / AI-OS

Star

HRM-sMoE LLM training toolkit.

Updated Dec 18, 2025
Python

Kaminyou / Flash-Attention-Practice

Star

An minimal CUDA implementation of FlashAttention v1 and v2

deep-learning cuda-programming flashattention

Updated Jun 5, 2025
Python

adityakamat24 / triton-fast-mha

Sponsor

Star

A high-performance kernel implementation of multi-head attention using Triton. Focused on minimizing memory overhead and maximizing throughput for large-scale transformer layers. Includes clean-tensor layouts, head-grouping optimisations, and ready-to-benchmark code you can plug into custom models.

transformers parallelism triton memory-efficiency gpu-optimization multi-head-attention kernel-programming flashattention