flashattention

Star

Here are 11 public repositories matching this topic...

MaxLSB / flash-attn2

Star

FlashAttention for sliding window attention in Triton (fwd + bwd pass)

python deep-learning pytorch triton sliding-window flash-attention-2 flashattention

Updated Jun 25, 2025
Python

lyj20071013 / Triton-FlashAttention

Star

This repository contains multiple implementations of Flash Attention optimized with Triton kernels, showcasing progressive performance improvements through hardware-aware optimizations. The implementations range from basic block-wise processing to advanced techniques like FP8 quantization and prefetching

triton attention flashattention

Updated Sep 17, 2025
Python

egaoharu-kensei / flash-attention-triton

Star

Cross-platform FlashAttention-2 Triton implementation for Turing+ with custom configuration mode

Updated Dec 16, 2025
Python

XiaomingFun233 / flash_attn_cuda

Star

easy naive flash attention without optimization base on origin paper

decode attention cuda-kernels flashattention

Updated Nov 14, 2025
Cuda

Wulfic / AI-OS

Star

HRM-sMoE LLM training toolkit.

Updated Dec 18, 2025
Python

kennedy-kitoko / yolov12-sdpa-flashattention-pytorch

Star

PyTorch implementation of YOLOv12 with Scaled Dot-Product Attention (SDPA) optimized by FlashAttention for fast and efficient object detection.

pytorch yolo object-detection sdpa ultralytics yolov12 flashattention

Updated Jun 20, 2025
HTML

rogerchang1108 / FlashAttention-with-CUDA

Star

200 lines Flash Attention (only forward pass) in CUDA.

cuda forward-pass flashattention

Updated Feb 23, 2025
Cuda

Kaminyou / Flash-Attention-Practice

Star

An minimal CUDA implementation of FlashAttention v1 and v2

deep-learning cuda-programming flashattention

Updated Jun 5, 2025
Python

adityakamat24 / triton-fast-mha

Sponsor

Star

A high-performance kernel implementation of multi-head attention using Triton. Focused on minimizing memory overhead and maximizing throughput for large-scale transformer layers. Includes clean-tensor layouts, head-grouping optimisations, and ready-to-benchmark code you can plug into custom models.

transformers parallelism triton memory-efficiency gpu-optimization multi-head-attention kernel-programming flashattention