cublas

Here are 31 public repositories matching this topic...

Bruce-Lee-LY / cuda_hgemm

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

gpu cuda cublas nvidia gemm matrix-multiply tensor-core hgemm

Updated Sep 8, 2024
Cuda

hma02 / cublasgemm-benchmark

Star

code for benchmarking GPU performance based on cublasSgemm and cublasHgemm

benchmarking gpu cuda cublas gemm gpu-performance

Updated May 20, 2022
Cuda

deepreinforce-ai / CUDA-L2

Star

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

reinforcement-learning cublas nvidia matrix-multiplication cuda-kernels large-language-models

Updated Dec 15, 2025
Cuda

rbaygildin / learn-gpgpu

Star

Algorithms implemented in CUDA + resources about GPGPU

gpu opencl parallel-computing cuda image-processing cublas nvidia gpgpu gpu-computing pycuda curand

Updated Jan 18, 2022
Cuda

hma02 / cublasHgemm-P100

Star

Code for testing the native float16 matrix multiplication performance on Tesla P100 and V100 GPU based on cublasHgemm

gpu cublas precision gemm half-precision float16 p100 v100

Updated Aug 20, 2019
Cuda

Bruce-Lee-LY / cuda_hgemv

Star

Several optimization methods of half-precision general matrix vector multiplication (HGEMV) using CUDA core.

gpu cuda cublas nvidia gemm gemv matrix-multiply tensor-core hgemm cuda-core hgemv

Updated Sep 8, 2024
Cuda

coderonion / cuda-beginner-course-cpp-version

Star

bilibili视频【CUDA 12.x 并行编程入门(C++版)】配套代码

python rust cpp gpu cuda cublas nvidia cudnn nvcc parallel-programming gpu-programming cuda-programming

Updated Aug 12, 2024
Cuda

yester31 / CUDA_EX

Star

CUDA kernel functions

gpu cuda cublas matrix-multiplication cuda-kernels gemm cuda-programming bicubic-interpolation

Updated Dec 2, 2024
Cuda

Bruce-Lee-LY / cuda_back2back_hgemm

Star

Use tensor core to calculate back-to-back HGEMM (half-precision general matrix multiplication) with MMA PTX instruction.

gpu cuda cublas nvidia gemm matrix-multiply tensor-core hgemm back2back-hgemm fused-hgemm back2back-gemm fused-gemm

Updated Nov 3, 2023
Cuda

jagennath-hari / CUDA-Accelerated-Visual-Inertial-Odometry-Fusion

Star

Harness the power of GPU acceleration for fusing visual odometry and IMU data with an advanced Unscented Kalman Filter (UKF) implementation. Developed in C++ and utilizing CUDA, cuBLAS, and cuSOLVER, this system offers unparalleled real-time performance in state and covariance estimation for robotics and autonomous system applications.