cublas

Star

Here are 25 public repositories matching this topic...

kevmo314 / scuda

Star

SCUDA is a GPU over IP bridge allowing GPUs on remote machines to be attached to CPU-only machines.

networking gpu cuda cublas nvml remote-access cudnn mlops

Updated Jun 16, 2025
C++

eth-cscs / Tiled-MM

Star

Matrix multiplication on GPUs for matrices stored on a CPU. Similar to cublasXt, but ported to both NVIDIA and AMD GPUs.

amd gpu cuda cublas nvidia matrix-multiplication rocm cublasxt matmul rocblasxt rocblas

Updated Apr 2, 2025
C++

chenxuhao / caffe-escoin

Star

Escoin: Efficient Sparse Convolutional Neural Network Inference on GPUs

machine-learning caffe gpu cuda inference cublas convolutional-neural-networks sparse-matrix cusparse

Updated Feb 28, 2019
C++

mnicely / nvml_examples

Star

Examples showing how to utilize the NVML library for GPU monitoring

cuda cublas nvidia nvml

Updated May 31, 2022
C++

ironhide23586 / SHMatrix

Star

A neat C++ custom Matrix class to perform super-fast GPU (or CPU) powered Matrix/Vector computations with minimal code, leveraging the power of cuBLAS where applicable.

machine-learning cpp gpu cuda cublas matrix-calculations vector-computations

Updated Jun 24, 2017
C++

nikulukani / pycublasxt

Star

Python interface to the NVIDIA CublasXt API

python gpu linear-algebra cuda cublas multigpu cublasxt

Updated Apr 5, 2019
C++

Bruce-Lee-LY / cutlass_gemm

Star

Multiple GEMM operators are constructed with cutlass to support LLM inference.

gpu cublas nvidia cutlass gemm cublaslt llm matrix-multiply tensor-core

Updated Aug 3, 2025
C++

Bruce-Lee-LY / matrix_multiply

Star

Several common methods of matrix multiplication are implemented on CPU and Nvidia GPU using C++11 and CUDA.

cpu cuda tiling cublas cpp11 nvidia shared-memory reordering naive strassen kahan coppersmith-winograd matrix-multiply

Updated Feb 8, 2023
C++

BorisLestsov / CudaInference

Star

Cuda NN inference

cuda cublas resnet convolutional-neural-networks

Updated May 6, 2020
C++

C++ CUDA-compatible template class that provides an interface for generic purpose matrix related algorithms and computations. Includes Matlab-like functions. This is mainly an example of how to use CUDA code with C++. Don't expect such high performance.

cpp gpu matrix sum cpp14 cuda cublas cpp17 hadamard average inverse determinant transpose matlab-like element-wise

Updated Apr 28, 2021
C++

ilwoolyu / HSD

Star

HSD: Hierarchical Spherical Deformation for Cortical Surface Registration

sphere cublas spherical-harmonics levenburg-marquardt surface-registration shape-correspondence

Updated Jun 20, 2021
C++

yester31 / GEMM_Conv2d_CUDA

Star

CUDA Gemm Convolution implementation

cuda cublas convolution cuda-kernels gemm cuda-programming

Updated Feb 4, 2022
C++

gritukan / hamkaas

Star

deep-learning cuda inference cublas diy cudnn

Updated Sep 27, 2024
C++

VORTICITY-INC / VTensor

Star

VTensor, a C++ library, facilitates tensor manipulation on GPUs, emulating the python-numpy style for ease of use. It leverages RMM (RAPIDS Memory Manager) for efficient device memory management. It also supports xtensor for host memory operations.

gpu numpy cuda cublas xarray tensor xtensor rmm cusolver curand