Cuda 4.1

The document contains two CUDA programs: one for vector addition (vector_add.cu) and another for matrix multiplication (matrix_mul.cu). The vector addition program adds two arrays of floats using a CUDA kernel, while the matrix multiplication program multiplies two 2x2 matrices using a different CUDA kernel. Both programs allocate memory on the GPU, perform computations, and then copy the results back to the host for output.

Uploaded by

tryhackkme123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views2 pages

Cuda 4.1

Uploaded by

tryhackkme123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

CUDA 4.

// vector_add.cu #include <stdio.h>

__global__ void vecAdd(float *A, float *B, float *C, int N) {
int i = blockIdx.x * blockDim.x + threadIdx.x;
if (i < N)
C[i] = A[i] + B[i];
}
int main() {
int N = 5;
size_t size = N * sizeof(float);
float A[] = {1, 2, 3, 4, 5};
float B[] = {10, 20, 30, 40, 50};
float C[5];

float d_A, d_B, *d_C;

cudaMalloc(&d_A, size);
cudaMalloc(&d_B, size);
cudaMalloc(&d_C, size);
cudaMemcpy(d_A, A, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_B, B, size, cudaMemcpyHostToDevice);
vecAdd<<<1, N>>>(d_A, d_B, d_C, N);
cudaMemcpy(C, d_C, size, cudaMemcpyDeviceToHost);
printf("Result Vector C:\n");
for (int i = 0; i < N; i++)
printf("%f ", C[i]);
printf("\n");
cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);
return 0;
}

__________________________________________________
CUDA 4.2

// matrix_mul.cu
#include <stdio.h>
__global__ void matMul(float *A, float *B, float *C, int N) {
int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;
if (row < N && col < N) {
float sum = 0;
for (int k = 0; k < N; k++)
sum += A[row * N + k] * B[k * N + col];
C[row * N + col] = sum;
}
}
int main() {
int N = 2; // 2x2 matrix for simplicity
size_t size = N * N * sizeof(float);
float A[] = {1, 2, 3, 4};
float B[] = {5, 6, 7, 8};
float C[4];
float *d_A, *d_B, *d_C;
cudaMalloc(&d_A, size);
cudaMalloc(&d_B, size);
cudaMalloc(&d_C, size);
cudaMemcpy(d_A, A, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_B, B, size, cudaMemcpyHostToDevice);
dim3 threads(16, 16);
dim3 blocks((N+15)/16, (N+15)/16);
matMul<<<blocks, threads>>>(d_A, d_B, d_C, N);
cudaMemcpy(C, d_C, size, cudaMemcpyDeviceToHost);
printf("Result Matrix C:\n");
for (int i = 0; i < N*N; i++) {
printf("%f ", C[i]);
if((i +1) % N ==0) printf("\n");
}
cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);
return 0;
}

Cuda4 2
No ratings yet
Cuda4 2
4 pages
Cuda Add Mult
No ratings yet
Cuda Add Mult
3 pages
Source Code
No ratings yet
Source Code
7 pages
p4 Multiply
No ratings yet
p4 Multiply
2 pages
Rishi
No ratings yet
Rishi
30 pages
Mulmatrix Cu
No ratings yet
Mulmatrix Cu
3 pages
BECOA157 Parallel Matrix Multiplication
No ratings yet
BECOA157 Parallel Matrix Multiplication
3 pages
Moving To Parallel - Addition of 2 Matrices
No ratings yet
Moving To Parallel - Addition of 2 Matrices
14 pages
Input: Output: 1. Sub String Program
No ratings yet
Input: Output: 1. Sub String Program
8 pages
CUDA
No ratings yet
CUDA
3 pages
Cuda
No ratings yet
Cuda
4 pages
Cuda4 1
No ratings yet
Cuda4 1
4 pages
Lab7 GPU
No ratings yet
Lab7 GPU
10 pages
Google Colab Solution Activity
No ratings yet
Google Colab Solution Activity
5 pages
CUDA Matrix Multiplication Quiz
No ratings yet
CUDA Matrix Multiplication Quiz
12 pages
CUDA Class Lecture03
No ratings yet
CUDA Class Lecture03
18 pages
PDC Assignment
No ratings yet
PDC Assignment
9 pages
LP 1,,1
No ratings yet
LP 1,,1
5 pages
CUDA MatrixMultiplication
No ratings yet
CUDA MatrixMultiplication
2 pages
PC Cuda Assignment-2
No ratings yet
PC Cuda Assignment-2
29 pages
Vector Addition
No ratings yet
Vector Addition
3 pages
CUDA Additionof2Vector
No ratings yet
CUDA Additionof2Vector
2 pages
2023 CSC14120 Lecture01 CUDAIntroduction
No ratings yet
2023 CSC14120 Lecture01 CUDAIntroduction
32 pages
HPC (Pra 04)
No ratings yet
HPC (Pra 04)
11 pages
Introduction To CUDA: CAP 4730 Spring 2012
No ratings yet
Introduction To CUDA: CAP 4730 Spring 2012
35 pages
CUDA Exercises
No ratings yet
CUDA Exercises
185 pages
Lab 1 Parallel
No ratings yet
Lab 1 Parallel
4 pages
Addition Cuda
No ratings yet
Addition Cuda
2 pages
217 Lec2
No ratings yet
217 Lec2
24 pages
5 Computation
No ratings yet
5 Computation
13 pages
Cuda Firstprograms PDF
No ratings yet
Cuda Firstprograms PDF
6 pages
Matrix Mult
100% (1)
Matrix Mult
55 pages
Allocate The Device Memory Where We Will Copy M
No ratings yet
Allocate The Device Memory Where We Will Copy M
2 pages
HPC Int2 Key
No ratings yet
HPC Int2 Key
10 pages
DeviceFunc Cu
100% (1)
DeviceFunc Cu
1 page
CUDA Programming for Developers
No ratings yet
CUDA Programming for Developers
42 pages
Cuuda Nvidai Guide - Part3
No ratings yet
Cuuda Nvidai Guide - Part3
15 pages
Multithreaded Architectures: Memory and Data Locality
No ratings yet
Multithreaded Architectures: Memory and Data Locality
39 pages
GPU History & CUDA Programming Basics
No ratings yet
GPU History & CUDA Programming Basics
44 pages
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
No ratings yet
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
45 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
Threads
No ratings yet
Threads
54 pages
Assignment 04
No ratings yet
Assignment 04
16 pages
Cuda Notes From Udacity Lecture
No ratings yet
Cuda Notes From Udacity Lecture
3 pages
Parallel Scan in C CUda
No ratings yet
Parallel Scan in C CUda
3 pages
CUDA Practical's
No ratings yet
CUDA Practical's
38 pages
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
No ratings yet
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
7 pages
217 Lec3
No ratings yet
217 Lec3
46 pages
Group A Assignment 4 (A) : Two Large Vectors
No ratings yet
Group A Assignment 4 (A) : Two Large Vectors
5 pages
CUDA Class Lecture04
No ratings yet
CUDA Class Lecture04
11 pages
CUDA Programming: Johan Seland Johan - Seland@sintef - No
No ratings yet
CUDA Programming: Johan Seland Johan - Seland@sintef - No
76 pages
G80 Cuda
No ratings yet
G80 Cuda
25 pages
Class 10
No ratings yet
Class 10
13 pages
HPC File
No ratings yet
HPC File
22 pages
CUDA Part-2
No ratings yet
CUDA Part-2
49 pages
3 Cuda
No ratings yet
3 Cuda
5 pages
CUDA Lab Guide for Students
No ratings yet
CUDA Lab Guide for Students
19 pages
Matrix-Matrix Multiplication Using Shared Memory
No ratings yet
Matrix-Matrix Multiplication Using Shared Memory
27 pages

Cuda 4.1

Uploaded by

Cuda 4.1

Uploaded by

CUDA 4.

// vector_add.cu #include <stdio.h>

float *d_A, *d_B, *d_C;

You might also like

float d_A, d_B, *d_C;