CUDA Programming (4) - C/C++/GPU Parallel Computing - Matrix Multiplication

✅ (4) Multiplying Matrices (2D Arrays) in Parallel, out of the complete series from (1) to (6) ✅ Explaining NVIDIA GPU + CUDA programming step-by-step from the basics. ✅ Processing arrays, matrices, image processing, statistical processing, sorting, etc., extremely fast using parallel computing with C++/C languages.

(5.0) 5 reviews

184 learners

Level Intermediate

Course period 36 months

onemoresipofcoffee

CUDA

GPU

Parallel Processing

C++

CUDA

GPU

Parallel Processing

C++

Want to know what questions other learners frequently ask?

Unresolved
24-2 3중 for loop 개선책 이해가 가지 않습니다.
- 출장이 잦아서, 답변에 시간이 좀 걸릴 수도 있습니다. 양해 바랍니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요.
c
c++
cuda
gpu
병렬-처리
rkdghrk124047
・
02/23/2025
0
133
2
Unresolved
transpose-shared.cu 가 느린 이유에 대해서 질문 있습니다.
- 출장이 잦아서, 답변에 시간이 좀 걸릴 수도 있습니다. 양해 바랍니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요.
c
c++
cuda
gpu
병렬-처리
rkdghrk124047
・
02/23/2025
0
136
2
Resolved
kernelMatCpy에서는 __syncthreads가 필요없지 않나요
제목 그대로 kernelMatCpy에서는 각 스레드 작업이 다른 스레드에 영향을 주지 않기 때문에 필요없을 것 같은데요. 실제로 __stncthreads()를 제거하고 돌려봐도 정상적으로 결과가 나오구요.혹시 이런 경우라도 내부적으로 꼬일 수 있어서 사용하
c
c++
cuda
gpu
병렬-처리
javer965697
・
12/09/2023
0
226
1
Resolved
소스 코드 에러 문의 드립니다
소스코드 그대로 돌리면, 아래와 같은 에러가 발생합니다. (25장 전체 소스가 모두 동일합니다) 이유와 수정 방법을 알고 싶읍니다. // 25d-gemm-alignedTile.cu/tmp/tmpg97edtlu
c
c++
cuda
gpu
병렬-처리
hsshim02070121
・
11/19/2023
0
345
1
Resolved
global memory를 사용한 matrix copy 대비 global memory를 활용한 matrix transpose가 속도가 느린 이유가 궁금합니다.
안녕하세요.먼저 좋은 강의 감사드립니다. 아래 소스는 matcpy-de
c
c++
cuda
gpu
병렬-처리
ilwoonam756940
・
10/05/2023
0
367
1