CUDA Programming (4) - C/C++/GPU Parallel Computing - Matrix Multiplication
✅ (4) Multiplying Matrices (2D Arrays) in Parallel, out of the complete series from (1) to (6) ✅ Explaining NVIDIA GPU + CUDA programming step-by-step from the basics. ✅ Processing arrays, matrices, image processing, statistical processing, sorting, etc., extremely fast using parallel computing with C++/C languages.
181 learners
Level Intermediate
Course period 36 months
Want to know what questions other learners frequently ask?
- Unresolved
24-2 3중 for loop 개선책 이해가 가지 않습니다.
- 출장이 잦아서, 답변에 시간이 좀 걸릴 수도 있습니다. 양해 바랍니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요.
cc++cudagpu병렬-처리rkdghrk124047
・
0
124
2
- Unresolved
transpose-shared.cu 가 느린 이유에 대해서 질문 있습니다.
- 출장이 잦아서, 답변에 시간이 좀 걸릴 수도 있습니다. 양해 바랍니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요.
cc++cudagpu병렬-처리rkdghrk124047
・
0
129
2
- Resolved
kernelMatCpy에서는 __syncthreads가 필요없지 않나요
제목 그대로 kernelMatCpy에서는 각 스레드 작업이 다른 스레드에 영향을 주지 않기 때문에 필요없을 것 같은데요. 실제로 __stncthreads()를 제거하고 돌려봐도 정상적으로 결과가 나오구요.혹시 이런 경우라도 내부적으로 꼬일 수 있어서 사용하
cc++cudagpu병렬-처리javer965697
・
0
222
1
- Resolved
소스 코드 에러 문의 드립니다
소스코드 그대로 돌리면, 아래와 같은 에러가 발생합니다. (25장 전체 소스가 모두 동일합니다) 이유와 수정 방법을 알고 싶읍니다. // 25d-gemm-alignedTile.cu/tmp/tmpg97edtlu
cc++cudagpu병렬-처리hsshim02070121
・
0
341
1
- Resolved
global memory를 사용한 matrix copy 대비 global memory를 활용한 matrix transpose가 속도가 느린 이유가 궁금합니다.
안녕하세요.먼저 좋은 강의 감사드립니다. 아래 소스는 matcpy-de
cc++cudagpu병렬-처리ilwoonam756940
・
0
360
1

