CUDA 프로그래밍 (4) - C/C++/GPU 병렬 컴퓨팅 - 행렬 matrix 곱하기
✅ 전체 (1) ~ (6)의 시리즈 중, (4) 행렬(2D 배열) 병렬로 동시에 곱하기 ✅ NVIDIA GPU + CUDA 프로그래밍을 기초부터 차근차근 설명합니다. ✅ C++/C 언어로 배열/행렬/이미지처리/통계처리/정렬 등을 병렬 컴퓨팅으로 매우 빠르게 처리합니다.
수강생 184명
난이도 중급이상
수강기한 36개월
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결
24-2 3중 for loop 개선책 이해가 가지 않습니다.
- 출장이 잦아서, 답변에 시간이 좀 걸릴 수도 있습니다. 양해 바랍니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요.
cc++cudagpu병렬-처리rkdghrk12
・
0
133
2
- 미해결
transpose-shared.cu 가 느린 이유에 대해서 질문 있습니다.
- 출장이 잦아서, 답변에 시간이 좀 걸릴 수도 있습니다. 양해 바랍니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요.
cc++cudagpu병렬-처리rkdghrk12
・
0
136
2
- 해결
kernelMatCpy에서는 __syncthreads가 필요없지 않나요
제목 그대로 kernelMatCpy에서는 각 스레드 작업이 다른 스레드에 영향을 주지 않기 때문에 필요없을 것 같은데요. 실제로 __stncthreads()를 제거하고 돌려봐도 정상적으로 결과가 나오구요.혹시 이런 경우라도 내부적으로 꼬일 수 있어서 사용하
cc++cudagpu병렬-처리최준석
・
0
226
1
- 해결
소스 코드 에러 문의 드립니다
소스코드 그대로 돌리면, 아래와 같은 에러가 발생합니다. (25장 전체 소스가 모두 동일합니다) 이유와 수정 방법을 알고 싶읍니다. // 25d-gemm-alignedTile.cu/tmp/tmpg97edtlu
cc++cudagpu병렬-처리심현승 Shim
・
0
345
1
- 해결
global memory를 사용한 matrix copy 대비 global memory를 활용한 matrix transpose가 속도가 느린 이유가 궁금합니다.
안녕하세요.먼저 좋은 강의 감사드립니다. 아래 소스는 matcpy-de
cc++cudagpu병렬-처리LongLong
・
0
367
1






