global memory를 사용한 matrix copy 대비 global memory를 활용한 matrix transpose가 속도가 느린 이유가 궁금합니다.
안녕하세요.
먼저 좋은 강의 감사드립니다.
아래 소스는 matcpy-dev.cu에서 가져온 kernel 함수입니다.
global void kernelMatCpy( float* C, const float* A, int matsize, size_t pitch_in_elem ) {
register unsigned gy = blockIdx.y * blockDim.y + threadIdx.y; // CUDA-provided index
if (gy < matsize) {
register unsigned gx = blockIdx.x * blockDim.x + threadIdx.x; // CUDA-provided index
if (gx < matsize) {
register unsigned idx = gy * pitch_in_elem + gx; // in element
C[idx] = A[idx];
}
}
}
그리고 다음 소스는 transpose-dev.cu에서 가져온 kernel 함수 입니다.
global void kernelMatTranspose( float* C, const float* A, unsigned matsize, size_t pitch_in_elem ) {
register unsigned gy = blockIdx.y * blockDim.y + threadIdx.y; // CUDA-provided index
if (gy < matsize) {
register unsigned gx = blockIdx.x * blockDim.x + threadIdx.x; // CUDA-provided index
if (gx < matsize) {
register unsigned idxA = gy * pitch_in_elem + gx;
register unsigned idxC = gx * pitch_in_elem + gy;
C[idxC] = A[idxA];
}
}
}
메모리 접근 관점에서 보면 각 thread별로 A에서 read해서 C에 write하는 동일한 과정으로 보이는데, 결과는 속도 차이가 많이 나는 정확한 원인이 궁금합니다.
memory coalescing 때문으로 추정하고 있는데, 맞는 생각일까요?
감사합니다.
답변 1
0
안녕하세요.
이후 강의에서도 계속 나오게 됩니다만, CUDA는 물론이고, 일반적인 C, C++ 코딩에서도 memory coalescing 문제는 전체 시스템의 성능을 대폭 떨어뜨립니다.
위 예제에서도, transpose 연산이 얼핏 보기에는 matrix 원소 하나 하나를 재배치하는 것 뿐이라고 보이지만, 실제로는 main memory 에서든, CUDA 의 global memory 에서든, memory access 시에는 memory access 순서에 따라서, 성능 차이가 꽤 나게되고, 예를 들어, A번지, A+1번지, A+2 번지 처럼, 연속된 메모리 영역을 access 하는 것과, 꽤 떨어진 메모리 영역을 access 하는 것은 cache fail 부터, DRAM 의 구조 등으로 성능 차이가 꽤 납니다.
CUDA 코딩의 많은 부분은 메모리 access 패턴을 최적화하는 부분을 포함하게 되고, 이후 동영상에서도 많은 설명이 나오게 됩니다. 이부분은 CUDA 만이 아니고, 기존의 C, C++ 코딩에도 해당되는 내용입니다.
감사합니다.
20년 4,5회 13번
0
8
1
11강 CallOrRegister_OnExperienceLoaded 질문
0
16
0
4 - A
0
18
2
코딩살구클럽 입장이 안됩니다
0
55
2
강의자료는 어디서 받을 수 있죠?
1
22
2
4-F 경우의 수 질문입니다.
0
30
2
코딩살구클럽 가입이 안됩니다.
0
65
2
살구 클럽에 대한 질문있습ㄴ디ㅏ
0
54
1
교안 158페이지 문의드립니다
0
44
2
코딩살구클럽 관련 건의사항
0
110
1
코살에 19942 다이어트 문제에 N의 범위가 빠져있슴니다
0
44
1
Reticle이 안나옵니다.
0
22
1
진행 방법 질문드립니다!
0
79
2
Singleton 관련 질문입니다.
1
47
2
안녕하세요. 계속 프로젝트를 해야지 하다가 결제하고 환경 설정 중입니다.
0
22
1
Export template 안됨
1
44
2
2-I) 왜 이 문제가 그래프이론 카테고리에 있는지 잘 모르겠습니다.
0
63
2
AddGameFrameworkComponentReceiver vs AddExtensionHandler
0
31
0
scanf("%d\n") 의미
0
24
1
필기자료 사라졌나요?(실기 일주일만에 안돼서 재도전-_-)
0
46
2
24-2 3중 for loop 개선책 이해가 가지 않습니다.
0
126
2
transpose-shared.cu 가 느린 이유에 대해서 질문 있습니다.
0
132
2
kernelMatCpy에서는 __syncthreads가 필요없지 않나요
0
224
1
소스 코드 에러 문의 드립니다
0
343
1





