inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

CUDA 프로그래밍 (3) - C/C++/GPU 병렬 컴퓨팅 - 메모리 구조

16-4 matrix addition, device version - 행렬 더하기, CUDA 디바이스 구현

[Matrix Addition Problem] 1D를 사용하지 않는 이유가 뭔가요?

해결된 질문

228

정재헌

작성한 질문수 4

0

강의에서 10,000 x 10,000 행렬의 덧셈을 해결하고자 했고, 이를 2D thread block(32 x 32)으로 풀어내셨습니다.

 

1D thread block을 사용하지 않는 것에 대한 의문이 들었습니다.

 

[질문]


의문을 가진 이유는 다음과 같습니다.

 

우선 2D로 설계할 경우, thread block의 dimension을 어떻게 설정하는지에 따라 낭비되는 thread가 달라집니다.

[1 x 1,024] : GridDim(10,000 x 10 x 1), 2,400,000개 낭비

[2 x 512] : GridDim(5,000 x 20 x 1), 2,400,000개 낭비

[4 x 256] : GridDim(2,500 x 40 x 1), 2,400,000개 낭비

[8 x 128] : GridDim(1,250 x 79 x 1), 1,120,000개 낭비

[16 x 64] : GridDim(625 x 157 x 1), 480,000개 낭비

[32 x 32] : GridDim(313 x 313 x 1), 320,256개 낭비

 

Thread 낭비가 가장 적은 block dimension은 강의에서 소개해주신 [32 x 32] 입니다.

 

저는 여기서 1D로 설계했을 때, 낭비되는 therad의 개수가 궁금해졌습니다.

[1,024] : GridDim(97,657 x 1 x 1), 768개 낭비

 

1D로 thread block을 설계했을때, therad 낭비는 768개로 2D로 설계하는 경우와 비교했을때 적지않은 차이라고 생각합니다.

 

물론 실제로 측정해본 결과(RTX 3090) 약 40 usec 차이로 1D thread block인 경우가 더 빠르긴 했지만 생각보다 큰 차이는 아니었습니다.


양질의 강의를 제공해주셔서 감사합니다!!

c c++ cuda gpu 병렬-처리

답변 1

1

드립커피+한모금더

안녕하세요.

2D 행렬를 다룰 때는 되도록 2D layout 으로 접근하게 됩니다.

CPU + RAM 위주로 설명하는 예제들에서는 2D 행렬도 어차피 1D로 주욱 나열되고, 한 row 와 다음 row 사이에 빈 공간이 없다고 보는 경우가 많을 겁니다. 실제로 memory alloc 을 하거나, 2D 행렬의 memory alloc 상황을 봐도, 1D 로 할당 할 때나 별 차이가 없습니다.

CUDA 를 비롯해서, GPU 기반으로 가거나, 병렬 처리를 고려하면, 이제 2D memory 할당 시에, 1개의 row 가 되도록 128 / 256/ 512 / 1024 Byte boundary에 맞추거나 하는 식으로 할당하는 것이 일반적입니다.

thread block 별로 memory 를 access 할 때, 서로 겹치지 않게 하는 것이 전체 performance 에서 훨씬 유리하기 때문에 이런 상황이 생깁니다.

현재는 addition 이라서, 1D layout 이 유리해 보이지만, 뒤에 multiplication 등의 더 복잡한 연산으로 가면, 2D layout 으로 구현하는 것이 훨씬 빨라집니다. 여러가지 이유로, 2D 행렬 이나, 2D image 를 다룰 거나 할 때는, cuda block 도 2D layout 으로 구성하는 것이 일반적입니다.

감사합니다.

 

1

정재헌

이해했습니다.

답변 감사합니다!

최신 엔비디아 CUDA 아키텍처에서의 결정적 변경 사항

0

10

1

자문자답- 맞는지 틀린지 확인부탁드립니다.

0

11

0

55강 파이썬에만있는 연산자들

0

11

1

55강의 파이썬에서만 있는 연산자들

0

11

1

[문의] 강의 코드 제공여부

0

24

2

코딩살구클럽 가입 문의

0

38

2

코딩 살구 클럽 컴파일 에러

0

22

1

추천 문제

0

22

2

코딩살구클럽 승인

0

31

1

이 강의를 다 들으면 어떤 강의를 들어야 하나요?

0

42

2

선생님 13.3을 써도 큰 차이가 없나요?

0

33

2

코살구 1주차 1940번 문제 조건과 프라이빗 테스트 불일치 문의

0

35

2

메모리 동적할당시 메모리창 빨간 글씨

0

27

2

문제를 고민하는 시간 관련

0

28

2

29강 5:00

0

33

2

코딩살구클럽

0

43

2

코딩살구클럽 문의

0

47

2

코딩살구클럽 승인

0

38

2

띄어쓰기

0

38

2

공부 순서

1

47

2

DP 경우의 수 설명이 이해가 되지 않습니다.

0

36

2

pitch값에 따른 alignement boundary(size) 질문

0

183

2

계산시간 비교

1

383

2

video에 필터를 적용하는 경우

0

378

1