Thread Block 개수에 제한이 있나요?
안녕하세요
저번 Vector Addition 수업에서는 256M(256 x 1024 x 1024)개의 연산을 수행하기 위해서
<<<256*1024, 1024>>>로 커널을 런치하여 Block의 개수에는 제한이 없는 것 처럼 보였는데,
15-5강의에서는 SM의 Thread Block은 32개 까지 가능이라고 하셔서 헷갈리는데
두 개의 Thread Block 개념이 다른 것인지 궁금합니다.
回答 1
1
안녕하세요.
둘다 thread block 에 대한 설명이었고, 둘다 맞는 설명입니다.
kernel design 시에는 thread block 의 갯수가 거의 제한되지 않습니다. (실제로는 제한이 있지만, 매우 큰 숫자라서, 실무에서는 이쪽 제한에 걸리기 전에, memory 용량 제한 등의 다른 제한이 먼저 걸리기 때문에, 제한이 없다고 설명합니다.)
반면, SM 에서는 1개의 SM 이 동시에 실행 가능한 thread block 갯수에 제한을 걸어 두었고, 보통 32개 정도로 제한됩니다. 그래서, SM 들은 kernel 에서 실행하고 있는 매우 많은 thread block 중에서, 딱 32개만 가져와서 실행을 시작하고, 실행 중인 것이 완료되면, 완료되는 대로, 1개씩 더 가져와서, 되도록 항상 32개의 thread block이 동시 실행 상태로 운영되게 합니다.
즉, CUDA 가 관리하는 kernel 의 thread pool 에는 매우 많은 thread block 이 들어갈 수 있고, 실제로 몇 천 개, 몇 만 개의 thread block을 사용하기도 합니다. 이제 CUDA가 kernel을 실행하기 시작하면, 여러 개의 SM 들이 (보통 수십개, 많으면 수백개) 돌면서, 각각은 자기가 동시에 실행시킬 수 있는 최대 갯수 (보통 32개)만큼만 가져와서 실행합니다.
전체 thread 갯수가 아무리 커도, 1개 SM 이 동시에 실행할 수 있는 thread block은 현실적으로 제한될 수 밖에 없습니다.
감사합니다.
Reticle이 안나옵니다.
0
7
1
진행 방법 질문드립니다!
0
26
2
Singleton 관련 질문입니다.
1
28
2
안녕하세요. 계속 프로젝트를 해야지 하다가 결제하고 환경 설정 중입니다.
0
14
1
Export template 안됨
1
26
2
2-I) 왜 이 문제가 그래프이론 카테고리에 있는지 잘 모르겠습니다.
0
54
2
AddGameFrameworkComponentReceiver vs AddExtensionHandler
0
24
0
scanf("%d\n") 의미
0
20
1
필기자료 사라졌나요?(실기 일주일만에 안돼서 재도전-_-)
0
37
2
2주차 개념#12 트리 순회
0
25
2
백준 사이트 서비스 종료
0
111
3
26년 1회 실기 해설 강의
0
51
2
프로젝트 질문 문의
0
45
1
주소 연산자(&) 간접 지정자(*) 반대 개념
0
33
1
ch .12 grid 설정 관련 질문 드립니다.
0
72
2
memcpy 시간 고려 시 gpu vs. cpu
0
82
2
common.cpp의 procArg 함수에 대해 질문이 있습니다.
0
133
2
Warp를 동시에 돌린다는 말이 이해가 가지 않습니다.
0
312
1
매크로 함수를 쓴 이유
0
301
1
VS2022 컴파일 에러
0
365
2
global 변수가 cuda memory에서 사용되는 이유
0
369
1
Warp 갯수에 대한 고찰입니다....
0
540
2
15강 Block ID 예제 오류 질문입니다.
0
359
1
컴파일 시의 <typeinfo> 관련 에러
0
585
1

