inflearn logo
강의

Course

Instructor

CUDA Programming (4) - C/C++/GPU Parallel Computing - Matrix Multiplication

22-4 tiled approach - tiled approach

kernelMatCpy에서는 __syncthreads가 필요없지 않나요

Resolved

222

javer965697

1 asked

0

제목 그대로 kernelMatCpy에서는 각 스레드 작업이 다른 스레드에 영향을 주지 않기 때문에 필요없을 것 같은데요. 실제로 __stncthreads()를 제거하고 돌려봐도 정상적으로 결과가 나오구요.
혹시 이런 경우라도 내부적으로 꼬일 수 있어서 사용하신 것인지 아니면 대부분의 shared memory로 복사해서 쓰는 경우에 필요하기 때문에 습관(?)차원에서 사용하신 것인지 궁금합니다.

c c++ cuda gpu 병렬-처리

Answer 1

1

onemoresipofcoffee

안녕하세요.

해당 부분에서는 "습관"으로 생각하시면 되겠습니다.

많은 경우에, kernel 실행 후에, 다른 kernel 이 연달아 실행되거나, 말씀하신 대로, shared memory 에서 즉시 사용하거나 하는 경우가 많아서, 보통 습관적으로 sync threads 를 하는 편입니다.

꼼꼼하게 따져보면, 예제 프로그램에서는 불필요한 경우가 가끔 있습니다. 참고하십시오.

감사합니다.

Reticle이 안나옵니다.

0

6

1

진행 방법 질문드립니다!

0

26

2

Singleton 관련 질문입니다.

1

27

2

안녕하세요. 계속 프로젝트를 해야지 하다가 결제하고 환경 설정 중입니다.

0

13

1

Export template 안됨

1

26

2

2-I) 왜 이 문제가 그래프이론 카테고리에 있는지 잘 모르겠습니다.

0

54

2

AddGameFrameworkComponentReceiver vs AddExtensionHandler

0

23

0

scanf("%d\n") 의미

0

20

1

필기자료 사라졌나요?(실기 일주일만에 안돼서 재도전-_-)

0

37

2

2주차 개념#12 트리 순회

0

25

2

백준 사이트 서비스 종료

0

111

3

26년 1회 실기 해설 강의

0

51

2

프로젝트 질문 문의

0

45

1

주소 연산자(&) 간접 지정자(*) 반대 개념

0

33

1

53번 4-1 자료 오류 있는 것 같습니다.

0

68

2

7번문제

0

57

2

C언어 변형문제 9번문제 Pdf 수정요청

0

45

2

메서드 오버드라드

0

45

2

실수

0

45

1

백준사이트가 종료된다고 합니다.

0

284

2

24-2 3중 for loop 개선책 이해가 가지 않습니다.

0

124

2

transpose-shared.cu 가 느린 이유에 대해서 질문 있습니다.

0

129

2

소스 코드 에러 문의 드립니다

0

341

1

global memory를 사용한 matrix copy 대비 global memory를 활용한 matrix transpose가 속도가 느린 이유가 궁금합니다.

0

360

1