kernelMatCpy에서는 __syncthreads가 필요없지 않나요
제목 그대로 kernelMatCpy에서는 각 스레드 작업이 다른 스레드에 영향을 주지 않기 때문에 필요없을 것 같은데요. 실제로 __stncthreads()를 제거하고 돌려봐도 정상적으로 결과가 나오구요.
혹시 이런 경우라도 내부적으로 꼬일 수 있어서 사용하신 것인지 아니면 대부분의 shared memory로 복사해서 쓰는 경우에 필요하기 때문에 습관(?)차원에서 사용하신 것인지 궁금합니다.
답변 1
1
안녕하세요.
해당 부분에서는 "습관"으로 생각하시면 되겠습니다.
많은 경우에, kernel 실행 후에, 다른 kernel 이 연달아 실행되거나, 말씀하신 대로, shared memory 에서 즉시 사용하거나 하는 경우가 많아서, 보통 습관적으로 sync threads 를 하는 편입니다.
꼼꼼하게 따져보면, 예제 프로그램에서는 불필요한 경우가 가끔 있습니다. 참고하십시오.
감사합니다.
5-B
0
29
2
질문있는데요.. vLLM은 말씀하신 사양에 적용이되나요?
0
32
2
20년 4,5회 13번
0
27
2
11강 CallOrRegister_OnExperienceLoaded 질문
0
32
1
4 - A
0
33
2
코딩살구클럽 입장이 안됩니다
0
84
2
강의자료는 어디서 받을 수 있죠?
1
36
2
4-F 경우의 수 질문입니다.
0
36
2
코딩살구클럽 가입이 안됩니다.
0
90
2
살구 클럽에 대한 질문있습ㄴ디ㅏ
0
65
1
교안 158페이지 문의드립니다
0
47
2
코딩살구클럽 관련 건의사항
0
124
1
코살에 19942 다이어트 문제에 N의 범위가 빠져있슴니다
0
46
1
Reticle이 안나옵니다.
0
28
2
진행 방법 질문드립니다!
0
87
2
Singleton 관련 질문입니다.
1
58
2
안녕하세요. 계속 프로젝트를 해야지 하다가 결제하고 환경 설정 중입니다.
0
22
1
Export template 안됨
1
45
2
2-I) 왜 이 문제가 그래프이론 카테고리에 있는지 잘 모르겠습니다.
0
65
2
AddGameFrameworkComponentReceiver vs AddExtensionHandler
0
35
1
24-2 3중 for loop 개선책 이해가 가지 않습니다.
0
130
2
transpose-shared.cu 가 느린 이유에 대해서 질문 있습니다.
0
136
2
소스 코드 에러 문의 드립니다
0
345
1
global memory를 사용한 matrix copy 대비 global memory를 활용한 matrix transpose가 속도가 느린 이유가 궁금합니다.
0
365
1





