작성
·
144
0
안녕하세요
print(tf.__version__)
!nvcc -V
!nvidia-smi
결과는
2.1.0 nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2019 NVIDIA Corporation Built on Sun_Jul_28_19:07:16_PDT_2019 Cuda compilation tools, release 10.1, V10.1.243 Fri Jul 10 11:36:43 2020 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 440.100 Driver Version: 440.100 CUDA Version: 10.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 GeForce RTX 207... Off | 00000000:07:00.0 On | N/A | | 0% 42C P8 10W / 235W | 7977MiB / 7979MiB | 4% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| +-----------------------------------------------------------------------------+
입니다. 도커의 deepo를 이용해 깔아서, 텐서플로우 버전이 2.1.0 으로 되어있고 CUDA 의 버전은 10.2 입니다.
강의는 텐서플로우 1.3 을 기반으로 진행한 것 같아서,
import tensorflow as tf 대신 import tensorflow.compat.v1 as tf 로 대체하여 import 했고, 나머지는 똑같이 유지했습니다.
그런데, 아래와 같은 오류가 나오면서 실행이 되지 않는데,
일단 텐서플로우 2에서는 gfile.FastGFile 은 TF2.0 에서 지원하지 않는다는 경고문같고, 주된 오류는 cuDNN에서 convolution algorithm 을 찾을 수 없다는 내용 같습니다.
구글 클라우드도 quota 요청이 받아들여지지 않아서 막막하고, deepo 로 우분투 GPU서버를 도커로 세팅해서 써도 이런 문제가 나와서 진퇴양난인 상황인데, 이 오류를 어떻게 해결해야할지 모르겠습니다.
아니면 강의와 동일한 환경을 도커가 아닌 우분투 루트에서 만들 수 있는 방법을 알려주시면 큰 도움이 될 것 같습니다.
감사합니다.
답변 1
0
안녕하십니까,
1. 먼저 deepo 에서 제대로 tensorflow 2 버전이 GPU에서 동작하는지 인터넷에서 일반적인 Image Classification 예제를 가지고 테스트 해보십시요. 반드시 학습까지 돌리셔서 gpu가 정상 동작하는지 확인해 보십시요. 그리고 Cuda 버전은 10.2 인데, cuDNN은 어떤 버전인지 말씀해 주십시요.
2. 강의 동영상에서 말씀 드린대로 가상의 conda 환경 tf113을 설치해 주십시요. 이 환경에서는 tf113만 구동할 수 있도록 되어 있습니다. conda는 여러가지 tensorflow 버전을 수행할 수 있도록 가상 환경을 제공합니다. 강의 예제를 수행할때는 이 tf113 환경에서만 돌리시면 됩니다.
3. tf113 환경에서도 구동이 안되면 cuDNN버전과 tensorflow 1.13 버전이 안맞아서 그럴 수 있습니다.
안되면 다시 글 올려 주십시요.
4. 제일 좋은것은 가족분 명의(예를 들어 어머님)로 다른 구글 계정을 만든 후에 명의자분 카드로 새롭게 GCP 에 등록하여 무료 크레딧을 받는 것입니다. 이번에는 GPU를 신청하시기 전에 CPU 8 core정도를 미리 만드신 후에 며칠동안 사용 하신 후 GPU를 신청해 주십시요.
감사합니다.