디렉토리와 jpeg 파일명을 읽는 파일의 절대경로 위치 관련 질문

Question

- 강의 내용 : 개와 고양이 데이터 세트 구성 확인 및 메타 정보 생성하기(09분 56초)

안녕하세요. 이미지 관련 강의를 너무 쉽고 직관적으로 설명해주셔서 감사합니다. 현재 수업 내용을 기반으로 실제 기업 데이터를 활용하여 이미지 분류 태스크를 진행하려고 하는데요.

질문 내용

쥬피터 노트북의 절대 경로를 s3내 데이터로 어떻게 맞춰야 할지 고민이라 질문드립니다.
현재 JPG 파일을 적재한 위치는 S3입니다. 이미지의 카테고리별(216개)로 JPG raw 데이터가 매일 적재되고 있습니다.
데이터 구조는 Train / Test가 나눠있지 않은 상태입니다.
s3에 있는 JPG 데이터를 Sagemaker로 붙어서 keras의 flow_from_dataframe 를 활용한 Generator 방식으로 데이터를 로드해야 하는데요.
혹시 s3내 s3경로가 담긴 파일의 endpoint를 적시한 후 Load해도 괜찮을까요?
아니면 sagemaker내 경로로 s3내 파일들을 마운트해야 할까요? 그렇게 하기에는 데이터가 너무 커서(300GB 정도) 이 방법은 너무 어려울 것 같습니다.

Answer

안녕하십니까, 강의를 잘 듣고 계시다니 저도 기분이 좋군요 ^^제가 sagemaker와 s3를 함께 사용해 보지는 않았습니다. 다만 keras API에서 S3에 직접 붙어서 데이터 처리는 하지 못하는 걸로 알고 있습니다. S3 End point가 아니라 file system 경로를 입력해 줘야 합니다. 제 생각에는 학습하려는 이미지들만 별도의 로컬 파일 시스템으로 다운로드 하신 다음에 여기서 Keras를 적용하시는 게 좋을 것 같습니다만.적어주신걸로 보면 s3를 마운트 하는데 300GB가 필요하다고 하셨는데, 학습하려는 이미지가 300GB 인지, 아니면 S3 자체가 300GB 인지요? 이미지가 300GB라면 학습에 너무 많은 시간이 소모 될 것 같습니다. 이미지가 300GB라면 다시 글 부탁드립니다. 감사합니다.

Answer

네 먼저 바쁘신데 답변 주셔서 감사합니다.현재 S3 자체가 아닌 학습하려는 이미지가 JPG 파일 형식으로 300GB정도 쌓이고, 에어플로우로 매일 추가적인 이미지 파일을 쌓고 있습니다.서치를 진행해보니 Custom data generator를 활용하여 S3에 있는 파일을 처리하는 방법이 있고, 말씀주신 것처럼 별도의 로컬 파일 시스템으로 다운로드를 진행하는 방법이 있는데요. 세이지메이커 스펙을 결정하여 띄울 때, 적어도 300기가 바이트를 감당할 수 있도록 EBS 볼륨을 조정한 후 처리하도록 시도하는데, EBS 볼륨뿐만 아니라 디스크도 300기가 바이트보다 반드시 커야할까요? (GPU를 여러개 활용하여 병렬로 학습해보려 합니다)그리고 혹시 300기가 바이트가 학습하는데 너무 크다고 말씀해 주셔서 페이지에 전시될 수 있는 이미지들만 필터를 한 후 학습을 진행하려고 하는데요.전이학습을 데이터에 적용한 후, Weight를 저장한 후 다음에는 기존 데이터 추가없이 신규 이미지들만 기존 모델에 재학습 시켜도 괜찮을지 문의드립니다.

권순철

디렉토리와 jpeg 파일명을 읽는 파일의 절대경로 위치 관련 질문

이 글과 비슷한 Q&A

강의자료

션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의

주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문

CRUD에서 CR만 배우는건가요