llm 파인튜닝 deepspeed checkpointing 용량 초과 이슈
520
작성한 질문수 1
혹시 deepspeed로 학습중에 checkpoint가 ssd 용량을 너무 많이 잡아먹지 않게 하려면 어떻게 해야 하나요?? 클라우드 머신으로 10시간짜리 학습중간에 멈춰버려서.. 넉넉찮은 주머니 사정에 타격이 오고 있습니다. 체크포인팅을 할려고 해도 이상하게 용량이 순식간에 300GB를 먹어버리더라구요. 그래서 용량 초과로 에러가 나서 학습이 멈춰버리는 상황입니다. 혹시 이러한 경험 해보셨다면 지혜를 나눠주시면 정말 감사드리겠습니다(- -)(_ _)
답변 1
0
안녕하세요, 인프런 AI 인턴입니다.
태호님, DeepSpeed를 사용하여 학습 중인 체크포인트의 용량 문제로 고민이 크시겠어요. DeepSpeed의 체크포인팅은 매우 많은 저장 공간을 요구할 수 있는데요, 다음과 같은 방법으로 용량을 절약해볼 수 있습니다:
체크포인트 간격 조정: 체크포인트가 발생하는 간격을 늘려 저장되는 체크포인트 수를 줄일 수 있습니다.
체크포인트 가시화: 필요한 데이터만 선택적으로 체크포인트에 저장하는 기능으로, 모든 데이터를 저장할 필요가 없을 경우 사용할 수 있습니다.
오프로딩 설정: DeepSpeed의 오프로딩 기능을 사용하여 CPU나 NVMe SSD와 같은 추가적인 저장 공간으로 체크포인트를 옮길 수 있습니다.
모델 크기 재조정: 모델 크기를 줄여서 체크포인트 용량 자체를 감소시키는 것도 한 가지 방법입니다.
최적화된 저장 포맷 사용: 체크포인트 데이터를 효율적으로 압축하여 저장할 수 있는 포맷을 사용할 수 있습니다.
혹시 이러한 기능들을 이미 적용해보셨는데도 문제가 해결되지 않는다면, DeepSpeed의 공식 문서나 커뮤니티, GitHub 이슈 트래커 등에서 추가적인 도움을 받을 수 있을 것입니다.
또한, 크라우드 서비스 제공업체의 스토리지 관련 최적화 옵션이나 가격 정책을 확인해보는 것도 좋은 방법일 수 있습니다.
이러한 해결책들이 재정적인 부담을 조금이라도 덜어드릴 수 있기를 바라며, 궁금한 점이 있다면 언제든 문의해 주세요!
마크다운을 텍스트 파일로 변환하기
0
14
1
18강 smithery 를 이용한 mcp 실습(업데이트 요청)
0
17
1
guardrails 부분도 현재버전과 약간 다릅니다.
0
18
1
smithery ai 언제 업데이트 되나요?
0
17
1
무료할당량 사용하는데 문제가 생겼습니다.
0
21
1
섹션2-11 내용중 tool_call
0
25
2
max token을 제한하는게 왜 성능을 개선하게 되는걸까요?
0
42
2
20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.
0
20
1
gradio 를 통한 챗봇 인터페이스 실습이 진행되지 않습니다.
0
46
1
pc에서는 괜찮은데 탭으로 들으니 화면확대시 화면이 까맙니다
0
22
1
모든 자료 다운로드 누를때마다 똑같은 excel파일이 다운로드 받아짐. 노션 주소 공유되나요?
0
31
2
Unauthorized 에러
0
42
2
파워쉘에서 패키지 설치 시 오류
0
40
2
강의 영상 오류
0
58
1
소득세법 docx 파일 공유 요청건
0
65
1
안녕하세요! 질문이 있습니다.
0
53
2
뉴스 데이터 전처리 실습 파일 부재
0
53
3
테스트데이터셋 평가지표 값 문제
0
52
1
다음 강의는 언제 올라오려나요?
0
49
1
18강에서 smithery 화면 오류
0
61
2
언어 감지 및 검색 라우팅
0
50
2
mcp 강의 38:33 초 프로필이 안보여요
0
61
2
MCP 강의에서 Smithery 에 URL 문제
0
55
3
pyzerox 유니코드 에러
0
75
2





