inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

캐글 Advanced 머신러닝 실전 박치기

초거대 데이터셋을 Submission하려면?

190

수뼈

작성한 질문수 24

0

안녕하세요, 캐글 공부하다가 궁금증이 생겼습니다.

 

제가 참여하고 있는 Closed 대회 데이터가 워낙 커지니 모델의 크기도 그만큼 커지게 되는데, 이때 Kaggle Notebook은 성능이 그닥 좋지 못해서 모델 학습 시간이 너무 오래 걸려 Timeout되거나 OOM이 뜹니다. 이를 해결하는 방법이 어떤 게 있을까요?

머신러닝 kaggle

답변 1

0

권 철민

안녕하십니까,

참가하시는 대회가 정형 데이터를 기반으로 한다면 아래 링크를 참조하셔서 Pandas DataFrame을 생성시에 메모리를 줄여 보시면 어떨까 싶습니다.

https://www.kaggle.com/code/hamditarek/reducing-memory-size-for-great-energy-predictor

이걸로도 메모리가 줄여지지 않거나 아예 DataFrame을 생성하지 않는 대회라면 어쩔 수 없이 Kaggle이 아닌 메모리가 큰 다른 서버(클라우드나, 개인 서버)를 이용하셔야 할 것 같습니다.

감사합니다.

 

sql사용

0

43

2

좋은 강의 감사드립니다.

0

72

2

8분 40초경 LGBClassifier에서 설정해주신 파라미터들 관련 질문

0

246

2

사용 가능한 RAM을 모두 사용한 후 세션이 다운되었습니다

0

596

1

안녕하세요 선생님

0

228

1

권철민교수님 진심으로 감사드립니다.

0

319

1

안녕하세요 선생님

0

351

1

# credit_card_balance 데이터셋 피쳐엔지니어링

0

267

1

Library 관련 질문

0

350

3

최적화 함수 에러

0

587

4

LightGBM Iteration관련

0

422

2

안녕하세요 교수님 vm 관련해서 질문이 있습니다.

0

203

1

코드를 실행했는데 오류가 발생합니다

0

1980

2

bayes_opt 회귀 모델에 적용하려면..

0

267

1

타겟값의 로그변환에 대해서

0

779

1

아나콘다 환경설정

0

459

1

깃허브 주소 문의드립니다.

0

358

1

손실함수에 대한 질문

0

342

1

card_bal 데이터셋 시각화 관련 질문입니다

0

230

1

LGBM null값 처리에 관해 질문있습니다

0

536

1

컬럼 관련 질문

0

278

1

히스토그램 x 값

0

362

1

n_iter 횟수 넘음 질문

0

484

2

학습데이터 테스트데이터 분리

0

321

1