대용량 시계열 엑셀 데이터의 딥러닝에 관하여

Question

안녕하세요 대용량 시계열 엑셀 데이터를 딥러닝으로 결과를 내는것에 대해 질문 드립니다. 현재 10~100기가 정도 까지의 대용량 엑셀 데이터를 딥러닝으로 학습시켜보려고 합니다. 그런데 현재 시도해보려는 방식이 과연 적절한지 의문이 들어서 문의 드립니다. 100기기가 정도되는 시계열 엑셀 데이터를 딥러닝 CNN 완벽 가이드에서 공부하는 방식으로 학습하는게 적절한지요?? 머신러닝 같은 경우 저같은 경우 pandas dataframe을 통해 학습하는 것을 경험해 본 바 있습니다만 강사님의 경우 spark 라는 대용량 데이터에 적합한 머신러닝 tool을 활용하여 학습하는 강의가 있는 것으로 알고 있습니다. 제 의문사항은 딥러닝에서도 spark와 같이 대용량 데이터를 잘 처리할 수 있는 tool을 따로 사용해야되지 않을까 싶어서 문의 드립니다.

권 철민 · Answer

안녕하십니까, 대용량 데이터 시계열에 CNN을 적용하지 못할 이유는 없습니다. 다만 학습에 너무 오랜 시간이 걸릴 수 있습니다. 굳이 CNN이 아니고 LightGBM에 시계열 데이터 가공을 잘하면 크게 딥러닝 대비 성능이 떨어지지 않는데, 오랜 시간을 들여서 대용량 시계열에 CNN을 적용할 필요가 있을지는 내부적으로 다시 고민해 보셔야 할 것 같습니다. 그리고, 시계열 CNN은 비전 CNN과 약간 적용이 다릅니다. 감사합니다.