작성
·
573
답변 3
0
신용카드 부도 dataset은 kaggle에서 download 해 왔습니다. 신용카드 관련 data에는 개인 정보가 포함되어 있어서 신용카드 회사 내부 직원이 아니면 사용 불가합니다. kaggle에 올린 data도 개인 신용 정보의 유출 방지를 위해서 실제 데이터를 pca 기법으로 차원 축소해서 실제 데이터는 유추할 수 없도록 변형 시킨 data 입니다. 따라서 신용카드 회사 근무자가 아니라면 강의에서 사용한 데이터 같은 것을 만들기는 어렵습니다. 감사합니다.
0
0
credit_card_default.csv는 신용카드 연체를 예측하는 유명한 데이터셋입니다. Kaggle에 공개된 데이터셋을 사용하였고 실제 유럽의 신용카드 회사에서 고객 정보를 마스킹하여 공개한 데이터셋입니다. 저런 데이터셋을 구하려면 국내의 신용카드 회사에 근무하는 사람이 고객 거래 데이터에 접근할 수 있어야 할 것이고 회사 내규에 따라 고객정보를 마스킹하여 사용하시면됩니다. 공개된 데이터셋은 간접적으로라도 고객 정보를 유추할 수 없도록 PCA 기법을 이용하여 차원 축소한 데이터입니다. 만약 회사내의 실제 데이터를 사용하실 수 있다면 굳이 차원 축소까지 할 필요는 없을 것 같습니다.
감사합니다.
예측한 것은 맞는데 LSTM 모델이 학습한 것이 이동 평균 또는 지수 이동평균의 패턴이기 때문에 그렇습니다. 그 이유는 우리가 가격만 학습 데이터로 제공했기 때문에 평균의 패턴을 학습하는 것이 가격 예측에 가장 근사하기 때문입니다. 만약 이동 평균보다 더 정확한 가격을 예측하려면 학습 데이터에 환율, 외국인/기관 순매수 금액, 미국 나스닥 주가, 거래량 등등 경제 관련 추가 데이터를 입력하면 더 정확할 수 있지만 그럼에도 불구하고 주가 예측을 잘 못하는 이유는 주가의 예측 불가한 변동성 때문입니다. 즉, 예상치 못한 뉴스, 미중 무역분쟁, 기업 실적 등에 따라 주가가 변동하기 때문에 이러한 내용까지 훈련 데이터에 포함되어야 하는데 실제로 불가능하므로 아직까지도 인공지능을 이용해서 주가 예측을 하기 어려운 이유입니다. 가장 어려운 예측이 주식 가격이고 그 이외의 시계열 데이터도 가격에 영향을 주는 다른 요소를 훈련 데이터에 포함해 주어야 하므로 인공지능 모델의 패턴 학습 능력 문제가 아니라 우리가 제공하는 데이터 내의 규칙적인 패턴이 없는 것이 인공지능으로 시계열 자료를 예측하는데 가장 어려운 점 입니다. 패턴이 없는 데이터의 패턴은 학습할 수 없다는 것을 이해하시면 되겠습니다. 감사합니다.