묻고 답해요
129만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결
Spark on yarn
Hadoop yarn클러스터에서 스파크를 실행하고싶습니다. 하둡은 하둡계정이 따로 있는데 스파크를 하둡계정에서 설치해야하는지 모르겠습니다. 우분투계정에서 설치해도될까요??
-
해결됨스파크 머신러닝 완벽 가이드 - Part 1
교차 평가 시 Evaluator 사용 관련 질문
안녕하세요, 선생님 교차 평가 부분 강의를 듣다가 궁금한 점이 생겨 글 남깁니다. CrossValidator나 TrainValidationSplit 객체 생성 시 인자로 Evaluator 객체(evaluator_accuracy)가 들어가는데요, 강의 자료의 실습 코드를 보면 모델 객체 예측 후 정확도를 평가할 때 evaluator_accuracy 변수에 객체를 다시 생성해서 할당하는데 특별한 이유가 있나요? 예를 들면, spark_cross_validation_hyperparameter_tuning.ipynb의 cmd 24에서는 18라인에 evaluator_accuracy_01 객체를 생성하고 이를 CrossValidator 생성 시 파라미터로 넘기는데, cmd 25에서 evaluate()을 실행 전에 evaluator_accuracy 변수를 새로 생성해서 정확도를 출력합니다. 그냥 위에서 생성한 evaluator_accuracy_01에서 evaluate()를 수행하면 안되나요? 감사합니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
SQL문으로 DataFrame 메소드를 대체할 수 있을까요?
안녕하세요 선생님. 제공해주신 스파크 강의 잘 듣고 있습니다. 수강 중 들었던 생각이 있어 글 남깁니다. 기존에 SQL 문법을 알고있는 사람의 입장에서는 SQL문으로 작성을 하는게 DataFrame의 메소드를 사용하는 것보다 훨씬 쉽게 느껴지는데, 만약 그렇다면 그냥 SQL문으로 작성하는 방법만 숙지하고 있어도 사용하는데는 문제가 없을까요? 아니면 DataFrame의 메소드에서는 지원하지만 SQL문으로는 할 수 없는 기능같은 것들이 있는걸까요?
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
대용량 시계열 엑셀 데이터의 딥러닝에 관하여
안녕하세요 대용량 시계열 엑셀 데이터를 딥러닝으로 결과를 내는것에 대해 질문 드립니다. 현재 10~100기가 정도 까지의 대용량 엑셀 데이터를 딥러닝으로 학습시켜보려고 합니다. 그런데 현재 시도해보려는 방식이 과연 적절한지 의문이 들어서 문의 드립니다. 100기기가 정도되는 시계열 엑셀 데이터를 딥러닝 CNN 완벽 가이드에서 공부하는 방식으로 학습하는게 적절한지요?? 머신러닝 같은 경우 저같은 경우 pandas dataframe을 통해 학습하는 것을 경험해 본 바 있습니다만 강사님의 경우 spark 라는 대용량 데이터에 적합한 머신러닝 tool을 활용하여 학습하는 강의가 있는 것으로 알고 있습니다. 제 의문사항은 딥러닝에서도 spark와 같이 대용량 데이터를 잘 처리할 수 있는 tool을 따로 사용해야되지 않을까 싶어서 문의 드립니다.