인프런 커뮤니티 질문&답변
질문있습니다 섹션13. Spark streaming 부분
해결된 질문
작성
·
24
0

수업 잘 따라가고있습니다
다름이 아니라
선생님과달리 저는 스파크 서브밋을 하면 선생님처럼SLf4J가 아니라 다른 로그가 나옵니다
그리고 선생님처럼 바로 실행되는게 아니라 약 40초에서 1분30초정도 걸려서 실행되는데 혹시 제가 빠뜨렸을법한 설정이 있을까요?
우선 실행만 되면 실습을 따라가는데 큰 문제는 없습니다.
답변 2
0
안녕하세요, 신정환님
우선 로그 설정은 신정환님처럼 나오는게 맞습니다. 혹시 몰라 저도 EC2부터 재구성해서 다시 해봤는데 올려주신것처럼 나오더라구요.
ansible-playbooks/ch9_4/setting_spark-on-yarn.yaml 파일을 보면 아래와 같이 로그 내용을 셋팅하는 구문이 있습니다.

로그 설정 파일인 log4j2.properties 를 만드는 내용인데
이 파일은 기본적으로 아래 구문이 들어가있습니다.
appender.console.layout.pattern = %d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n%ex그래서 연월일 시:분:초 {log_level} {클래스명}: 에러내용
이렇게 나오게끔 되어있어요.
아마도 제가 녹화할 당시 이 내용이 안 들어가있었을 확률이 높은데, 오히려 신정환님처럼 나오는게 맞는 설정이라 걱정하지 않으셔도 됩니다.
그리고 spark-submit 했을 때 실행되는 속도는 좀 느린게 맞습니다. 편집하면서 제가 로딩이 느린부분은 모두 컷 편집을 했어요. 그래서 영상 보시기에는 빨리 나오는 것처럼 보이는게 맞고 제가 EC2 재구성해서 simple_pyspark.py 돌려봤는데 시작되기까지 34초 걸리더라구요. 제가 녹화했을 때도 이정도 걸렸으니 아마 정환님께서 느끼시는 속도가 맞을겁니다.
제가 프로젝트했을 때 운영환경은 서버 자원이 충분했었는데 실습환경보다는 훨씬 빨랐어요. 아마 자원이 넉넉치 않아서 느린 것일 수 있습니다.
혹시 simple_pyspark.py 수행했을 때 몇 초 정도 걸리셨는지 남겨주시면 저랑 비교가 될 것 같습니다.
화이팅입니다 💪
0
안녕하세요, 인프런 AI 인턴입니다. 신정환님.
스파크 실행 시 로그 메시지가 다르거나 실행에 시간이 지연되는 문제는 다양한 원인에 의해 발생할 수 있습니다. 다음은 해당 문제를 점검해볼 수 있는 몇 가지 사항입니다:
하둡 환경 설정: 경고 메시지에서 “missing Hadoop libraries”라고 언급되어 있는 것을 보면, 하둡 관련 라이브러리가 미확인되거나 경로 설정이 잘못된 것일 수 있습니다.
HADOOP_CONF_DIR또는HADOOP_HOME변수의 설정을 확인해보세요.Spark 버전 불일치: 사용하는 Spark 및 관련 라이브러리 버전이 강의에서 사용된 것과 다를 수 있습니다. 이는 실행 시 동작 방식 및 로깅 방식에 영향을 미칠 수 있습니다.
JAVA_HOME 설정: Spark는 Java 환경에 의존하기 때문에,
JAVA_HOME환경 변수가 올바르게 설정되어 있는지 확인해보세요.네트워크 지연: 로컬 머신이 아닌 원격 클러스터에서 Spark를 실행 중이라면 네트워크 지연이 실행 시간을 증가시킬 수 있습니다.
시스템 자원: 로컬 시스템의 메모리나 CPU 자원이 충분하지 않을 경우, 실행이 느려질 수 있습니다.
이러한 점들을 점검해보시고, 개선이 되지 않는다면 추가적으로 로그를 통해 더 상세한 오류 메시지를 확인하는 것도 방법입니다.
제안드린 방법들로 문제를 해결할 수 있기를 바랍니다. 추가적인 질문이 있다면 언제든지 말씀해 주세요. 감사합니다.





딱 비슷하게 실행되었습니다!