질문있습니다 섹션13. Spark streaming 부분

수업 잘 따라가고있습니다
다름이 아니라
선생님과달리 저는 스파크 서브밋을 하면 선생님처럼SLf4J가 아니라 다른 로그가 나옵니다
그리고 선생님처럼 바로 실행되는게 아니라 약 40초에서 1분30초정도 걸려서 실행되는데 혹시 제가 빠뜨렸을법한 설정이 있을까요?
우선 실행만 되면 실습을 따라가는데 큰 문제는 없습니다.
回答 2
0
안녕하세요, 신정환님
우선 로그 설정은 신정환님처럼 나오는게 맞습니다. 혹시 몰라 저도 EC2부터 재구성해서 다시 해봤는데 올려주신것처럼 나오더라구요.
ansible-playbooks/ch9_4/setting_spark-on-yarn.yaml 파일을 보면 아래와 같이 로그 내용을 셋팅하는 구문이 있습니다.

로그 설정 파일인 log4j2.properties 를 만드는 내용인데
이 파일은 기본적으로 아래 구문이 들어가있습니다.
appender.console.layout.pattern = %d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n%ex그래서 연월일 시:분:초 {log_level} {클래스명}: 에러내용
이렇게 나오게끔 되어있어요.
아마도 제가 녹화할 당시 이 내용이 안 들어가있었을 확률이 높은데, 오히려 신정환님처럼 나오는게 맞는 설정이라 걱정하지 않으셔도 됩니다.
그리고 spark-submit 했을 때 실행되는 속도는 좀 느린게 맞습니다. 편집하면서 제가 로딩이 느린부분은 모두 컷 편집을 했어요. 그래서 영상 보시기에는 빨리 나오는 것처럼 보이는게 맞고 제가 EC2 재구성해서 simple_pyspark.py 돌려봤는데 시작되기까지 34초 걸리더라구요. 제가 녹화했을 때도 이정도 걸렸으니 아마 정환님께서 느끼시는 속도가 맞을겁니다.
제가 프로젝트했을 때 운영환경은 서버 자원이 충분했었는데 실습환경보다는 훨씬 빨랐어요. 아마 자원이 넉넉치 않아서 느린 것일 수 있습니다.
혹시 simple_pyspark.py 수행했을 때 몇 초 정도 걸리셨는지 남겨주시면 저랑 비교가 될 것 같습니다.
화이팅입니다 💪
0
안녕하세요, 인프런 AI 인턴입니다. 신정환님.
스파크 실행 시 로그 메시지가 다르거나 실행에 시간이 지연되는 문제는 다양한 원인에 의해 발생할 수 있습니다. 다음은 해당 문제를 점검해볼 수 있는 몇 가지 사항입니다:
하둡 환경 설정: 경고 메시지에서 “missing Hadoop libraries”라고 언급되어 있는 것을 보면, 하둡 관련 라이브러리가 미확인되거나 경로 설정이 잘못된 것일 수 있습니다.
HADOOP_CONF_DIR또는HADOOP_HOME변수의 설정을 확인해보세요.Spark 버전 불일치: 사용하는 Spark 및 관련 라이브러리 버전이 강의에서 사용된 것과 다를 수 있습니다. 이는 실행 시 동작 방식 및 로깅 방식에 영향을 미칠 수 있습니다.
JAVA_HOME 설정: Spark는 Java 환경에 의존하기 때문에,
JAVA_HOME환경 변수가 올바르게 설정되어 있는지 확인해보세요.네트워크 지연: 로컬 머신이 아닌 원격 클러스터에서 Spark를 실행 중이라면 네트워크 지연이 실행 시간을 증가시킬 수 있습니다.
시스템 자원: 로컬 시스템의 메모리나 CPU 자원이 충분하지 않을 경우, 실행이 느려질 수 있습니다.
이러한 점들을 점검해보시고, 개선이 되지 않는다면 추가적으로 로그를 통해 더 상세한 오류 메시지를 확인하는 것도 방법입니다.
제안드린 방법들로 문제를 해결할 수 있기를 바랍니다. 추가적인 질문이 있다면 언제든지 말씀해 주세요. 감사합니다.
파이참 25.3.4 버전에서 한폴더에 두개 프로젝트 생성하는 방법은?
0
26
2
consumer가 모든 파티션을 읽지 않는 이슈가 있습니다
0
79
3
람다 아키텍처에서 speed layer 관련 질문드립니다
0
54
1
아키텍처 관련 질문
0
66
1
code deploy 배포에러
0
72
4
/homework/ch10_3/dataframe_cache.py 과제 질문
0
69
2
ch4_3 apache zookeeper 설치파일 관련 질문
0
83
3
ot 자료
0
65
2
git action - code deploy단계
0
94
2
IDE - Pycharm / VSCode
0
86
1
UI For Apache Kafka 설치하기
0
127
2
kafka broker prompt 변경 확인
0
76
2
디스코드 만료
0
68
2
Zookeeper 설치 오류
1
81
3
github 레파지토리 생성 및 연결 관련 질문드립니다!
0
55
2
git action실행 안됨
0
162
1
터미널에서 NAT 인스턴스로 직접 로그인 안됨
0
65
1
AWS EC2 생성하기 2분55초 부분
0
57
2
git action에서 install_codedeploy-agent.yml
0
53
2
consumer 실행 오류 질문: connect ip 관련
0
95
2
Spark Programs 구조에서 막혔습니다.
0
60
2
kafka-broker01 ping 반응 없습니다.
0
74
3
github actions 오류 문의 드립니다.
0
74
2
github Actions 실행 강의 따라가는도중 막혔습니다.
0
79
2

