inflearn logo
강의

講義

知識共有

Kafka & Spark を活用したリアルタイムデータレイク

질문있습니다 섹션13. Spark streaming 부분

解決済みの質問

65

skskfl57868915

投稿した質問数 12

0

image.png

수업 잘 따라가고있습니다

다름이 아니라

선생님과달리 저는 스파크 서브밋을 하면 선생님처럼SLf4J가 아니라 다른 로그가 나옵니다

그리고 선생님처럼 바로 실행되는게 아니라 약 40초에서 1분30초정도 걸려서 실행되는데 혹시 제가 빠뜨렸을법한 설정이 있을까요?

우선 실행만 되면 실습을 따라가는데 큰 문제는 없습니다.

kafka apache-spark pyspark data-lake 카카오공채-개발

回答 2

0

hyunjinkim

안녕하세요, 신정환님

우선 로그 설정은 신정환님처럼 나오는게 맞습니다. 혹시 몰라 저도 EC2부터 재구성해서 다시 해봤는데 올려주신것처럼 나오더라구요.

ansible-playbooks/ch9_4/setting_spark-on-yarn.yaml 파일을 보면 아래와 같이 로그 내용을 셋팅하는 구문이 있습니다.

image.png

 

로그 설정 파일인 log4j2.properties 를 만드는 내용인데

이 파일은 기본적으로 아래 구문이 들어가있습니다.

appender.console.layout.pattern = %d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n%ex

그래서 연월일 시:분:초 {log_level} {클래스명}: 에러내용

이렇게 나오게끔 되어있어요.

아마도 제가 녹화할 당시 이 내용이 안 들어가있었을 확률이 높은데, 오히려 신정환님처럼 나오는게 맞는 설정이라 걱정하지 않으셔도 됩니다.

그리고 spark-submit 했을 때 실행되는 속도는 좀 느린게 맞습니다. 편집하면서 제가 로딩이 느린부분은 모두 컷 편집을 했어요. 그래서 영상 보시기에는 빨리 나오는 것처럼 보이는게 맞고 제가 EC2 재구성해서 simple_pyspark.py 돌려봤는데 시작되기까지 34초 걸리더라구요. 제가 녹화했을 때도 이정도 걸렸으니 아마 정환님께서 느끼시는 속도가 맞을겁니다.

 

제가 프로젝트했을 때 운영환경은 서버 자원이 충분했었는데 실습환경보다는 훨씬 빨랐어요. 아마 자원이 넉넉치 않아서 느린 것일 수 있습니다.

혹시 simple_pyspark.py 수행했을 때 몇 초 정도 걸리셨는지 남겨주시면 저랑 비교가 될 것 같습니다.

화이팅입니다 💪

0

skskfl57868915

딱 비슷하게 실행되었습니다!

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 신정환님.

스파크 실행 시 로그 메시지가 다르거나 실행에 시간이 지연되는 문제는 다양한 원인에 의해 발생할 수 있습니다. 다음은 해당 문제를 점검해볼 수 있는 몇 가지 사항입니다:

  1. 하둡 환경 설정: 경고 메시지에서 “missing Hadoop libraries”라고 언급되어 있는 것을 보면, 하둡 관련 라이브러리가 미확인되거나 경로 설정이 잘못된 것일 수 있습니다. HADOOP_CONF_DIR 또는 HADOOP_HOME 변수의 설정을 확인해보세요.

  2. Spark 버전 불일치: 사용하는 Spark 및 관련 라이브러리 버전이 강의에서 사용된 것과 다를 수 있습니다. 이는 실행 시 동작 방식 및 로깅 방식에 영향을 미칠 수 있습니다.

  3. JAVA_HOME 설정: Spark는 Java 환경에 의존하기 때문에, JAVA_HOME 환경 변수가 올바르게 설정되어 있는지 확인해보세요.

  4. 네트워크 지연: 로컬 머신이 아닌 원격 클러스터에서 Spark를 실행 중이라면 네트워크 지연이 실행 시간을 증가시킬 수 있습니다.

  5. 시스템 자원: 로컬 시스템의 메모리나 CPU 자원이 충분하지 않을 경우, 실행이 느려질 수 있습니다.

이러한 점들을 점검해보시고, 개선이 되지 않는다면 추가적으로 로그를 통해 더 상세한 오류 메시지를 확인하는 것도 방법입니다.

제안드린 방법들로 문제를 해결할 수 있기를 바랍니다. 추가적인 질문이 있다면 언제든지 말씀해 주세요. 감사합니다.

파이참 25.3.4 버전에서 한폴더에 두개 프로젝트 생성하는 방법은?

0

26

2

consumer가 모든 파티션을 읽지 않는 이슈가 있습니다

0

79

3

람다 아키텍처에서 speed layer 관련 질문드립니다

0

54

1

아키텍처 관련 질문

0

66

1

code deploy 배포에러

0

72

4

/homework/ch10_3/dataframe_cache.py 과제 질문

0

69

2

ch4_3 apache zookeeper 설치파일 관련 질문

0

83

3

ot 자료

0

65

2

git action - code deploy단계

0

94

2

IDE - Pycharm / VSCode

0

86

1

UI For Apache Kafka 설치하기

0

127

2

kafka broker prompt 변경 확인

0

76

2

디스코드 만료

0

68

2

Zookeeper 설치 오류

1

81

3

github 레파지토리 생성 및 연결 관련 질문드립니다!

0

55

2

git action실행 안됨

0

162

1

터미널에서 NAT 인스턴스로 직접 로그인 안됨

0

65

1

AWS EC2 생성하기 2분55초 부분

0

57

2

git action에서 install_codedeploy-agent.yml

0

53

2

consumer 실행 오류 질문: connect ip 관련

0

95

2

Spark Programs 구조에서 막혔습니다.

0

60

2

kafka-broker01 ping 반응 없습니다.

0

74

3

github actions 오류 문의 드립니다.

0

74

2

github Actions 실행 강의 따라가는도중 막혔습니다.

0

79

2