안녕하세요.
데이터 & AI 분야에서 일하고 있는 15년차 현직자입니다.
정보관리기술사를 취득한 이후 지금까지 얻은 지식을 많은 사람들에게 공유하고자 컨텐츠 제작하고 있습니다.
반갑습니다. :)
Contact: hjkim_sun@naver.com
Courses
Reviews
- Airflow Master Class
- Airflow Master Class
Posts
Q&A
ch4_3 apache zookeeper 설치파일 관련 질문
안녕하세요 구본욱님 우선 수강 중 불편을 드려 죄송합니다.zookeeper 3.8.4 버전이 old 버전이 되면서 다운로드 받는 url이 달라졌습니다. public-nat 서버에서 다운로드 받을 때 아래 경로를 통해서 받으시겠어요? curl -O https://archive.apache.org/dist/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz이름은 똑같으니 다운로드만 잘 되면 ansible playbook 수행하는건 이상없이 잘 될거에요!수정된 URL 경로로 자료도 수정해놓을께요. 감사합니다 😀
- 0
- 3
- 17
Q&A
Bash Operator 외부 쉘파일 수행하기 오류
안녕하세요 pppcent 님 우선 docker-compose.yaml 설정은 잘 돼있는 것 같아요.그럼에도 안된다면 컨테이너 내부로 들어가서 해당 파일이 있는지부터 우선 확인해볼 필요가 있습니다. 워커 컨테이너를 확인한 후 컨테이너 내부로 진입해서 /opt/airflow/plugins 디렉토리 및 그 내부에 select_fruit.sh 파일이 존재하는지부터 확인해봐야 해요. (아래 명령으로 진입)sudo docker ps sudo docker exec -it {worker컨테이너} /bin/bash 컨테이너 내부에 해당 파일이 존재하는지부터 확인해보시겠어요? 만약 없다면 docker-compose.yaml이 제대로 인식되지 않았을 가능성이 높습니다.
- 0
- 3
- 17
Q&A
설치 버전 관련 질문입니다.
안녕하세요 이유성님!로컬PC에서 python3.9 & Airflow 3.0.4 버전으로 설치했다는 말씀이시죠?Airflow 3.0.4 버전과 3.1 버전간 차이를 제가 100% 알지는 못하지만 아마도 실습하는데 문제는 없을것으로 보입니다. 그래도 혹시 버전을 맞추고 싶다면 로컬 환경쪽 파이썬 가상환경을 3.12로 설치하시고 가상환경 만든 다음에 pip install "apache-airflow[celery]==3.1.3" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-3.1.3/constraints-3.12.txt"이렇게 다시 설치해보시겠어요? 참고로 지금 airflow 컨테이너로 설치하면 파이썬 버전이 3.12로 설치됩니다. 그래서 로컬에 python 버전도 3.12로 맞춰주시고 위에 알려드린대로 설치해주시면 파이썬 3.12 기준으로 airlfow 3.1.3 설치가 가능합니다.
- 0
- 1
- 14
Q&A
우분투 버전 다운받아야하는데 어떤걸로 설치해야할까요?
안녕하세요 Rootree님Ubuntu-24.04 로 설치하시면 됩니다!
- 0
- 1
- 18
Q&A
DAG 만들기 중 airflow 패키지 로드 에러
안녕하세요 abc님 주로 pip install 로 라이브러리 설치했는데 IDE 툴에서 여전히 인식이 안된다면 파이썬 가상환경이 잘 안잡혔을 가능성이 매우 높습니다.현재 현상을 확인해야하니, 우선 vscode 전체 화면을 캡쳐해서 올려주실래요? 하단 오른쪽에 보시면 현재 어떤 가상환경에서 작업하시는지 보입니다. 여기는 가상환경인데 pip install은 글로벌 환경에서 했다던가, 아니면 반대로 하셨을 가능성이 높습니다.아무튼 올바른 가상환경에서 작업하셨는지가 중요하니, vscode 전체 화면 캡쳐해서 올려주세요! 그리고 UnauthorizedAccess 에러 뜨는것도 전체 캡쳐해서 올려주시겠어요? 제가 맥북에서만 주로 작업해서 powershell 에러 내용은 한번 봐야 알 것 같아요 ^^ 감사합니다.
- 0
- 2
- 48
Q&A
질문있습니다 섹션13. Spark streaming 부분
안녕하세요, 신정환님우선 로그 설정은 신정환님처럼 나오는게 맞습니다. 혹시 몰라 저도 EC2부터 재구성해서 다시 해봤는데 올려주신것처럼 나오더라구요. ansible-playbooks/ch9_4/setting_spark-on-yarn.yaml 파일을 보면 아래와 같이 로그 내용을 셋팅하는 구문이 있습니다. (사진) 로그 설정 파일인 log4j2.properties 를 만드는 내용인데 이 파일은 기본적으로 아래 구문이 들어가있습니다. appender.console.layout.pattern = %d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n%ex그래서 연월일 시:분:초 {log_level} {클래스명}: 에러내용 이렇게 나오게끔 되어있어요. 아마도 제가 녹화할 당시 이 내용이 안 들어가있었을 확률이 높은데, 오히려 신정환님처럼 나오는게 맞는 설정이라 걱정하지 않으셔도 됩니다. 그리고 spark-submit 했을 때 실행되는 속도는 좀 느린게 맞습니다. 편집하면서 제가 로딩이 느린부분은 모두 컷 편집을 했어요. 그래서 영상 보시기에는 빨리 나오는 것처럼 보이는게 맞고 제가 EC2 재구성해서 simple_pyspark.py 돌려봤는데 시작되기까지 34초 걸리더라구요. 제가 녹화했을 때도 이정도 걸렸으니 아마 정환님께서 느끼시는 속도가 맞을겁니다. 제가 프로젝트했을 때 운영환경은 서버 자원이 충분했었는데 실습환경보다는 훨씬 빨랐어요. 아마 자원이 넉넉치 않아서 느린 것일 수 있습니다. 혹시 simple_pyspark.py 수행했을 때 몇 초 정도 걸리셨는지 남겨주시면 저랑 비교가 될 것 같습니다.화이팅입니다 💪
- 0
- 2
- 25
Q&A
ot 자료
안녕하세요 김예찬님! 강의 소개 부분 자료가 없었네요 😂추가해서 업로드 새로 해놨습니다. 알려주셔서 감사드려요 🙏
- 0
- 2
- 23
Q&A
task_id 사용법이 뭔가 바뀐 것 같습니다.
안녕하세요 ㅇㅅㅇ님!혹시 작성하신 코드를 볼 수 있을까요? 그리고 질문의 내용이 제가 잘 이해가 안가서요. 😂어떤 점이 궁금하신지 조금만 더 알려주시면 감사하겠습니다 😀
- 0
- 3
- 38
Q&A
3.0에서도 수업노트가 성립하는지 확인 부탁드립니다!
안녕하세요 ㅇㅅㅇ님!해당 강의 실습코드를 보시면 bash_t1 = BashOperator( task_id='bash_t1', bash_command='echo "data_interval_end: {{ data_interval_end }} "' ) bash_t2 = BashOperator( task_id='bash_t2', env={ 'START_DATE':'{{data_interval_start | ds }}', 'END_DATE':'{{data_interval_end | ds }}' }, bash_command='echo $START_DATE && echo $END_DATE' ) 이렇게 작성하는 부분이 있습니다. 보시면 data_interval_start 와 end 변수를 출력하도록 되어 있는데 제가 강의를 촬영했던 시점의 버전(2.5.1)에서는 두 값이 다르게 나옵니다. 정확히는 data_interval_start 와 end 변수값이 하루 차이를 가집니다. 그런데 Airflow 3.0 버전부터 data_interval_start와 end 파라미터가 동일한 날짜를 가집니다. 그래서 실습해보시면 강의 녹화 내용과는 다르게 동일한 날짜로 나오는거를 보실 수 있을거에요. 이는 실습을 잘못한게 아니라 버전 차이에서 오는 차이점이라는 걸 설명드리고자 실습 노트를 추가했어요.이해되셨을까요?
- 0
- 3
- 38
Q&A
email operator 오류 관련
안녕하세요 bbbangduk9님!확인이 늦었습니다.음 보니까 conn 이름에 오타가 있는것 같아요. conn_stmp_gmail -> conn_smtp_gmail 이렇게 오타 부분 변경해주세요 ^^
- 0
- 2
- 37





