hyunjinkim
@hyunjinkim
Students
1,327
Reviews
88
Course Rating
4.9
안녕하세요.
데이터 & AI 분야에서 일하고 있는 15년차 현직자입니다.
정보관리기술사를 취득한 이후 지금까지 얻은 지식을 많은 사람들에게 공유하고자 컨텐츠 제작하고 있습니다.
반갑습니다. :)
Contact: hjkim_sun@naver.com
Courses
Reviews
- Airflow Master Class
- Airflow Master Class
Posts
Q&A
에러 발생 관련 질문드립니다.
안녕하세요 ejs1127님상태를 봤을 때 워커가 제대로 기동이 안된것 같아요. sudo docker compose down 하고 재기동했을 때 어느정도 시간이 지나고 나서 sudo docker ps 명령으로 컨테이너 상태들 캡쳐해서 한번 보여주실래요?
- 0
- 2
- 23
Q&A
vscode 작업화면에 오류가 발생하지 않습니다.
안녕하세요 ejs1127 님 우선 vscode에 기본적인 파이썬 익스텐션이 설치되어 있어야 합니다. 아래에 저 익스텐션이 설치되어 있는지 확인해보세요.(사진) 그리고 vscode에 파이썬 인터프리터가 잡혀있나요? 파이썬 인터프리터가 안잡혀있으면 오탈자 등 체크가 안됩니다. 인터프리터가 잡혀있는지 여부는 오른쪽 하단에 (3.12.3)과 같이 파이썬 버전이 보이면 됩니다. (사진)
- 0
- 2
- 22
Q&A
아키텍처 관련 질문
안녕하세요 nealzs 님 네 맞습니다. 모든 기업이 100% 원천 데이터를 가져와 별도 저장소에 적재해 둔 후 사용하고 있습니다. 15년 전쯤에는 DW 구축이 한창 인기였는데 그때 쓰던 용어로 설명드리자면 원천에서 데이터를 조회하여 ODS 영역이라는 곳에 1차 적재를 해둡니다. ODS 영역은 원천 데이터를 거의 가공없이 가져와 저장해두는 장소입니다 (가져온 시간 등 특정 컬럼은 몇 개 더 만들면서 가져올 수도 있습니다 )ODS 영역의 데이터를 그냥 데이터레이크 또는 레이크하우스라고 볼 수도 있고 필요에 따라 ODS 에 있는 데이터를 1차 가공하여 일명 스타스키마 라고 부르는 구조는 형태로 만들어 저장해 둘수도 있습니다.어쨌든 nealzs 님의 말대로 원천에서 데이터를 가져와 저장해두는 구조는 맞습니다. 답변이 됐을까요?
- 0
- 1
- 25
Q&A
WSL에서 git push 가 안되요 ㅠ
안녕하세요! git push 할 때 username, password 넣으라고 뜨나요?혹시 더 이상 묻지 않고 계속 틀리다고만 나오면, 이미 내부적으로 캐싱된 인증정보를 초기화하셔야해요.WSL에서 아래 명령으로 인증정보를 초기화하고 다시 git push 해보시겠어요?git config --global --unset-all user.password git config --global --unset-all user.token git credential reject 그럼 아마도 다시 username, password를 넣으라고 나올겁니다. 그 때 토큰값 넣으시면되요.혹시 분명 토큰을 잘 넣었는데도 계속 안된다고 하면, 토큰 발급 받을 때 권한을 잘 받았는지도 보셔야해요. 토큰 생성시 repo 부분에 v 체크하셔야 합니다.해보시고 결과 알려주세요 😀
- 0
- 2
- 54
Q&A
plugins 폴더 생성
안녕하세요 전현지님혹시 폴더 생성은 어떻게 하셨어요? vscode 내에서 만들었나요? vscode 에서 생성했던 WSL OS에서 생성하셨든 WSL에서 안보일리는 없는데 아마도 다른 곳에 만드시지 않았나 합니다.아래 인프런 AI 인턴이 말한대로 아래 경로로 만들어져야 합니다. airflow/ ├── dags/ ├── plugins/ ├── shell/ └── your_script.sh혹시 그래도 안되면 좀 더 자세한 증상이나 캡쳐를 올려주시겠어요?
- 0
- 2
- 36
Q&A
chatGPT&Airflow로 블로그 자동 포스팅하기 는 Deprecated 가 필요합니다.
안녕하세요 박찬웅님! 알려주셔서 감사합니다. 원래 다른 블로그로 대체할까 생각도 했지만 시대 흐름상 블로그 자동 포스팅이 좋은 예시는 아닌 것 같아서 올려주신것처럼 Deprecated 처리했습니다. 감사합니다.
- 0
- 2
- 37
Q&A
github에 회원가입이 안되는데 원인이 뭔지 모르겠어요 ㅠ
안녕하세요 dhkim218님 앗 저는 캡차 단계에서 문제가 됐던적은 없어서 해결 방법을 콕 집어 말씀드리기가 좀 어려울 수 있습니다만, 혹시 회사에서 시도하셨나요? 사내에서 https://octocaptcha.com/test여기 접속에 문제가 있으면 캡차가 안된다고 안내하고 있는데 혹시 저기 접속이 되시는지 해보시겠어요? 저는 해보니까 아래처럼 잘 보이긴 합니다. (사진) 그리고 혹시 댁에서는 잘 되시나요?
- 0
- 2
- 73
Q&A
code deploy 배포에러
안녕하세요 김건회님! 우선 kafka broker 서버의 codedeploy-agent 상태 점검 먼저 해봐야 할 것 같아요.밑에 agent가 알려준 것처럼 서버에서 아래 명령어로 상태 점검 결과 좀 알려주세요. sudo service codedeploy-agent status 참고로 다른 분들도 저 부분에서 에러났던 건은 모두 다 동일한 원인이었습니다.kafka-producer 폴더가 최상위 루트로써 해당 폴더를 open 하고 그 안에서 git 작업을 해야 했는데 kafka-producer 보다 하나 상위 폴더를 잡고 그 안에서 git commit & push 했었던 경우였습니다. 혹시 그런 상황인지도 같이 확인 부탁드려요 🙏
- 0
- 4
- 35
Q&A
/homework/ch10_3/dataframe_cache.py 과제 질문
안녕하세요, 지구본님!좋은 질문입니다.우선 지구본님께서 작성하신것 처럼 작성하셔도 됩니다. 그리고 만약 아래처럼 doropDuplicates 할 때 company_count_df = count_df.dropDuplicates(['company_id'])그 결과가 대폭 줄어든다면 (ex: 수십 GB → 수백MB) 오히려 지구본님께서 작성하신 게 더 좋습니다. 제가 github에 올린 코드에서 dropDuplicates 연산 뒤에 persist()를 하지 않은 이유는 우선 company_emp_df 를 읽어들인 후 제일 먼저 count()를 먼저 확인해보는 과정이 있는데 count() 전에 persist()를 해놓지 않으면 결국 HDFS에서 두 번 읽어들이게 됩니다. (company_emp_df를 로드한 직후에 수행한 count()에서 한 번, 맨 마지막 show()에서 한 번)그래서 우선 company_emp_df를 로드하자마자 일단 persist()를 해 놓은 것인고, dropDuplicates 이후에도 persist()를 하면 좋겠지만 실습상 데이터가 그리 크지 않으므로 생략했다고 보시면 되겠습니다. 만약 데이터프레임을 로드하자마자 count() 확인해보는 과정이 없다면, 지구본님께서 작성하신 것처럼 dropDulicates() 와 같은 transform 함수 수행 이후에 persist() 하는 게 더 좋습니다. 좋은 질문이에요 ^^ 화이팅입니다 😀
- 0
- 2
- 48
Q&A
설치중인데 venv를 꼭 써야할까요?
안녕하세요 조만준님!가급적이면 venv 로 가상환경을 만들어주는게 좋습니다.물론 가상환경을 만들면 파이썬 글로벌 환경의 라이브러리들은 인식이 되지 않습니다. 하지만 바로 그런 점 때문에 가상환경을 씁니다. airflow 를 설치하면 굉장히 많은 라이브러리들을 종속성으로 함께 설치하게 되는데 경험적으로 보면 pandas랑 sqlalchemy 버전간 종속성 문제로 문제가 발생하는 경우가 종종 보입니다. 글로벌 환경을 그대로 쓰게 되면 (만약 글로벌 환경에 pandas가 존재할 때) airflow 및 sqlalchemy를 설치하게 되면 종속성 문제가 발생할 가능성이 있습니다. 따라서 가상환경을 만들어주고 그 안에서 airflow 라이브러리들은 설치하게 되면 검증된 버전을 설치하게 됩니다. 따라서 의존성 충돌이 발생할 가능성은 매우 낮아지죠. 이는 Airflow 만의 특징은 아니고 보통 파이썬 프로젝트를 하나 만들 때마다 가상 환경을 하나씩 분리해서 만들어주는 게 일반적입니다.답변이 되셨을까요?
- 0
- 2
- 63





